| Erkki.I.Kolehmainen n TIEKE Uusi suomalainen merkistöstandardi Merkistö määrittelee käytettävän merkkivalikoiman ja kunkin siihen sisältyvän merkin koodauksen; samalla merkillä voi olla eri merkistöissä tyystin erilainen koodaus. Kullakin tietojärjestelmässä käsiteltävällä merkillä tulee olla oma koodiarvonsa, joka sille voidaan antaa sitä sisäänsyötettäessä esimerkiksi näppäimistöltä. Koodi antaa mahdollisuuden merkin tallentamisen lisäksi myös sen käsittelyyn, esimerkiksi lajittelussa tai hakutekijänä tai vaikkapa laskutoimituksissa. Koodia käytetään myös tulostettaessa merkki esimerkiksi näytölle tai kirjoittimelle. Ellei mitään loogista käsittelyä tarvita, voi merkkiä myös edustaa koodin asemesta kuvake, joka ei tosin myöskään mukaudu eri fontteihin. Merkistöjen rajoituksia Merkistön koodaukseen käytettyjen bittien määrä rajoittaa valikoiman koon: 7-bittiset merkistöt (esim. US ASCII) sisältävät ohjausmerkkeineen 128 merkkiä ja 8-bittiset merkistöt (esim. ISO/IEC 8859 -sarja) 256 merkkiä. Tästä syystä kehitys on kohti monioktettista merkistöä. Kysymyksessä on kaksi eri standardia, ISO/IEC 10646, Universal Character Set (UCS), ja Unicode, joilla on yhteinen merkkivalikoima ja koodaus. Tämä onkin ainoa koodaustapa, joka mm. sallii kaikkien latinalaismerkkien samanaikaisen käsittelyn, jopa rinnan kaikkien muiden skriptien kanssa. Tämän epäkohdan poistamiseksi on aiemmin kehitetty erilaisia laajennusmenetelmiä, kuten esimerkiksi ISO/IEC 6937, Coded Graphic Character Set for Text Communication - Latin Alphabet, joka sekin tosin on puutteellinen. Uusi merkistöstandardi ISO/IEC 8859-15 ('Latin-9') julkaistiin kansainvälisenä standardina 15. maaliskuuta 1999. Suomen kieli- ja kulttuurisidonnaisia merkintätapoja käsittelevä työryhmä ehdotti syksyllä sen julkaisemista myös SFS-standardina. Kannanottokierroksella, joka toteutettiin sekä kohdistettuna että TIEKEn verkkosivuilla, tätä ehdotusta kannatettiin yleisesti. Standardin tunnukseksi tulee SFS ISO/IEC 8859-15. Suomessa on nykyisin yleisessä käytössä, joskaan ei kansallisena standardina, lähinnä 'Latin-1'-merkkivalikoima (ISO/IEC 8859-1), josta kuitenkin puuttuu muun muassa euro-valuutan merkki €. Koska 'Latin-1':ssä ei ole tilaa lisämerkeille, päätettiin tästä johtuen synnyttää uusi euron merkin sisältävä kansainvälinen merkistöstandardi, joka kattaisi samat kielet kuin 'Latin-1'. Samalla kun tämä puute korjattiin, tarjoutui myös tilaisuus korjata ne puutteellisuudet, joita 'Latin-1'-merkistön väitettyyn kielitukeen sisältyi. Niinpä 'Latin-9' nyt sisältää 'Latin-1'-tasoa paremman ranskan ja suomen kielten tuen. Suomen kielen tarpeet Suomen kirjakielen voidaan katsoa kehittyneen nykyiselleen 1800-luvun loppuun mennessä. Tuolloin vakiinnutettiin myös suomen nykyinen oikeinkirjoitusjärjestelmä, jonka perusperiaate on kirjoituksen ja ääntämyksen vastaavuus: yhtä äännettä merkitään yhdellä kirjainmerkillä, samoin yhdellä kirjaimella on vain yksi äännearvo. Suomen kielessä ei ole soinnitonta eikä soinnillista suhuäännettä ja Kirjaimia ja Suomessa on tähän mennessä turvauduttu standardiin ISO/IEC 8859-1 ('Latin-1'). Koska
tästä standardista puuttuvat kyseiset kirjaimet ja Suomen kielen tuki Uudistuksen tuloksena voidaan suomen kieltä kirjoittaa moitteettomasti 'Latin'-sarjan osilla 4, 6, 7 ja 9. Niistä 'Latin-9' soveltuu Suomen oloihin kaikkein parhaiten, koska se eroaa Suomessa ja läntisessä Euroopassa tähän asti yleisesti käytetystä 'Latin-1'-merkkivalikoimasta vähiten ja koska se toisin kuin muut p.o. osat sisältää euron merkin. Euron merkin käyttötarpeesta johtuen voidaan 'Latin-9'-merkistön käytön olettaa yleistyvän muuallakin Euroopassa. Suomen kieli on luonnollisesti tuettu myös UCS-merkistössä, joka samalla tukee muiden muassa kaikki saamen kielet ja Suomessa puhutun romanikielen, jonka ainutlaatuisena ominaisuutena on hattu-h -merkki. Suunnittelunäkökohtia 'Latin-9'-merkkivalikoima on suunniteltu erityisen huolellisesti siten, että sen käyttöön siirtyminen 'Latin-1'-merkkivalikoimasta olisi mahdollisimman ongelmatonta. Niinpä ne 'Latin-1'-merkit, jotka eivät sisälly myös 'Latin-9':ään, ovat sellaisia, joita on käytetty harvoin, jos lainkaan, kuten oheisista taulukoista ilmenee (- huomattakoon, että 'Latin-9':ään kuulumattomista 'Latin-1':n merkeistä [´], [¨] ja [¸] eivät ole sellaisenaan tarkekäyttöön soveltuvia yhdistemerkkejä). Nykytilanteessa useat laite- ja ohjelmistovalmistajat ovat toteuttaneet omia merkistöratkaisujaan, joten koko ISO/IEC 8859 -sarjan eri osien suurin merkitys on siinä, että niitä käytetään vaihtomuotostandardeina erilaisten järjestelmien välillä. Kansalliset merkistöstandardit myös ohjaavat valmistajia sen suhteen, mikä merkkivalikoima heidän tulisi vähintäänkin toteuttaa kuhunkin maahan suunnatuissa tuotteissaan.
|