Erkki.I.Kolehmainen n TIEKE

Uusi suomalainen merkistöstandardi

Merkistö määrittelee käytettävän merkkivalikoiman ja kunkin siihen sisältyvän merkin koodauksen; samalla merkillä voi olla eri merkistöissä tyystin erilainen koodaus.

Kullakin tietojärjestelmässä käsiteltävällä merkillä tulee olla oma koodiarvonsa, joka sille voidaan antaa sitä sisäänsyötettäessä esimerkiksi näppäimistöltä. Koodi antaa mahdollisuuden merkin tallentamisen lisäksi myös sen käsittelyyn, esimerkiksi lajittelussa tai hakutekijänä tai vaikkapa laskutoimituksissa. Koodia käytetään myös tulostettaessa merkki esimerkiksi näytölle tai kirjoittimelle. Ellei mitään loogista käsittelyä tarvita, voi merkkiä myös edustaa koodin asemesta kuvake, joka ei tosin myöskään mukaudu eri fontteihin.

Merkistöjen rajoituksia

Merkistön koodaukseen käytettyjen bittien määrä rajoittaa valikoiman koon: 7-bittiset merkistöt (esim. US ASCII) sisältävät ohjausmerkkeineen 128 merkkiä ja 8-bittiset merkistöt (esim. ISO/IEC 8859 -sarja) 256 merkkiä. Tästä syystä kehitys on kohti monioktettista merkistöä. Kysymyksessä on kaksi eri standardia, ISO/IEC 10646, Universal Character Set (UCS), ja Unicode, joilla on yhteinen merkkivalikoima ja koodaus. Tämä onkin ainoa koodaustapa, joka mm. sallii kaikkien latinalaismerkkien samanaikaisen käsittelyn, jopa rinnan kaikkien muiden skriptien kanssa. Tämän epäkohdan poistamiseksi on aiemmin kehitetty erilaisia laajennusmenetelmiä, kuten esimerkiksi ISO/IEC 6937, Coded Graphic Character Set for Text Communication - Latin Alphabet, joka sekin tosin on puutteellinen.

Uusi merkistöstandardi

ISO/IEC 8859-15 ('Latin-9') julkaistiin kansainvälisenä standardina 15. maaliskuuta 1999. Suomen kieli- ja kulttuurisidonnaisia merkintätapoja käsittelevä työryhmä ehdotti syksyllä sen julkaisemista myös SFS-standardina. Kannanottokierroksella, joka toteutettiin sekä kohdistettuna että TIEKEn verkkosivuilla, tätä ehdotusta kannatettiin yleisesti. Standardin tunnukseksi tulee SFS ISO/IEC 8859-15.

Suomessa on nykyisin yleisessä käytössä, joskaan ei kansallisena standardina, lähinnä 'Latin-1'-merkkivalikoima (ISO/IEC 8859-1), josta kuitenkin puuttuu muun muassa euro-valuutan merkki €. Koska 'Latin-1':ssä ei ole tilaa lisämerkeille, päätettiin tästä johtuen synnyttää uusi euron merkin sisältävä kansainvälinen merkistöstandardi, joka kattaisi samat kielet kuin 'Latin-1'. Samalla kun tämä puute korjattiin, tarjoutui myös tilaisuus korjata ne puutteellisuudet, joita 'Latin-1'-merkistön väitettyyn kielitukeen sisältyi. Niinpä 'Latin-9' nyt sisältää 'Latin-1'-tasoa paremman ranskan ja suomen kielten tuen.

Suomen kielen tarpeet

Suomen kirjakielen voidaan katsoa kehittyneen nykyiselleen 1800-luvun loppuun mennessä. Tuolloin vakiinnutettiin myös suomen nykyinen oikeinkirjoitusjärjestelmä, jonka perusperiaate on kirjoituksen ja ääntämyksen vastaavuus: yhtä äännettä merkitään yhdellä kirjainmerkillä, samoin yhdellä kirjaimella on vain yksi äännearvo.

Suomen kielessä ei ole soinnitonta eikä soinnillista suhuäännettä š ja small z with caron (hattu-s ja hattu-z), vaan kaikki sanat, joissa nämä äänteet esiintyvät, ovat uudehkoja lainasanoja tai erisnimiä. Niissä kielissä, joissa nämä äänteet esiintyvät, niitä merkitään monella eri tavalla ja yhden äänteen merkitsemiseen käytetään usein kahden tai kolmen kirjaimen yhtymää. Tällainen käytäntö on kuitenkin Suomen oikeinkirjoitusjärjestelmän vastainen. Koska suomea kirjoitettaessa yhtä äännettä vastaa yksi kirjain, tulee meidän käyttää merkkejä š ja small z with caron, esimerkiksi šakki, šaahi, šeikki, šillinki, tšeremissi, šamaani; dsmall z with carononkki, maharadsmall z with carona.

Kirjaimia š ja small z with caron tarvitaan ennen kaikkea kirjoitettaessa vieraita henkilönnimiä ja maiden nimiä. Kyrillisten kirjainten translitterointia varten on olemassa kansainvälinen standardi ISO 9. Suomessa sovelletaan yleensä kansallista standardia SFS 4900, Transliteration of Cyrillic Characters. Suomen kansallisen käytännön sekä Suomessa hyväksytyn standardin mukaisesti kirjoitetaan esimerkiksi Tšaikovski, Gorbatšov, Tšetšenia, Tšekki, Azerbaidsmall z with caronan, Bresmall z with caronnev.

Suomessa on tähän mennessä turvauduttu standardiin ISO/IEC 8859-1 ('Latin-1'). Koska tästä standardista puuttuvat kyseiset kirjaimet š ja small z with caron, ne ovat Suomessa käytettävistä tietotekniikan sovelluksistakin puuttuneet tai ne ovat olleet vaikeasti tuotettavissa. Muun muassa tästä syystä on vähemmän huolitelluissa teksteissä usein turvauduttu väärään merkintään 'sh' ja 'zh'. Kaunokirjallisissa julkaisuissa ja esimerkiksi tietosanakirjoissa on kuitenkin yleisesti noudatettu oikeinkirjoitussääntöjen mukaista merkintätapaa, vaikka kirjainten š ja small z with caron tuottaminen on saattanut olla hankalaa.

Suomen kielen tuki

Uudistuksen tuloksena voidaan suomen kieltä kirjoittaa moitteettomasti 'Latin'-sarjan osilla 4, 6, 7 ja 9. Niistä 'Latin-9' soveltuu Suomen oloihin kaikkein parhaiten, koska se eroaa Suomessa ja läntisessä Euroopassa tähän asti yleisesti käytetystä 'Latin-1'-merkkivalikoimasta vähiten ja koska se toisin kuin muut p.o. osat sisältää euron merkin. Euron merkin käyttötarpeesta johtuen voidaan 'Latin-9'-merkistön käytön olettaa yleistyvän muuallakin Euroopassa.

Suomen kieli on luonnollisesti tuettu myös UCS-merkistössä, joka samalla tukee muiden muassa kaikki saamen kielet ja Suomessa puhutun romanikielen, jonka ainutlaatuisena ominaisuutena on hattu-h -merkki.

Suunnittelunäkökohtia

'Latin-9'-merkkivalikoima on suunniteltu erityisen huolellisesti siten, että sen käyttöön siirtyminen 'Latin-1'-merkkivalikoimasta olisi mahdollisimman ongelmatonta. Niinpä ne 'Latin-1'-merkit, jotka eivät sisälly myös 'Latin-9':ään, ovat sellaisia, joita on käytetty harvoin, jos lainkaan, kuten oheisista taulukoista ilmenee (- huomattakoon, että 'Latin-9':ään kuulumattomista 'Latin-1':n merkeistä [´], [¨] ja [¸] eivät ole sellaisenaan tarkekäyttöön soveltuvia yhdistemerkkejä).

Nykytilanteessa useat laite- ja ohjelmistovalmistajat ovat toteuttaneet omia merkistöratkaisujaan, joten koko ISO/IEC 8859 -sarjan eri osien suurin merkitys on siinä, että niitä käytetään vaihtomuotostandardeina erilaisten järjestelmien välillä. Kansalliset merkistöstandardit myös ohjaavat valmistajia sen suhteen, mikä merkkivalikoima heidän tulisi vähintäänkin toteuttaa kuhunkin maahan suunnatuissa tuotteissaan.