Saamelaiskäräjien omat ohjeet kannattaa tarkistaa ensin. Tämä osio täydentää näitä ohjeita digitaalisten palvelujen tuottajien näkökulmasta.
Kielikoodit
Yleisesti
Osa kuvauksesta voi olla erityisen hyödyllinen palvelujen teknisen toteuttamisen kannalta, mutta tavoitteena on ollut avata kielikoodien käyttöä myös yleisemmin. Kielten määrittämiseen on olemassa erilaisia kielikoodeja, jotka tulevat kansainvälisistä standardeista ja määrityksistä. Usein kielikoodeja ei ole tarkoitettu ihmisten luettavaksi, vaan ne ovat osa teknistä määritystä, jonka avulla esimerkiksi käyttöliittymässä tietynkielinen termi tai teksti valikoituu automaattisesti näytettäväksi. Käytetty koodi on hyvä valita yhdenmukaisesti ja kukin käyttötilanne huomioiden. Jos palvelu ei osaa käsitellä erityisesti pohjoissaamen kolmikirjaimista koodia oikein, on taustalla usein se, että järjestelmä odottaa kaksikirjaimista koodia. Suomessa puhuttujen saamen kielten kielikoodeista monissa tilanteissa oikein toimiva yhdistelmä on:
Pohjoissaame se
Inarinsaame smn
Koltansaame sms
Pohjoissaamelle on myös olemassa kolmekirjaiminen koodi sme, mutta monet tietojärjestelmät edellyttävät kaksikirjaimista koodia sellaisilta kieliltä, joille tällainen on määritetty. Sekä koodit se että sme ovat oikein ja viittaavat pohjoissaameen. Koodi smi viittaa kaikkiin saamen kieliin: yleensä tarkempien koodien käyttö on suositeltavaa.
On hyvin tärkeä testata, kuinka eri kielikoodit toimivat ja käyttäytyvät omissa tietojärjestelmissä ja valita tämän perusteella paras vaihtoehto. On tärkeää pidättäytyä standardeihin sisältyvissä koodeissa, jotta esimerkiksi ruudunlukijat ja muut ohjelmat voivat tunnistaa kielen oikein.
Kielikoodit on tarkoitettu erityisesti kielivalinnan automaattiseen hyödyntämiseen, ja tekstissä tai erilaisissa valikoissa kielten nimet on selkeintä kirjoittaa kokonaan auki. Jos kielikoodia käytetään esimerkiksi tiedostonimessä, eikä sitä ole tarkoitettu automaattisesti käsiteltäväksi, on paras valita vain yhdenmukaisesti omassa organisaatiossa yksi koodi mitä käytetään. Yksi suositeltava lähde on tämä kielikooditaulukko, jossa eri standardien mukaisia kielikoodeja on koottu rinnakkain.
Yksityiskohtaisemmin
Tämä tarkempi selvitys on tarkoitettu kattavammaksi viitteeksi eri kielikoodeja käsitteleviin standardeihin. Maailmassa puhuttujen kielten tunnistamiseen on erilaisia lyhennejärjestelmiä. Erityisen laajalti käytettyjä ovat ISO 639-1, ISO 639-2 sekä ISO 639-3. Näitä erottaa toisistaan muun muassa se, että ensimmäisen koodit ovat kaksikirjaimisia ja jälkimmäisten kolmikirjaimisia. ISO 639-1 -järjestelmässä suomen kielikoodi on fi, kun taas ISO 639-2 ja ISO 639-3 -järjestelmässä se on fin. Toinen keskeinen ero on, että kaksikirjaimisia koodeja on huomattavasti vähemmän, vain noin 200. 639-2 -koodeja on vajaat 500, ja 639-3 -koodeja noin 7 500.
Saamen kielten kuvailussa on voitu käyttää sekä kieliperheen koodia smi, että kielikohtaisia koodeja. Kaikki kolme Suomessa puhuttua saamen kieltä sisältyvät standardiin ISO 639-2 (koodit ovat pohjoissaamen sme, inarinsaamen smn ja koltansaamen sms). Toisin sanoen koodin smi sijasta olisi yleensä hyvä käyttää kielikohtaisia koodeja, kun kieli on tunnistettu. Inarinsaamen ja koltansaamen koodit on lisätty standardeihin 2000-luvun alussa. Tätä ennen on ollut käytettävissä vain kieliperheen koodi smi. Tästä johtuen koodi smi esiintyy yhä monissa ympäristöissä, joihin tiedot on syötetty tätä aiemmin.
Saamen kielten merkitsemiseen tämä vaikuttaa siten, että pohjoissaamelle on olemassa sekä kaksikirjaiminen koodi se, että kolmikirjaiminen koodi sme. Inarin- ja koltansaamelle on olemassa vain kolmikirjaimiset koodit smn ja sms. Monet tietojärjestelmät vaativat IETF:n BCP 47 -suosituksen (https://www.rfc-editor.org/info/bcp47) mukaisesti kaksikirjaimisien koodien käyttöä silloin kun kielellä on 639-1 -koodi, eikä ISO 639-2:n tai 639-3 -standardien kolmikirjaimista koodia ole tällöin tallennettu. Näin ollen jos järjestelmän vaatimukset ovat BCP 47:n mukaiset, suositeltava ratkaisu on käyttää pohjoissaamelle koodia se, inarinsaamelle smn ja koltansaamelle sms. Näin esimerkiksi ruudunlukuohjelmat osaavat valita oikean kielen.
BCP 47 -suositus antaa yksityiskohtaisia ohjeita kielten koodaamiseen. Kieleen voidaan yhdistää esimerkiksi maakoodi tai tarkempi tieto alueesta, jossa sitä puhutaan. Tällöin voidaan esimerkiksi erottaa Ruotsissa, Suomessa ja Norjassa puhutut pohjoissaamen murteet, joille ei ole omia kielikoodeja. Eri kielikoodien ja erilaisten koodiyhdistelmien toiminta on aina testattava järjestelmäkohtaisesti, ja lopulliset valinnat tehtävä tämän perusteella.
Merkit
Yleisesti
Saamen kielissä on lukuisia merkkejä, joita ei esiinny suomessa, ruotsissa tai englannissa. Ne kaikki on määritelty Unicode-merkkivalikoimaan, mutta ne eivät välttämättä toimi kunnolla tietojärjestelmissä. Yleisin syy merkkiongelmiin on puutteellinen fontti. On hyvä varmistaa, että omissa verkkopalveluissa ja julkaisuissa käytetään fontteja, joista löytyy saamen kielten kirjaimet kattava tuki. Joskus yksittäiset kirjaimet on mahdollista tuottaa eri tavoin. Esimerkiksi jos peruskirjaimeen liittyy tarke, merkki voidaan tuottaa tietojärjestelmässä joko yksittäisellä koodilla tai merkin ja tarkkeen koodien yhdistelmällä. Yhdistelmämerkkien tuki fonteissa on erityisen puutteellinen, ja niistä voi aiheutua muitakin ongelmia. On mahdollista automatisoida erilaisia tarkistuksia, joissa käytettyjen merkkien oikea tallennus varmistetaan ennen tekstien julkaisua.
Erilaisia ulkoasupäivityksiä suunniteltaessa on tärkeää ottaa mahdollisimman varhain keskusteluun valittujen fonttien kattavuus eri vähemmistökielten kannalta. Järjestelmiä tai päivityksiä tilattaessa tämä täytyy ottaa yhdeksi keskeisistä vaatimuksista.
Yksityiskohtaisemmin
Suomessa puhutaan kolmea saamen kieltä: inarinsaame, koltansaame ja pohjoissaame. Näistä kielistä jokaisen aakkosissa on merkkejä, joita ei ole suomessa, ruotsissa tai englannissa. Näillä kielillä toteutettuja palveluja luotaessa yksi ensimmäisistä askelista on varmistaa, että palvelussa käytetty fontti tukee kaikkia näiden kolmen saamen kielen merkkejä. Merkkien tuottaminen näppäimistöstä on eri kysymys, josta on lisätietoa alla. Merkkien näkyminen oikein on erityisesti fonttikysymys. Myöhemmin ainoita keinoja saada merkit näkyviin oikein on vaihtaa koko käytössä oleva fontti.
Alla on lueteltu kolmen Suomessa puhutun saamen kielen aakkoset. Suuri osa näistä merkeistä esiintyy myös mm. vierasperäisissä paikan- ja henkilönnimissä, joten niiden näkyminen oikein edistää laajemminkin sujuvaa monikielisyyttä.
Inarinsaame
A a, Á á, Ä ä, â, B b, C c, Č č, D d
Đ đ, E e, F f, G g, H h, I i, J j, K k
L l, M m, N n, Ŋ n, O o, P p, R r, S s
Š š, T t, U u, V v, Y y, Z z, Ž ž
Koltansaame
A a, â, B b, C c, Č č, Ʒ ʒ, Ǯ ǯ, D d
Đ đ, E e, F f, G g, Ǧ ǧ, Ǥ ǥ, H h, I i
J j, K k, Ǩ ǩ, L l, M m, N n, Ŋ ŋ, O o
Õ õ, P p, R r, S s, Š š, T t, U u, V v
Z z, Ž ž, Å å, Ä ä, ʹ, ʼ
Pohjoissaame
A a, Á á, B b, C c, Č č, D d, Đ đ, E e, F f, G g
H h, I i, J j, K k, L l, M m, N n, Ŋ ŋ, O o, P p
R r, S s, Š š, T t, Ŧ ŧ, U u, V v, Z z, Ž ž
Jokainen näistä merkeistä kuuluu Unicode-merkkivalikoimaan. Jos jokin merkki ei näy oikein, vaikka pitäisi, on syytä tarkistaa, että jokainen merkki on oikeasti haluttu symboli, eikä jokin muu samalta näyttävä vieraan kielen merkki tai erilainen yhdistelmämerkki. Esimerkiksi kirjain č on yleensä Unicode-merkki Latin Small Letter C with Caron, mutta se voi olla myös yhdistelmä merkistä Latin Small Letter C ja tarkkeesta Combining Caron (ISO 6937/2 -merkkivalikoimassa tarke tulee ennen merkkiä). Järjestelmän kannalta väärin tallennettu merkki voi näyttää aivan oikealta, mutta se voi myös toistua väärin, merkkinä □ jos fontissa ei ole merkille vastinetta tai merkkinä ja erillisenä tarkkeena. Merkki voi myös toistua muuten oikein, mutta eri fontilla kuin muu teksti. Yleinen seuraus on myös, että sivun hakutoiminnot eivät toimi, eli sanat, joissa esiintyy väärin tallennettu merkki eivät löydy oikealla merkillä haettaessa.
Saamen kielten sanakirjoissa voi myös olla merkkejä, jotka eivät kuulu ortografiaan. Esimerkiksi pohjoissaamen sana buorre ‘hyvä’ voidaan tällaisissa ympäristöissä kirjoittaa buorrẹ (huomaa sanan lopussa e:n alla oleva piste). Tämä on sanakirjassa tärkeä tieto, mutta on hyvä tarkistaa, ettei tällaisia erikoismerkkejä mene esimerkiksi julkisiin palveluihin. Pisteellistä merkkiä vastaa pohjoissaamen kirjakielessä aina pisteetön vastaava kirjain.
Jos järjestelmässä on paljon tekstiä eri saamen kielillä, voi olla perusteltua rakentaa taustalle automatiikkaa, jolla varmistetaan oikeiden merkkien esiintyminen.
Näppäimistöt
Saamen kielissä olevia erikoismerkkejä ei voi kirjoittaa tavalliselta suomalaiselta näppäimistöltä ilman erikoistoimenpiteitä. Kun organisaatiossanne on töissä saamen kielillä tietokoneella kirjoittavia henkilöitä, on tärkeä varmistaa, että edellytykset tälle työlle ovat kunnossa, ja oikean näppäimistön tarjoaminen on osa tätä. On hyvä aloittaa selvittämällä, millaista näppäimistöä henkilö on tottunut käyttämään, ja mahdollistaa tämän näppäimistön myös työpaikan laitteilla. Yleisesti käytettyjen saamen kielten näppäimistöjen asennusohjeet löytää täältä. Nämä ovat Divvun-ryhmän ylläpitämiä. Monissa tietokoneissa on myös valmiina erityisesti pohjoissaamen kirjoittamiseen sopiva näppäimistö. Tässäkin yksittäisen työntekijän omat tottumukset ovat tärkeät.
Mobiililaitteille soveltuvien näppäimistöjen asennusohjeet löytää täältä.