"AK. Nädal" uuris, mida mõistab tehisaru eesti keelest ja kultuurist
ERR-i teadusuudiste portaali Novaatori eksperiment näitas, et suurkorporatsioonide keelemudelid ei ole eesti keele nüanssidega kursis. Juturobotitele eestikeelsete andmete jagamine tõstatab aga hulga kriitilisi küsimusi autoriõiguste ning andmekaitse kohta.
"Kui Arno isaga koolimajja jõudis, oli koolimaja juba maha põlenud." Just sellise vastuse võib anda täna keelemudel, kui küsida selle käest ühe eesti kirjanduse kuulsaima lause kohta.
Novaatori toimetus tegi minieksperimendi, et testida mudelite keele- ja kultuuritundlikkust.
Toimetus testis viie enamlevinud keelemudeli tasuta versioonide teadmisi ning koostas selle tarvis Eesti keelele ja kultuurile spetsiifilise küsimustiku. Novaator küsis näiteks Lennart Meri teose "Hõbevalge" sisu kohta või seda, mitu täishäälikut on sõnas "jäääär".
Kõige paremini vastas küsimustele Groki keelemudel, millele järgnesid tihedalt Claude Sonnet, Gemini ja ChatGPT. Suurtest keelemudelitest tegi kõige kesisema tulemuse Mistral, mis põrus täielikult keeleküsimustes.
Tartu Ülikooli teadlase Kairit Sirtsu sõnul tekitavad juturobotite vastused palju küsimusi. Ka näiteks see sama, "Kevade" romaani avalause valesti tõlgendamine.
"Kui seda ikkagi treeningandmetes ei ole olnud, siis seda ei ole võimalik ka mudelil teada. Seal on võib-olla see küsimus, et kas me soovime, et mingid mudelid neid asju teaksid ja teisest küljest, kui kommertsmudelid neid juba teavad, siis see viitab, et kuskilt see info on sinna ikkagi tulnud. Me ei tea kust, me ei tea kuidas," rääkis Tartu Ülikooli arvutiteaduse instituudi keeletehnoloogia kaasprofessor Kairit Sirts.
Teadlase sõnul teame me täna väga vähe sellest, mis materjalidel üldse suuri keelemudeleid treenitakse. Selge on aga see, et eesti kultuuriruumis orienteerumiseks sellest ei piisa.
"Kui me vaatame, mida suurkorporatsioonid täna teevad, kas see on siis OpenAI, Google oma Gemini mudelitega, siis neil on väga hea üldvõimekus, aga kui me paneme selle eesti keele ja kultuuri konteksti, siis kahjuks need lahendused väga tihti eksivad, hallutsineerivad. Nad ei taju eesti keele ja kultuuri konteksti, meie ühiskondlikke väärtusi, ei peegelda meie ajalugu nii nagu me ise seda näeme," ütles justiits- ja digiministeeriumi tehisintellekti ja andmete talituse juhataja Ott Velsberg.
Kuid et Eesti ei jääks ülikiires tehnoloogia arengus lootusetult maha ning ei muutuks ise museaaliks, treenivad teadlased üht avatud andmetega keelemudelit just eestikeelsel materjalil. Oluliselt väiksema andmehulgaga mudel jääb aga täna suurtele ametivendadele alla.
"Üks põhjus on see, et praegune EstLLM-i variant on hästi väikene mudel, mis tähendab, et tema käivitamiseks on vaja natuke vähem protsessoreid. Aga üldiselt on probleem selles, et meil ei ole kohapeal piisavalt andmeid, piisavalt arvutusvõimsust, et luua midagi võrdväärset," selgitas Eesti Keele Instituudi tehisaru hindamise programmijuht Krister Kruusmaa.
Nii jõuame kriitilise küsimuseni: mis andmeid ja kellele jagada? Rahvusvaheliste suurkorporatsioonide infotöötlusest teame me vähe, kuid andmeid on vaja ka Eesti teadlastel, kelle teadustöö on ühele digiriigile hädavajalik.
Kairit Sirts märkis, et selles vallas on väga palju juriidilist segadust.
"See hall ala on väga suur, et kellel on õigus, mis tingimustel, mis andmeid kasutada. Selge on see, et kui mudeli arendaja teenib selle pealt raha, et ta on kellegi teise andmeid kasutanud mudeli treenimiseks, siis on loogiline, et seal tekib vastumeelsus või tõrge," lausus Sirts.
Kui aga tahta, et mudel tunneks näiteks kultuurilugu ja kirjandusklassikat, peaks olema selle treeningandmetes ka autoriõigustega kaitstud materjale. Kuid kas sellisel juhul tekib oht, et juturobot esitleb kellegi teise teoseid enda loominguna?
Kruusmaa sõnul on võimalus, et mudel reprodutseeriks mingi teose, mis on tema treeningandmetes, sisuliselt võimatu.
"Keelemudel ei ole nagu raamatukoguhoidja, kes läheb riiuli juurde ja võtab sealt mingisuguse asja. Tal ei ole enda andmebaasi, vaid ta genereerib tõenäosuste tulemusel sõnu, arvestades seda teksti, mida ta on näinud," rääkis ta.
Kruusmaa märkis, et küsimus on laiemalt selles, et keelemudelid toetaksid eestikeelset ja -meelset mõttetööd.
"Varem öeldi, et kui sind pole Google'is siis sind pole olemas. Tänapäeva noored küsivad juturoboti käest enda küsimusi ja kui eesti keelt ja kultuuri näiteks ChatGPT-s ei ole, siis inimesed oma teed selleni ka ei leia," ütles Kruusmaa.
Teisalt on küsimus riigi suveräänsuses, mille puhul ei saa taas mööda kohalikust arendustööst.
"Me peame tagama, et kui midagi läheb halvasti, siis meil on olemas ühelt poolt see alternatiiv," lausus Velsberg.
"Teisalt me ei taha kõike töödelda avalikus pilves. Võtame näiteks terviseandmed või siis riigisaladusega kaitstud teave ehk siis meil peab olema võimalus jooksutada neid samu keelemudeleid kohapeal," lisas ta.
Kuigi eesti keelel treenitud mudeli tulemused ei konkureeri kommertsmudelitega ning suure tõenäosusega ei hakkagi kunagi konkureerima, tuleb Kairit Sirtsu sõnul arendustööga jätkata.
"Kas need tulemused on sellised, et neid keegi reaalselt kasutama hakkab? Aga kui me ei tee seda tööd, siis ühel hetkel me avastame, et oleks pidanud tegema ning siis on väga raske sellele rongile peale hüpata," ütles ta.
Toimetaja: Valner Väino
Allikas: "AK. Nädal"



















