Doktoritöö: võõrkeeles koolitatud tehisaru oskab paremini ka eesti keelt

Tartu Ülikoolis kaitstud doktoritöö näitas, et eestikeelseid tehisintellekti mudeleid saab arendada ka väheste andmetega, kui kasutada mitmekeelset siirdeõpet.
Tänapäevaste keelemudelite treenimiseks on eesti keeles – nagu paljudes teisteski väikekeeltes – liiga vähe digitaalseid tekstiandmeid. Ingliskeelset materjali on seevastu samal ajal külluses ja just sealt ammutavadki moodsad mudelid suurema osa oma teadmistest. See seab arendajad keerulise ülesande ette: kuidas luua võimekaid keelemudeleid olukorras, kus treeningandmeid napib. "Lahendus ei pruugi peituda ainult uute andmete kogumises, vaid ka olemasolevate nutikas kombineerimises," selgitas doktoritöö autor Hele-Andra Kuulmets.
Seni on keelemudelite arendust dikteerinud inglise keel, mille põhjal on välja töötatud enamik tänapäevaseid meetodeid. Väiksematele keeltele, sh eesti keelele, ei saa neid lähenemisi üks ühele üle võtta. Siin tuleb mängu keeltevaheline siirdeõpe – lähenemine, kus ühe keele najal omandatud teadmisi kasutatakse teise keele mudelite arendamiseks.
Siirdeõppe iva on lihtne: kui treenida keelemudelit korraga mitmes keeles, hakkavad eri keelte esitusviisid mudeli sisemuses üksteisele lähenema. See tähendab, et ühes keeles õpitu aitab mudelil mõista ka teisi keeli.
Kuulmetsa tulemused kinnitasid, et see ei ole pelgalt teoreetiline võimalus, vaid toimib hästi ka praktikas. Parimad tulemused saavutas ta mudelitega, millesse oli söödetud mitmekeelseid andmeid kahes etapis. Esmalt eeltreenimisel, kus mudel õpib tohutute tekstihulkade peal, ja hiljem peenhäälestamisel, kus see kohandatakse konkreetse keele jaoks. Need edestasid selgelt mudeleid, mis tuginesid ainult eestikeelsetele tekstidele.
Lisaks uuris Kuulmets treeningandmete kvaliteedi tähtsust. Üllatuslikult selgus, et isegi masintõlkega loodud ja veidi ebatäpsed tekstid annavad peaaegu sama hea tulemuse kui kvaliteetsed toorandmed ehk töötlemata tekstid. "Siirdeõppe puhul on olulisem andmete hulk ja mitmekesisus kui nende täielik keeleline korrektsus," märkis ta.
Selleks et hinnata, kui hästi mudelid keelt tegelikult mõistavad, koostas Kuulmets spetsiaalse ülesannete kogumi, mis keskendus põhjuslike seoste tuvastamisele. Mudelile anti ette kaks lihtsat lauset ja seepidi otsustama, kas nende vahel eksisteerib põhjus-tagajärg seos. Inimese jaoks on sellised ülesanded enamasti lihtsad, sest tuginevad argikogemustele.
Näiteks on ilmne, et päikesetõus võib tekitada varje. Keelemudelitele on selline arutluskäik aga märksa kõvem pähkel ja selles eksivad aeg-ajalt isegi parimad. Seepärast aitabki taoline test hinnata, kas mudel "mõistab" keelt päriselt või ennustab pelgalt tõenäolisi sõnajadasid.
Uurijad ei piirdunud aga ainult väikeste mudelitega. Nad võtsid vaatluse alla ka suured, peamiselt ingliskeelsetel andmetel treenitud keelemudelid, mis töötavad paljude igapäevaste tehisaruassistentide, näiteks Anthropicu ja OpenAI mudelite, taustal.
Kuigi esmapilgul võib tunduda, et neist on väikestele keeltele vähe kasu, näitasid tulemused vastupidist. Tänu oma tohutule mahule ja põhjalikule eeltreeningule suudavad suured mudelid teadmisi ühest keelest teise üle kanda isegi siis, kui sihtkeele andmeid on vähe. "Isegi väike kogus eestikeelset lisatreenimist võib selliste mudelite keeleoskust märgatavalt parandada," ütles Kuulmets.
Samuti saab neid mudeleid edukalt kohandada sünteetiliste andmetega – näiteks masintõlke või hoopis teiste keelemudelite loodud tekstidega. Eesti keele mõistmisele võivad kaasa aidata isegi ingliskeelsed juhised ja treeningmaterjalid.
Kõigi mudelite võimed ei kandu siiski keelest keelde võrdsel määral. Näiteks täheldas Kuulmets kolleegidega, et ühe mudeli arutlusoskus oli pärast eestikeelset peenhäälestust hoopis kehvem. Miks nii juhtus, on esialgu selgusetu. "See näitab, et siirdeõpe ei ole automaatne lahendus, vaid nõuab hoolikat katsetamist," rõhutas Kuulmets.
Doktoritöö käigus lõi Kuulmets uue hindamisandmestiku neljale soome-ugri keelele: eesti, võru, liivi ja komi keelele. Väikeste keelte arengut ei pidurda nimelt ainult andmenappus, vaid ka tõsiasi, et mudeleid pole korralikult millegagi testida. Uus võrdlusalus aitab seda lünka täita, pakkudes ülesandeid, mis arvestavad just nende keelte eripäradega.
Sama andmestiku toel uuris ta mudeleid ka inimeste antud tagasiside toel. Selgus, et automaatsed mõõdikud ei pruugi alati usaldusväärselt peegeldada seda, kui loomulikku ja arusaadavat teksti masin tegelikult toodab. Lahknevus ilmnes eelkõige väga väikeste keelte puhul, kus loomulikuna kõlava teksti loomisega jäävad hätta isegi tugevad mudelid.
Kokkuvõttes näitas doktoritöö, et mitmekeelsete ressursside nutikas kombineerimine on praegu kõige tõhusam viis, kuidas väikeste keelte jaoks keelemudeleid arendada. "Väikese keele jaoks ei pea alati olema palju andmeid – oluline on, kuidas neid kasutada," leidis Kuulmets. Julgustavana näitas töö, et ka väikese keele jaoks on võimalik luua võimekaid tehisintellekti lahendusi. Piisab, kui kasutada olemasolevaid ressursse targalt ja õppida ka teistelt keeltelt.
Tutvu doktoritööga "Keeltevaheline siirdeõpe ja selle hindamine väheste ressurssidega oludes" Tartu Ülikooli digikogus. Kuulmetsa juhendas Tartu Ülikooli keeletehnoloogia professor Mark Fišel, oponeeris Barbara Plank Müncheni Ludwig-Maximiliansi Ülikoolist ja Jindrich Helcl Oslo Ülikoolist.
Toimetaja: Jaan-Juhan Oidermaa



















