Autor: Maarja Olesk
Tartu Ülikooli teadlaste loodud eestikeelne masintõlkemootor tugineb läbinisti avaandmetele, sest ükski asutus ei jõuaks üksi maailmast miljoneid tõlkenäiteid kokku koguda, rõhutab Tartu Ülikooli keeletehnoloogia õppetooli juhataja Mark Fišel intervjuus avaandmete portaalile. Loe, mida TÜ loodud tõlkeprogramm ja kõnesüntesaator tänu andmetele teha oskavad ja millist tulevikku keeletehnoloogia areng meile ennustab.
Rääkige alustuseks, milliste keeletehnoloogiate arendamisega teie uurimismeeskond Tartu Ülikoolis tegeleb?
Keeletehnoloogia õppetooli tegevusvaldkond katab peaaegu kõike, mis puudutab kirjaliku teksti töötlemist ja keeleanalüüsi. Nende hulgas on näiteks masintõlge, kõnesüntees, samuti eestikeelsete sõnade ja lausete analüüs ja uurimine ja paljud teised ülesanded.
Teie loodud on ka veebipõhine masintõlkeprogramm neurotõlge.ee, mis on kõigile kasutamiseks avatud. Mida see teha oskab? Millised andmed ja tehnoloogiad selle taga on?
Masintõlkeprogrammi eesmärk on automaatselt tõlkida eri keelte vahel: ühest keelest sisse, teisest välja. Aga selle taga peitub keerulisem rida küsimusi. Näiteks sõltub tõlkimine valdkonnast. Tavalist kõnekeelt tõlgitakse ühtmoodi ja ametlikke kõnesid või tehnilisi manuaale teistmoodi. Mõned sõnad on mitme tähendusega, näiteks ingliskeelne „driver“ võib olla arvutidraiver või autojuht. Neurotõlke puhul üritame arvesse võtta teksti valdkonda ja tõlkida vastavalt sellele. Kasutaja saab programmis valida, kas tõlkida kõnekeelselt või viisakalt.
Veebitõlge on lihtsalt demo, aga selle taga on peidus töötav programmeerimisliides, millega tõlkeraamistikud, mida kasutavad professionaalsed tõlkijad, saavad ennast liidestada. Selle programmiga saab dokumenti eeltõlkida ja pärast inimene saab seda parandada. Tõlkebüroodele arendame ka valdkonnaspetsiifilisi tõlkemooduleid.
Meie masintõlke eripära on see, et ta on mitmekeelne ja oskab tõlkida seitset keelt: eesti, läti, leedu, vene, inglise, saksa ja soome. Kõigis suundades kasutame üht ja sama treenitud mudelit. See võimaldab kirjutada lauseid ka segakeeles – näiteks eesti, saksa ja inglise keeles ja tõlkida seda kõike läti keelde – ja ta saab sellega hakkama. Me sisendkeelt ei määra, vaid määrame ainult väljundkeele – kasutaja valib, mis keelde tõlkida.
Üks ootamatu, aga kasulik efekt on tõlkimine samasse keelde, näiteks tõlkimine vigasest eesti keelest korrektsesse eesti keelde. Seda me ei ole talle õpetanud, selle taga on pikem lugu, miks ta seda teeb, aga teeb.
Mis puudutab andmeid, siis Neurotõlge on hea näide, sest mudel põhineb masinõppel. Meie kui arendajad ei räägi soome ega leedu keelt, selleks piisab andmetest. Absoluutselt kõik andmed, mida me avaliku mootori jaoks kasutasime, on avaandmed, mille on korjanud uurimisrühmad kogu maailmast ja mis on kättesaadavad ja kasutatavad kõigile. Nende seas on Euroopa Parlamendi kõnede transkriptsioonid, Euroopa Liidu seadustik või veebileht OpenSubtitles, kus inimesed saavad jagada subtiitreid. Selle põhjal on tehtud suur paralleelkorpus, kus näiteks eesti ja inglise keele vahel on üle 15 miljoni tõlkesegmendi. Sellises mahus, nagu tõlkemootorite treenimiseks vaja on, ei suuda ükski asutus üksi andmeid koguda, ilma avaandmeteta oleks see täiesti võimatu. Kõnesünteesi puhul oleme küll pidanud ka ise andmeid kokku korjama, aga tõlkeandmete puhul on olemasolevate andmete kasutatavus väga hea.
Milliseid teisi projekte teil peale masintõlke arendamise veel käimas on?
Teine hea näide on kõnesüntees või teksti automaatne ettelugemine, mille avalik demo on kättesaadav veebilehel neurokone.ee. See oli puhtalt andmeteaduslik projekt, kus korjasime andmeid, leidsime vajalikud eestikeelsed tekstid ja inimesed, kes neid tekste ette loeksid. Selle põhjal on tekkinud andmestik, kokku oleme korjanud 66 tundi kõnet. Teeme koostööd ka Eesti Keele Instituudiga, kes on samuti neid andmeid kogunud – kokku on meil 6 kõnelejat ja üle 100 tunni kõnet. Masin õpib otsast lõpuni kõnet imiteerima, sisse tuleb talle tekst ja see, kuidas teksti hääldatakse. Avalik demo pole veel täiuslik, aga tema loomulikkus on üsna veenev ja ta saab oma ülesandega üsna hästi hakkama.
Kas siis 100 tunni inimkõne pealt on võimalik arendada välja piisavalt loomulikule keelele sarnanevat kõnesüntesaatorit?
Kõnesünteesi puhul ei ole asi andmete suuruses. Ühe kõneleja puhul hakkab asi juba 20 tunni materjaliga kõlama loomulikult. Küll aga ei pruugi ta hästi hakkama saada haruldaste sõnade või sõnaühenditega, kui ta pole neid varem näinud. Selles mõttes suur andmestik muidugi aitab.
Võrreldes masintõlkega on kõneandmete kättesaadavus natuke keerulisem. Neid on natuke olemas Eesti Keeleressursside Keskuse varamus, aga kohe kui meie koostöö Eesti Keele Instituudiga lõppeb, teeme andmestiku avalikuks ka keeleressursside keskuse kogudes. Kindlasti tuleks see peegeldada ka avaandmete riiklikku portaali. Tõlkeprogrammi põhjal on meil valminud ka tõlkekratt ja kõnesünteesi asi saab samuti kratiks, et kõik saaksid seda tasuta kasutada.
Nii et te jagate avalikult ka oma arendatavate programmide lähtekoodi?
Jah, me jagame avalikult koodi, mille abil neid mudeleid saab kasutada ja rakendada. Üritame jagada ka koodi, kuidas saaks sarnaseid mudeleid ise treenida ja andmeid ette valmistada, aga peaasi on jagada koodi, millega seda käivitada saaks, ilma selleta treenitud mudelist kasu ei ole.
Kas te olete ka uurinud ja huvi tundnud, kes on teie teenuste kasutajad ja kui palju neid on?
Kratt on üsna uus asi, selle tegime valmis kevadel. Selle vastu on suur huvi, aga kindlaid kasutajaid veel ei ole. Aga tõlkeprogrammi peamised kasutajad on tõlkebürood. Lisaks on huvitaval kombel üks kindel hulk huvilisi, kes kasutab tõlkemasinat otse veebis – võib-olla on neile mugav see, et meie veebidemo võimaldab võrrelda meie tõlkeid Google’i ja Tilde tõlkebüroo tööriistaga. See aitab meil võrrelda tõlgete kvaliteeti, et näha, kus meie või nende probleemid on. Samal ajal inimesed, kes keelt hästi ei valda või ei usalda väljundit, saavad vaadata kolme alternatiivset tõlget, millest on neile palju rohkem abi kui ühest.
Märkisite, et valdav osa andmetest, mida te kasutate, on avaandmed. Kas selliseid asju oleks üldse võimalik teha, kui need andmed avaandmetena kättesaadavad ei oleks, näiteks kui nad oleksid piiratud juurdepääsuga või maksumüüri taga?
Kindlasti ei oleks me täna siin, kui ei oleks avaandmeid. Mõnede valdkondade, näiteks kõnesünteesi puhul on võimalik andmeid ise korjata, sest 100 tundi materjali suudab üks uurimisrühm kokku panna. Aga tõlkeandmete puhul on vaja miljoneid ja kümneid miljoneid tõlkenäiteid, mida ükski Eesti või rahvusvaheline firma kokku korjata ei suuda. Nii et nii meile kui ka teistele on avalikult kättesaadavad andmed äärmiselt vajalikud.
Mil määral on teie töös tekkinud juriidilisi küsimusi, kas teie kasutatavaid andmeid üldse tohib sellisel kujul kasutada ja jagada?
Tekstiandmetega enamasti probleeme ei ole. Kui tekst on veebis avalikult olemas, siis selle kasutamine enamasti piiratud ei ole. Kui räägime raamatutest või autoriõigusega kaitstud materjalidest, on asi keerulisem. Suurte andmestike jaoks leitakse üldjuhul allikad, mille puhul kahtlusi ei oleks või lepitakse kasutamise tingimustes kokku. Kõneandmete puhul on probleem selles, et kellegi lindistatud hääl on osa isikuandmetest ja isikul peab GDPRi (isikuandmete kaitse üldmäärus) all olema võimalus öelda, et ma ei ole enam nõus, et minu andmeid kasutatakse. Aga isegi kaitstud andmete puhul tekiks probleem peamiselt siis, kui tahaksime andmeid edasi jagada või koostada nende põhjal andmestikke – siis peab kindlasti tagama, et seda tohib teha. Kui me arendame nende põhjal lihtsalt keeletehnoloogilisi mudeleid, siis me seda teksti ennast edasi ei levita.
Kui hästi on sarnased tehnoloogiad teistes riikides arenenud? Kas Eesti on siin suunanäitaja või on meil eeskujusid, kellelt ise õpime?
Kui me arendame praktilisi rakendusi, võtame pigem ise teistelt eeskuju. Kindlasti on igas uurimisrühmas oma originaalsed mõtted ja leiutised, aga kõnesünteesis või masintõlkes või tekstianalüüsis ei saa kahjuks öelda, et oleksime selgelt teistest ees. Masintõlke puhul oleme kaasatud ka ühte europrojekti koos Mozilla ja Euroopa ülikoolidega, et koos nendega arendada „tõlkepluginat“ veebilehitsejale. Samuti oleme aidanud korraldada rahvusvahelist masintõlke konverentsi, nii et üritame ka eestvedajad olla.
Mis on teie järgmised suuremad sihid ja kuhu keeletehnoloogia maailm liigub? Kui julgelt unistada, siis mis võiks tänu teie praegusele tööle 5 või 10 aasta pärast võimalik olla?
Kui unistada realistlikult, siis on väga palju praktilisi lahendusi teistele keeltele, mis eesti keeles puuduvad või ei tööta nii hästi, näiteks grammatiline kontroll. Viie või kümne aasta jooksul võiks need tekkida ka eesti keelde.
Kui unistada mitte realistlikult, vaid julgelt, siis kõige huvitavam on meie jaoks uurida, mida tähendab, et inimene räägib keelt või saab keelest aru, ja seda oskust siis kuidagi teisendada arvutisse, et arvuti saaks efektiivsemalt õppida. Ükski inimene ei kohtu oma elu jooksul nii suures mahus teksti-, keele- või kõneandmetega, kui on vaja arvutite treenimiseks – inimene kui õppiv masin on palju efektiivsem! See teadmine võiks meid aidata üldise tehisintellekti suunas.
Kui unistada julgelt, aga realistlikult, siis juturobotid või assistendid on huvitav ala. Eesti keelele on neid väga vähe arendatud. Ka ingliskeelsete juturobotite, näiteks Siri, arusaamine on hästi kitsas. Neid võiks küll teha paindlikumaks. Ma ei usu, et see hakkab kunagi asendama hiirt või klaviatuuri, aga autos või telefoniga suheldes oleks mugavam, kui ei peaks etteantud mallide järgi rääkima. Seda tehnoloogiat võiks arendada üleüldiselt, aga eriti just eesti keele puhul. Eesmärk võiks olla, et saaksime nutiseadmetega suhelda oma loomulikus keeles.
______
Intervjuu on osa kaheosalisest postituste sarjast, mis ilmus algselt Eesti avaandmete portaalis ja käsitleb andmete rolli keeletehnoloogia arendamisel. Avaandmete portaali sisustatakse Euroopa Liidu struktuuritoetuse toetusskeemist „Infoühiskonna teadlikkuse tõstmine“, mida rahastab Euroopa Regionaalarengu Fond. Projekti tegevused viib läbi MTÜ Open Knowledge Estonia.
Värsked kommentaarid