Autor: Maarja Olesk

Tallinna Tehnikaülikooli keeletehnoloogia labori juhataja ja vanemteadur Tanel Alumäe rääkis avaandmete portaalile, kuidas teadlased andmete abil automaatse kõnetuvastuse mudeleid treenivad, mis andmete kasutamises segadust tekitab ja miks on digitaalsete kõneandmete kogumine eesti keele jaoks elu ja surma küsimus

Teie uurimistiim tegeleb kõnetuvastustehnoloogia arendamisega. Kuidas te selgitaksite inimesele, kes sellest valdkonnast palju ei tea, mida täpselt see tehnoloogia teha võimaldab?

Kõnetuvastus teeb inimkõnest teksti. Selleks võib olla näiteks pikem kõnesalvestus nagu meie intervjuu või lühem lause, aga eesmärk on see, et kõne läheb sisse ja tekst tuleb välja. Pikkade transkriptsioonide puhul on oluline ka see, et oleks olemas kirjavahemärgid ja oleks selge, kes parasjagu kõneleb – näiteks dialoogi puhul võiks olla nimed küljes. Kõnetuvastust kasutatakse ka telefonis häälkäskluste puhul. Näiteks Androidis on olemas äpp nimega Kõnele, mille abil saab suvalises Androidi rakenduses suvalise tekstikasti sisu täitmiseks kasutada kõnetuvastust.

Kes nende teenuste peamised kasutajad on?

Kõnesalvestuste transkribeerimist kasutavad näiteks ajakirjanikud pikemate intervjuude automaatseks transkribeerimiseks, samuti humanitaar- ja sotsiaalteadlased, kelle töö seisnebki inimestega intervjuude tegemises. Koosolekute transkribeerimine on väga paljulubav teema, sest koosolekutest tuleb hiljem teha protokoll, mis on väga tüütu ja aeganõudev. Kõnetuvastus võimaldab protokolle paremini ja kiiremini teha.

Kui hästi need tehnoloogiad täna toimivad?

Me mõõdame vigade protsenti kogu aeg. See sõltub väga palju materjalist, mis süsteemi sisse läheb. Kõige veavaesemad on raadiouudised ja vestlussaated – seal on professionaalsed kõnelejad, hea tehnika ja pole palju üksteise peale rääkimist. Nende puhul jäävad vead alla 10%. Kõnetuvastuse jaoks on keeruline, kui kõne on spontaanne, laused grammatiliselt ebakorrektsed, hääldus lohakas – umbes nii, nagu me räägime sõbraga kuskil baaris. Või kui kõne akustiline kvaliteet on halb, näiteks kui panna kümne inimesega koosolekuruumi lauale telefon salvestama nii, et see asub kõigist kõnelejatest väga kaugel ja tekib müra. See on inimesele keeruline kuulata ja arvutile samuti.

Milliseid sisendandmeid te kõnetuvastuse arendamiseks kasutate?

Kõnetuvastusmudelid põhinevad masinõppel, masinõppe jaoks on vaja treeningandmeid. Kõnetuvastuse puhul eristatakse kaht tüüpi andmeid: kõneandmed ja tekstiandmed. Kõneandmed ehk kõnekorpused on andmekogud, kus on inimese kõne ja sellele vastav tekst. Treeningandmete puhul on selleks lisaks helisalvestisele inimese poolt loodud veatu transkriptsioon näiteks raadiosaadetest või telefonikõnedest. Hea oleks, kui treenimiseks kasutatavad kõneandmed oleksid sarnased sellele, mida hiljem kasutama hakatakse. Eesti keele puhul kasutame umbes 400 tunni mahus käsitsi transkribeeritud kõneandmeid – raadiote vestlussaated, uudised, loengusalvestused, konverentsiettekanded. Hästi palju on raadios eetris olnud telefoniintervjuusid, kuna sealt saame väga erinevate kõnelejate hääli. Materjali genereerime ise, valime veebis saadaolevast materjalist või laseme näiteks loenguid ise transkribeerida teadusprojektide vahenditest.

Millist tuge pakub mudelite treenimisel Eestis olemasolev keeleandmete taristu, näiteks Eesti Keeleressursside Keskuse kogud?

Meile vajalikke ressursse loome üldiselt ise, aga kui ressursid on tekkinud, siis keeleressursside keskus tegeleb nende haldamise ja levitamisega. Näiteks kõneandmeid pakume sinna ise, aga tekstiandmeid ehk puhast teksti ilma kõneta saame sealt küll. Need on vajalikud, et treenida kõnetuvastuses kasutatavaid keelemudeleid, mis kirjeldavad statistiliselt, millised sõnad või sõnakombinatsioonid esinevad eesti keeles kõige sagedamini. Mudeli tarkus tuleb sellest, et ta on näinud suurt hulka eesti keelt, mistõttu keelemudeli treenimiseks on vaja suuri tekstikogumeid. Enamasti tulevad need veebist – veebitekstid, ajalehetekstid, Wikipedia, raamatud… Ka kõneandmete transkriptsioonid on olulised, kuna kirjalik keel on suulisest erinev. Need tekstid on olemas keeleressursside keskuse keelekorpuses. Kunagi kogusime ka tekste ise, aga kui tulid eesti keele ühendkorpused, on olnud mugavam kasutada neid.

Milline osa neist andmetest on täna avaandmetena olemas ja kuidas avaandmete kättesaadavus teie tööd mõjutab?

Minu arusaamise järgi meie kasutatavad andmed ei ole täna avaandmed – mõnede andmete juures on küll Creative Commonsi litsents, aga samas märge, et kasutamine piiratud. Põhilise tekstikorpusena kasutame ENC-d (Estonian National Corpus), mis on saadaval keeleressursside keskuses. Aga keeleandmete osas on palju halli ala – need tulevad enamuses veebist, kõigil on omad litsentsid ja autorid, aga keegi pole neilt luba küsinud, kas võib need korpusesse panna. Keeleressursside keskuse palgal on jurist, kes aeg-ajalt kirjutab artikleid sel teemal, aga head lahendust minu teada ei ole.

Teadlased saavad neid andmeid praegu oma tööks kasutada, aga kui ma võtan treeningandmed ja teen selle peale mudeli, siis pole seisukohta, kas ma saan kasutada seda ainult teaduseks või näiteks ka kommertsotstarbeks. Meie pole seni tehnoloogiat kommertsialiseerinud, küll aga pakume seda vabalt kõigile soovijatele – ka neile, kes soovivad seda kasutada kommertsotstarbeks.

Milline on selliste tehnoloogiate arengutase teistes riikides Eestiga võrreldes?

Eesti on siin erandlikus situatsioonis. Suuremates riikides on laia kasutajaskonna jaoks mõeldud kõnetuvastustehnoloogia arendajateks mitte teadusasutused, vaid ettevõtted, kes seda ka kommertsialiseerivad. Eesti keele puhul on arvatud, et see ei tasuks ära. Seepärast on tehnoloogia arendamist seni toetanud riik. Kui mõelda, et eesti keele kõnelejate arv on umbes miljon, siis vaevalt on teist sama kasutajate arvuga keelt, kus kõnetuvastustehnoloogia oleks nii heal tasemel. Suuremates riikides on see siiski paremal tasemel, sest sellega tegeleb rohkem inimesi ja saadaval on rohkem treeningandmeid.

Eestis on riik on seni toetanud tehnoloogia arendamist ja meie oleme toetuse arvelt tekitanud kõnekorpuseid. On oluline, et korpuste kogumine jätkuks. Näiteks saab kohe valmis uus kõnekorpus, kus on peaaegu 400 tundi materjali ERRi tele- ja raadioarhiividest. Kui need andmed on olemas, siis tehnoloogia loomine iseenesest ei ole väga keeruline, aga ilmselt see äriliselt ära ei tasu.

Kuhu kõnetuvastuse valdkond Eestis ja maailmas arenemas on? Mida võiks saada eestikeelse kõnetuvastuse tehnoloogiate abil näiteks 5 või 10 aasta pärast teha?

Rakendused, kus tahaks kõnetuvastust kasutada, on näiteks koosolekute salvestused. Minu jaoks on kõnetuvastuse „püha graal“ selline rakendus, et kui on koosolek ja seda salvestatakse, siis kohe pärast koosolekut saad vastu puhta protokolli, kust on rämps minema visatud. Selleks on vaja teatud määral intellekti, aga see on teatud määral ka automatiseeritav, kui on olemas andmed. Selline lahendus leiaks praktilist kasutust paljudes valdkondades, riigiasutustest eraettevõteteni.

Varsti on loodetavasti käima minemas ka projekt, kus eestikeelsetele telesaadetele, sealhulgas otse-eetrile, tekiksid eestikeelsed subtiitrid. See oleks väga vajalik näiteks vaegkuuljatele või ka lihtsalt inimesele, kes tahab õhtul vaikselt telekat vaadata, samal ajal kui lapsed kõrvaltoas magavad. Subtiitrite genereerimiseks võiks saada kasutada kõnetuvastust. Seal on palju tehnoloogilisi probleeme – me ei saa garanteerida, et ta kunagi ei eksi, näiteks kui on palju taustamüra. Aga süsteem võiks vähemalt õppida aru saama, et kui on keeruline koht, kus ta tõenäoliselt eksib, siis ta üldse ei väljastagi tuvastustulemust.

Aga maailmas üks huvitavamaid asju kõnetehnoloogia vallas on see, kui kõnetuvastus ja tõlge kokku pandaks. Microsoft ja Google juba tegelevad sellega ja edusammud on suured. Ühesõnaga, mina räägin hispaania keeles, sina räägid hiina keeles ja me saame omavahel rääkida – minu klappidesse tuleb tõlge, kusjuures säilinud on sinu hääletoon ja intonatsioon. Nagu ulmeraamatutes. See võiks olla inimkonda edasi viiv asi!

Selliseid lahendusi töötavad enamasti välja suurkorporatsioonid – kuidas eesti keel sellistesse lahendustesse saab? Kas Eesti teadlased teevad Google’i ja Microsoftiga kuidagi koostööd?

See on murettekitav teema. Google kunagi ühel konverentsil ütles, et nende eesmärk on luua kõnetuvastustehnoloogia kõigile keeltele, millel on üle miljoni kõneleja. Näidati kaarti ja Eesti oli seal ilus valge laik. Samas on need süsteemid väga kinnised, kolmandatel osapooltel ei ole võimalust oma tehnoloogiat sinna sisse põimida. Meil on vähe hoobasid, et öelda suurtele ettevõtetele, et tehke nüüd eestikeelne tehnoloogia ka. Ainus, mida teha saame, on pakkuda treeningandmeid.

Ameerikas on väga populaarsed ka virtuaalsed assistendid, nagu Amazoni Alexa või Google Home – sellised purgid kodus kapi peal, millega saab kõne abil rääkida. Inimesed sageli küsivad, millal selline asi tuleb eestikeelsena, aga meie ütleme, et ilmselt mitte lähema 10 aasta jooksul. Me ei saa sinna midagi teha. Virtuaalsete assistentide puhul on keelespetsiifilist käsitööd väga palju, selleks peaks Google tööle võtma 100 eesti keele assistenti mitmeks aastaks. Teine võimalus on, et tuleb mingi tehnoloogiline murrang. Ma arvan, et see on isegi lootusrikkam tee kui see, et eesti keelega tegelema hakatakse.

Sellest hoolimata on väga oluline, et riik jätkaks eestikeelse keeletehnoloogia loomise toetamist. Kui meil keeletehnoloogiat üldse ei ole, siis lõpuks läheb nii, et kui me arvutiga suhtleme inglise keeles, siis omavahel suhtleme ka varsti inglise keeles.

______

Intervjuu on osa kaheosalisest postituste sarjast, mis ilmus algselt Eesti avaandmete portaalis ja käsitleb andmete rolli keeletehnoloogia arendamisel. Avaandmete portaali sisustatakse Euroopa Liidu struktuuritoetuse toetusskeemist „Infoühiskonna teadlikkuse tõstmine“, mida rahastab Euroopa Regionaalarengu Fond. Projekti tegevused viib läbi MTÜ Open Knowledge Estonia.