Avaandmed aitavad luua praktilisi rakendusi kõne transkribeerimiseks ja tõlkimiseks

Keeletehnoloogia arendamisel on suur roll avaandmetel, sest ükski asutus ei jõuaks üksi maailmast miljoneid tõlkenäiteid kokku koguda. Tänu avaandmetele saavad Eesti teadlased arendada erinevaid kõnetuvastusrakendusi, mida kasutada näiteks koosolekute protokollide loomisel või üksteisega eri keeltes rääkimiseks. Loe lähemalt avaandmete portaalist.
Tallinna Tehnikaülikooli keeletehnoloogia labori tiim arendab kõnetuvastustehnoloogiat ehk seda, kuidas teha inimkõnest kirjalikku teksti. “Minu jaoks on kõnetuvastuse „püha graal“ selline rakendus, et kui on koosolek ja seda salvestatakse, siis kohe pärast koosolekut saad vastu puhta protokolli, kust on rämps minema visatud,” rääkis labori juhataja, vanemteadur Tanel Alumäe. “Selleks on vaja teatud määral intellekti, aga see on teatud määral ka automatiseeritav, kui on olemas andmed. Selline lahendus leiaks praktilist kasutust paljudes valdkondades, riigiasutustest eraettevõteteni.”

Praktilised rakendused
Avaandmete vajalikkust rõhutab ka Tartu Ülikooli keeletehnoloogia õppetooli juhataja Mark Fišel, kelle uurimistiim on loonud veebipõhise masintõlkeprogrammi neurotõlge.ee. “Neurotõlge on hea näide, sest mudel põhineb masinõppel. Meie kui arendajad ei räägi soome ega leedu keelt, selleks piisab andmetest. Absoluutselt kõik andmed, mida me avaliku mootori jaoks kasutasime, on avaandmed, mille on korjanud uurimisrühmad kogu maailmast ja mis on kättesaadavad ja kasutatavad kõigile,” rääkis Fišel. “Sellises mahus, nagu tõlkemootorite treenimiseks vaja on, ei suuda ükski asutus üksi andmeid koguda, ilma avaandmeteta oleks see täiesti võimatu.”

Rakenduste arendamise juures keeleandmeid kasutades on aga ka palju halli ala. Alumäe selgitas, et andmed tulevad enamasti veebist oma litsentside ja autoritega. “Teadlased saavad neid andmeid praegu oma tööks kasutada, aga kui ma võtan treeningandmed ja teen selle peale mudeli, siis pole seisukohta, kas ma saan kasutada seda ainult teaduseks või näiteks ka kommertsotstarbeks,” märkis Alumäe.

Loe intervjuusid Tanel Alumäe ning Mark Fišeliga avaandmete portaalist.
Eelmine
Oktoobri andmeklubis kuuleme vabatahtlike loodud koroonakaardist
Järgmine
Koroonakaart on 2020 aasta olulisim avaandmepõhine rakendus

Lisa kommentaar

Email again: