STT vauhdittaa kieliteknologian tutkimusta antamalla uutisarkistonsa tutkijoiden käyttöön

19.6.2019

Suomen Tietotoimisto on luovuttanut sähköisen uutisarkistonsa tutkijoiden käyttöön. STT:n suomenkielisiä uutisjuttuja on nyt mahdollista ladata tutkimuskäyttöön yliopistojen ylläpitämästä Kielipankista.

Kielipankki palvelee erilaisia kieliaineistoja käsitteleviä tutkijoita.

- Toivomme näin hyödyttävämme yliopistotutkimusta erityisesti kieliteknologiaan, koneoppimiseen ja tekoälyyn liittyvissä tutkimushankkeissa. STT:n tehtäviin kuuluu kehittää sisällöntuotannon automaatiota ja robotiikkaa siten, että se palvelee yleisesti suomalaista media-alaa. Jos tutkimusryhmillä ei ole pääsyä median tuottamaan materiaaliin, on tuohon materiaaliin pohjautuvia sovelluksia luonnollisesti mahdotonta rakentaa, sanoo STT:n toimitusjohtaja Kimmo Pietinen.

STT:n uutismateriaali on ollut tutkijoiden käytössä muun muassa automaattiseen tekstintuotantoon kieliteknologian avulla tähtäävän Scoopmatic-projektinpuitteissa. Turun yliopiston NLP-kieliteknologiaryhmä on materiaalin avulla kehittänyt suomen kielen malliaan ja luonut erillisen mallin "STT-suomelle".

Kielipankkiin ladattu suomenkielinen uutisarkisto sisältää vuodet 1992-2018, ja pääosa yli 2,7 miljoonasta jutusta on eripituisia uutisjuttuja.

STT:n uutisarkistoa voivat hyödyntää kielitieteilijöiden lisäksi muun muassa humanististen ja yhteiskuntatieteellisten alojen tutkijat, kertoo projektisuunnittelija Mietta Lennes FIN-CLARIN-konsortiosta, joka koordinoi Kielipankkia.

Kielipankin sanomalehtiaineisto on toistaiseksi painottunut vanhempaan materiaaliin, joten STT:n arkisto paikkaa tätä puutetta tutkijoiden valikoimassa.

- Tuoreempia uutisaineistoja ei toistaiseksi juuri ole. Sikäli tämä on hieno lisä Kielipankin valikoimaan, Lennes sanoo.

STT:n uutisarkisto on ladattavissa Kielipankista kokonaisuudessaan raakamateriaalina. STT arvioi kaikki tutkimussuunnitelmat ennen kuin pääsy arkistoon myönnetään.

Uutismateriaali tulee tutkijoiden käyttöön Kielipankissa paremmin jäsennetyssä muodossa syksyn aikana. Tuolloin tutkijat pääsevät kiinni aineistoon Korp-palvelussa, jossa selailu onnistuu helpommin.