Tekoälykästä moderointia

Palvelut, Työt
Ilmari Ahonen
Ilmari Ahonen
Data Specialist
artificial_intelligence
Luonnollisen kielen käsittelyyn liittyvät ongelmat yleistyvät kovaa vauhtia digitalisoituvan yhteiskunnan mukana. Suurien yritysten asiakaspalveluosastot saavat päivittäin valtavan määrän palautteita, korvaushakemuksia, tarjouksia, kyselyitä, tilauksia yms. yhteydenottoja, joiden tehokas käsittely on ensiarvoisen tärkeää. Samoin tekstin tuottaminen toistuviin raportteihin, uutisiin tai sopimuksiin vievät lukemattomia työtunteja, jotka voisi käyttää tuottavamminkin. Näitä kaikkia ongelmia voidaan lievittää ellei jopa kokonaan ratkaista tekoälyn avulla. Tässä blogitekstissä kerrotaan kuinka Avoltuksen analytiikkatiimi sovelsi syvää neuroverkkomallia automaattisen moderaattorin kehittämiseen.

Internetin keskustelualustat ovat parhaimmillaan todellinen aarreaitta erilaisia kannanottoja, tiedonjyväsiä ja huumoriakin. Harrastefoorumeilla vaihdetaan vinkkejä ja jaetaan mielenkiintoisia uutisia, mielipidekirjoituksen kommentit puolestaan rikastavat alkuperäistekstin näkökulmaa ja herättävät keskustelua. Varjopuolet ovat myös hyvin tiedossa. Trollit, roskapostittajat ja yksinkertaisesti vihaiset ja katkerat ihmiset pilaavat nopeasti muuten asialliset keskustelut. Epäasiallinen sisältö nakertaa myös itse palveluntarjoajan mainetta. Tästä syystä viestittelyä moderoidaan yleensä hyvinkin tarkasti eli keskusteluista pyritään poistamaan roskapostit, kiroilut, vihapuheet ja muut keskustelualueen sääntöjä rikkovat viestit.

Monien muiden mediatalojen tapaan pohjoissuomalainen Kaleva-lehti kamppaili keskustelualueidensa valvonnan kanssa. Keskimäärin Kalevan alustoille tulevista viesteistä jopa runsaat 20 % on hylättävää materiaalia, mikä vastaa noin 400-500 viestiä päivässä. Näiden joukossa on selkeää roskapostia, kiroilua ja epäasiallista sisältöä, mutta myös aiheeseen kuulumattomia tai vain yksinkertaisesti turhanpäiväisiä kommentteja. Käytännössä vastaavissa mediataloissa uutisartikkelien kommenttien moderoinnista huolehtivat toimittajat itse, oman päätyönsä eli journalistina toimimisen ohella. On selvää, että tämä ei ainakaan kohota heidän työnsä mielekkyyttä eikä myöskään tuottavuutta. Toinen vaihtoehto on ulkoistaa moderointi asiaan erikoistuneelle taholle, mistä puolestaan syntyy merkittäviä lisäkustannuksia.

Alkuvuodesta 2017 Avoltuksella virisi idea automaattimoderaattorista, joka keventäisi työntekijöiden taakkaa suodattamalla viestitulvasta ainakin selvimmät tapaukset ja sallisi ihmisten keskittyä haastavampiin “harmaan alueen” viesteihin. Moderaattori toteutettaisiin pilvipalveluna “avaimet käteen” -periaatteella ja kuukausimaksulliseksi palveluksi. Näin Kalevan ja Avoltuksen tarpeet kohtasivat ja moderaattorin kehitysprojekti käynnistyikin hyvin nopeasti sen jälkeen. Kaleva tarjosi käyttöön pitkältä aikaväliltä kerätyn kommenttihistorian, joka koostui runsaasta viidestä miljoonasta viestistä ja niille tehdyistä moderointipäätöksistä. Tätä aineistoa käytettiin Kalevan moderointilinjan omaksumiseen ja moderaattorin testaamiseen.

Moderointi on luonteeltaan rutiininomaista ja toistuvaa työtä, juuri sellaista jossa koneet yleensä pärjäävät hyvin. Mutta voiko kone oikeasti oppia käsittelemään ihmisten tuottamaa kieltä kaikkine kirjoitusvirheineen, taivutusmuotoineen, kiertoilmauksineen, lainasanoineen ja hymiöineen? Vastaus on, että kyllä voi ja yllättävänkin tarkasti! Jo ensimmäisen -- vain yksittäisiä sanoja etsivän -- prototyypin tuloksena huomattiin, että kone pääsee jyvälle ongelmasta ja löytää aineistosta hyödyllisiä signaaleja. Kysymyksenä oli vain, että pystytäänkö mallin tarkkuus nostamaan tarpeeksi korkealle tasolle luotettavan palvelun tuottamista varten.

artificial_intelligence_head

Automaattinen moderointi on yksi niin sanotun luonnollisen kielen käsittelyn (Natural language processing, NLP) sovelluksista, joka kattaa kaiken ihmisten tuottaman tekstin siivoamiseen, luokitteluun, jäsentelyyn ja jopa ymmärtämiseen liittyvät ongelmat. NLP- menetelmiä on vuosien saatossa kertynyt valtava määrä, joista moderoinnin kannalta oleellisia ovat olleet muun muassa täytesanojen kuten “ja”, “eli” ja “tehdä” poistaminen, usein yhdessä esiintyvien sanaparien ja -ryhmien tunnistaminen, sanalistat, sekä erilaiset ongelman dimensiota pienentävät pakkausmenetelmät. Mutta kuten monella muullakin koneoppimisen alalla, on niin sanottujen syvien konvoluutioneuroverkkojen uusi tuleminen yksinkertaistanut ja osin kokonaan poistanut tämän kaltaisten apukeinojen käytön. Lopullinen moderaattorimallin toteutus ottaakin yksinkertaisesti vastaan kommentin raakatekstin sana kerrallaan ja antaa vastauksena moderointipäätöksen ilman ihmisen erikseen kirjoittamia välivaiheita! Tästä syystä malli on myös käytännössä kieliriippumaton eli se voidaan helposti opettaa käsittelemään vieraskielistä sisältöä datan ollessa saatavilla. Kaiken lisäksi malli on nopea ja selviytyy helposti suurestakin viestiruuhkasta käytännössä reaaliajassa.

Mallin suorituskyky on Kalevan liiketoiminnan kannalta erityisen tärkeää, sillä se määrittää suoraan kuinka suuren osan viestimassan käsittelystä voidaan jättää automaatin harteille. Tarkkuuden laskeminen ei kuitenkaan ole aivan suoraviivaista, sillä pelkän luokittelun sijaan malli palauttaa viestin hylkäämistodennäköisyyden. Mitä korkeampi tämä luku on, sitä selvemmin se on mallin mielestä hylättävä. Suoran luokittelun sijaan tätä lukua voidaankin käyttää priorisoimaan manuaaliseen tarkastukseen päätyvät viestit tärkeysjärjestykseen. Tähän perustuu myös suosittu tarkkuuden mittari ROC (Receiver operating characteristic) -käyrä, jonka alle jäävä ala kertoo mallin järjestelykyvystä. Moderointimallilla tämä luku on noin 80 %, mikä tarkoittaa, että mallin antama järjestys kahdelle satunnaisesti valitulle hylättävälle ja hyväksyttävälle viestille on neljä kertaa viidestä oikea. Käytännössä mallin tarkkuus riippuu kuitenkin hyvin paljon viestin laadusta, siten että selkeästi hylättävät viestit tunnistetaan luotettavammin kuin muu aineisto. Tämä on odotettava tulos, sillä räikeät epäasiallisuudet jättävät ihmisillekin vähemmän tulkinnanvaraa, kun taas päällisin puolin siistin keskustelun moderointi voi olla hyvinkin hankalaa ja tapauskohtaista.

Moderaattorin käyttöönotto Kalevalla aloitettiin lyhyellä testijaksolla, jossa suurin osa viesteistä ohjattiin vielä ihmisten käsiteltäviksi ja vain selkeästi hylättävän ja hyväksyttävän materiaalin kohdalla luotettiin “Klaaraksi” nimetyn tekoälyn ratkaisuun. Kokemuksen ja luottamuksen kasvaessa Klaaran työmäärää kuitenkin lisättiin asteittain ja tällä hetkellä puhtaalla automaatiolla käsitelläänkin jo noin puolet viestimassasta. Kaiken kaikkiaan kokemukset tekoälyn kanssa toimimisesta ovat olleet positiiviset. Sen mukaan tuominen on sekä keventänyt toimittajien työtä että tuonut tehokkuutta ja tasalaatuisuutta moderointiin. Tämä miellyttää paitsi Kalevan toimitusta myös keskustelualueilla vierailevia.

Avoltuksella on koneoppimisen ja tilastollisen mallintamisen projekteista vastaavat tohtoritason asiantuntijat, joilla on useiden vuosien käytännön kokemus laajasti eri liiketoiminnan aloilta. Projektit toteutetaan vapaasti saatavilla olevilla teknologioilla, joista tärkeimmät ovat R, Python, Tensorflow, Keras jne. Vahvan teknologia- ja teoriaosaamisen johdosta tiimillä on edellytykset hyödyntää alan uusimpia ratkaisumalleja, joita tarvitaan esimerkiksi suurien tietomassojen sekä kuva -ja tekstimuotoisen datan analysointiin.

Mihin sinä tarvitset lisää älyä?