Isot aineistot, isot mahdollisuudet – ja haasteet

Termeihin ”big data” ja ”open data” on voinut törmätä viime aikoina monellakin suunnalla. Osallistuin syyskuussa Oxfordin yliopiston Internet instituutin (OII) järjestämään konferenssiin ”Internet, politics and policy: big data, big challenges?”, jossa esittelimme Suomen viime presidentinvaaleja ja Facebookin kannattajaryhmiä käsittelevän paperimme (ks. myös esitys täältä). Viime viikolla Viestinnän oppiaineen vieraana oli isosta datasta puhumassa professori Axel Bruns Australiasta, Brisbanen yliopistosta. Aalto-yliopistossa puolestaan järjestettiin vastikään useiden toimijoiden yhteistyön tuloksena avoimen datan festivaali, joka on ensimmäinen laatuaan Suomessa. Avoin data on esillä myös kuntavaaliuutisoinnissa. Esimerkiksi HS julkaisi vastikään kuntavaalikoneesta keräämänsä datan avoimena sekä toteutti sen perusteella nelikentän, johon puolueet sijoitettiin. Mutta miksi datasta keskustellaan juuri nyt niin paljon? Entä mikä tekee datasta ”avointa” tai ”isoa”?

Perinteisesti isoja aineistoja on kerätty lähinnä kansallisten seurantatutkimusten yhteydessä tai rekisterien avulla (esim. verotiedot, Kelan rekisterit, asuntokaupat, paikkatiedot tms.). Myös suuryrityksillä on resursseja kerätä valtavia data-aineistoja asiakastietokannoistaan. Esimerkiksi kaupan etukortin höyläys tuottaa jatkuvasti valtavia määriä yksityiskohtaista dataa siitä, milloin, missä ja kuka mitäkin kaupasta ostaa. Jos tämä voidaan yhdistää ostajan demografisiin tekijöihin, saadaan jo melko kattava käsitys siitä, mitä missäkin kannattaa laitta milloinkin kaupan hyllylle tai alennukseen. Samalla tavalla matkapuhelimen käyttö voidaan kääntää data-aineistoksi. Tästä esimerkkinä 1,3 miljoonan portugalilaisen soittotietoja hyödyntänyt tutkimus, jossa analysoitiin keiden kanssa ihmiset pitävät tiiviimmin yhteyttä. Yhtä hyvin matkapuhelindata voisi tietysti vastata kysymykseen siitä, missä ihmiset liikkuvat mihinkin aikaan päivästä. Tällainen data on kuitenkin harvoin ”avointa” eli kaikkien saatavilla – edes sellaisena, että yksittäisiä havaintoyksikköjä ei voida tunnistaa. Datan omistajuus ja yksityisyys ovat polttavia kysymyksiä.

Julkiseen dataan liittyy vaateita avoimuudesta. Jos dataa kerätään isoja määriä julkisilla varoilla, miksei ihmisillä olisi oikeus käyttää dataa ja hyötyä siitä ilman maksua (siis kun tunnistettavuus-ongelmat on ensin hoidettu)? Dataa onkin alettu julkiasemaan yhä enemmän avoimena. Esimerkiksi pääkaupunkiseudun kunnat avasivat hiljattain datapankin, josta saa ladata ilmaiseksi käyttöönsä Helsingin kaupunkia ja seutua koskevia data-aineistoja. Datan avoimuudesta käytävään keskusteluun liittyy erityisesti datajournalismi, eli avointa dataa hyödyntävä tutkivan journalismin laji, jossa yhdistyvät visualisoinnit, koodaus ja internetin data-aarrearkkujen penkominen. Datan avoimuuden taustalla on ajatus yhteiskunnallisen läpinäkyvyyden lisäämisestä ja innovaatiokyvykkyyden kasvattamisesta. Tyypillisesti läpinäkyvyys liittyy julkisen hallinnon keräämään dataan, mutta miksei myös esimerkiksi suuryritysten toimintaan. Innovatiivisuuden lisäämisestä puolestaan voi olla kyse, kun halutaan antaa jonkin toiminnon kylkiäisinä syntynyttä dataa (esimerkiksi maastoon liittyvät aineistot) vapaasti yksityishenkilöiden ja yritysten käyttöön.

Mutta avointa ja ennen kaikkea isoa dataa voi tänä päivänä kerätä oikeastaan kuka tahansa riittävällä osaamisella varustettu henkilö. Dataa eivät enää tarjoa vain yksityiset tai julkiset instanssit, vaan sitä louhitaan ja kopioidaan automatisoidusti internetistä erilaisilla työkaluilla (ks. esimerkiksi OutWit Hub kohdasta työkalut). Oxfordissa esittelemämme tutkimuksen aineisto oli peräisin Facebookista, josta keräsimme ehdokkaiden Haaviston ja Niinistön kannattajasivuilta yhteensä 27 000 aktiviteettia kahden viikon ajalta sekä ystäväverkoston, joka sisältää 100 000 käyttäjää ja 650 000 yhteyttä heidän välillään. Tämän aineiston avulla pyrimme mm. kartoittamaan, millä tavalla kannattajaryhmät erosivat toisistaan koostumuksen tai aktiviteettien suhteen. Kokoluokassa oma aineistomme oli kuitenkin varsin vaatimaton verrattuna konferenssin muihin papereihin, joissa analysoitiin esimerkiksi useita miljoonia twiittejä tai verkkouutisia. Iso data on kuitenkin suhteellinen käsite: se mikä on isoa nyt, ei välttämättä ole sitä enää 10 vuoden kulutta. Samalla tavalla ”iso” liittyy siihen, mitä halutaan kysyä.

Isoja aineistoja siis analysoidaan, koska a) niitä on mahdollista kerätä vaivattomasti internetistä ja b) koska tietokoneiden teho on kasvanut sen verran suureksi, että datan analysointi ja visualisoiminen on mahdollista. Viestinnän oppiaineessa vieraillut Bruns sanoikin, että tässä mielessä yhteiskunta ja -käyttäytymistieteet alkavat lähestyä fysiikkaa, biologiaa ja muita luonnontieteitä, joissa todella isojen aineostojen käsittely on ollut jo pitkään arkipäivää. Olemmekin tilanteessa, jossa computational humanism eli ”laskennalliset ihmistieteet” tekevät tuloaan.

Millä tavalla isot aineistot sitten muuttavat humanistisia tai ihmisten käyttäytymistä tutkivia tieteitä? Siinä missä aiemmin käyttäytymistä kuvaava data on perustunut joko tutkijan tekemiin havaintoihin (observational studies), koeasetelmiin (experimental studies) tai kyselytutkimuksiin (survey), nyt internetistä voidaan kerätä todellista käyttäytymistä kuvaavaa tietoa. Lisäksi otantaa ei tarvitse rajoittaa koeasetelmissa muutamaan kymmeneen koehenkilöön, vaan esimerkiksi Amazonin Mechanical Turk -joukkoistamispalvelun avulla voidaan palkata vaivattomasti vaikka tuhansia koehenkilöitä satoihin online-ympäristössä suoritettaviin kokeisiin. Näin on tehnyt mm. Oxfordissa keynote-puhujana ollut Duncan Watts. Hän testasi public goods -peliin liittyviä hypoteeseja online-kokeessa, jonka koeryhmät oli hankittu Mechanical Turkista. Samalla tavalla Facebookkia käytettiin hiljattain 61 miljoonan ihmisen kokeessa, jossa tutkittiin kaverien ja suosittelun vaikutuksia äänestyskäyttäytymiseen.

Isolla datalla on siis merkitystä sekä tutkimuksen että sen sovellutusten näkökulmasta. Poliittinen päätöksenteko voi hyötyä aivan uudella tavalla ison datan käytöstä. Oxfordin konferenssissa esiteltiin Yhdysvaltojen koululaitoksen hanketta, jossa selvitettiin mahdollisuuksia seurata reaaliaikaisesti yksittäisten oppilaiden todennäköisyyttä pärjätä koulussa parhaalla mahdollisella tavalla. Periaatteessa digitalisoitunut maailma tarjoaa tällaiseen seurantaan mahdollisuudet, mutta on sanomattakin selvää, että datan keräämiseen ja soveltamiseen liittyy syviä eettisiä ja yksityisyyttä koskevia haasteita. Lisäksi suuriin datoihin liittyy haaste omistajuudesta. Jotkut kansainväliset jättiyritykset kuten, Google, Microsoft, Facebook, Twitter tai Yahoo, ovat panostaneet valtavasti datan keräämiseen ja hyödyntämiseen, ja näille yrityksille on siten myös keskittynyt yksityiskohtaista dataa sadoista miljoonista internetin käyttäjistä. Tässä sarjassa yliopistot ja humanistit ovat vielä melkoisen pieniä toimijoita ja lähinnä käsi ojossa dataa pyytämässä. Esimerkiksi Watts, yksi alan kiistattomista uranuurtajista, ei suinkaan työskentele yliopistossa, vaan on vaikuttanut Yahoolla ja sittemmin siirtynyt Microsoft Researchin palvelukseen. Niin ikään aiemmin viitattu 61 miljoonan yhdysvaltalaisen Facebook-koe toteutettiin yhteistyössä Facebookin kanssa, ja Facebook myös määräsi, minkä kokoinen esimerkiksi vertailuryhmän pitää olla, jotta mahdollisimman moni kokeeseen osallistuva kuuluisi äänestämään kannustavaan ”positiiviseen” testiryhmään.

Ison datan käyttöön ja analysoimiseen liittyy siis suuria haasteita, joita olen käsitellyt myös toisaalla. Tässä tiivistetysti:

  • Vaikka internetistä louhittu data voi olla havaintojen ja muuttujien määrällä mitattuna isoa, se ei välttämättä ole edustavaa. Esimerkiksi Suomen mittakaavassa Twitteristä saatu näyte ei kuvasta juuri mitään muuta kuin twitterin käyttäjiä. Sama ongelma liittyy muutenkin verkkosivuilla tai Facebookin kautta tehtyihin tutkimuksiin. Ne edustavat vain tietyn palvelun käyttäjiä tai ovat tarkemmin määrittelemättömiä näytteitä internetin käyttäjistä. Tämän vuoksi internetissä tehty tutkimus on usein luonteeltaan tapaustutkimusta.
  • Isojen datojen analysoiminen on lähtökohtaisesti puuhaa, jossa tarvitaan sekä tilasto-, matematiikka- että ohjelmointiosaamista. Näitä kaikkia taitoja ei perinteisesti löydy sosiaali- ja käyttäytymistieteilijöiltä. Sen sijaan heillä on taitoa ja teoreettista osaamista kysyä relevantteja yhteiskunnallisia tai käyttäytymiseen liittyviä tutkimuskysymyksiä. Tämä muodostaa ehkä suurimman haasteen tällä hetkellä kokeellisen makrotason tutkimuksen tekemiselle yhteiskuntatieteissä. Journalismin saralla osaamiskuilua on tilkitty umpeen mm. järjestämällä Hacks/Hackers-kohtaamisia koodaajien ja journalistien kanssa. ”Laskennallisen humanismin” menestystekijät löytynevät oikeanlaista osaamista yhdistävistä tiimeistä ja ”humanistic research labeista”.
  • Visualisoinnit ovat ison datan analysoinnin kannalta oleellisessa asemassa. Kun populaatio ei ole kovin tarkkaan määritelty tai sillä ei ole suurta merkitystä, datalta voidaan kysyä tutkimusmatkailuhengessä kysymyksiä. Voidaan pohtia, mitä miljoona jotakin tiettyä aihetta koskevaa twiittiä voisi meille kertoa. Tällöin visualisoinnit ovat tehokas tapa paitsi kysyä kysymyksiä ja tutkia dataa, myös esittää tiivistettynä analyysin tuloksia. Oxfordin konferenssissa järjestettiin työpaja, jossa Tableau-yritys esitteli omaa datan analysoinnin ja visualisoinnin työkalua, josta on saatavilla myös avoin versio. Tablea oli käyttöliittymältä hieman Excelin tapainen, mutta taulukoinnin sijaan käyttäjän tarvitsi vain siirrellä muuttujia valmiisiin lokeroihin uskottavan näköisten visualisointien aikaansaamiseksi. Toki tällaistakin ohjelmaa käytettäessä on syytä tietää, mitä on tekemässä, muutoin datan analysointi ei ole mielekästä puuhaa. Lisäksi datan tulee olla todella hyvin puhdistettu ja siistitty. Valmiisiin pakettiohjelmiin liittyy tutkimuksen kannalta myös kiusallinen ”musta laatikko” -ongelma: ei ole aina selvää, mitä ohjelma aineistolle tekee jonkin numeerisen tai visuaalisen tuloksen aikaansaamiseksi.

Tutkimuksessa internetin käyttö pienten tai suurten datojen keruussa yleistyy jatkuvasti. Enimmäkseen mielenkiinnon kohteena on ollut online-yhteisöjen tutkiminen, mutta kun suurempi ja suurempi osa väestöstä siirtyy verkkoympäristöön, ei internet-aineistojen kohdalla tarvitse enää puhua ”verkkotutkimuksesta”, vaan ylipäätään yhteiskunnan ja sosiaalisen käyttäytymisen tutkimisesta. Myös Bruns toi vierailullaan esiin, että ei ole ehkä mielekästä puhua on- ja offline-tutkimuksesta, vaan näiden yhdistelmästä. Ihmiset elävät sekä verkossa että fyysisessä todellisuudessa yhtäaikaisesti. Tulevaisuuden humanistit ja sosiaali- ja käyttäytymistieteilijät sijoittuvatkin tukevasti jonnekin on- ja offline-maailman välimaastoon.

Advertisements

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s