tiistai 31. lokakuuta 2017

Aineiston siivoaminen


Sen jälkeen kun ihmiset ovat vastanneet kyselyysi on aika alkaa tarkastella dataa. Ihan heti ei kannata alkaa ristiintaulukoimaan tai piirtämään kuvioita. Sillä jos aineistossa on jotain outoa, joutuu kaikki analyysit tekemään uudelleen. Ensin tulisi aina tarkistaa, että aineisto on kunnollinen. Tämä on vähän tylsä vaihe, mutta täysin välttämätön luotettavien tulosten saamiseksi. Kaikki kysymykset kannatta silmäillä läpi ja katsoa onko vastaukset suunnilleen sellaiset mitä oli odotettavissa. Jos suuria poikkeamia kannattaa miettiä onko kysymys ymmärretty oikein vai johtuuko poikkeama jostain muusta. Alla on listaa asioista, joita olisi hyvä tarkastella aineistoa siivottaessa.

Poistetaan väärät vastaukset


Joskus ihmiset vastaavat kyselyihin moneen kertaan siinä toivossa, että voittaisivat arpajaispalkinnon tai saisivat muun luvatun palkkion. Laitoin kerran yhteen kyselyyn palkinnoksi lahjakortin Alkoon ja Pekka (nimi muutettu) innostui kyselystä niin paljon, että vastasi siihen yli 50 kertaa. Pekan vastaukset olivat aina samat. Käytännössä näiden yli-innokkaiden vastaajien vastaukset voi poistaa helposti, jos arvontadata on samassa taulukossa. Usein näin ei kuitenkaan tietosuojasyistä ole (en esimerkiksi itse tallenna niitä samaan taulukkoon) ja siksi voidaan käyttää muita keinoja. Käyttämäni ohjelma listaa IP-osoitteet, mistä kysely on täytetty. Katson millaisia vastauksia on tullut samalta koneelta. Jos ne ovat selvästi erilaisia (eri ihmisten tekemiä) jätän ne, mutta jos ne vaikuttaa saman ihmisen tekemiltä (esim. 55v, mies, jonka lempiolut on Heineken ja asuu Kokkolassa) poistan ne. Jos IP-osoitettakaan ei ole voi katsoa tuloksia jonkin erottelevan piirteen pohjalta ja tarkastella sitten onko epäilyttävän samanlaisia vastauksia.

Poistetaan tyhjät ja liian puutteellisesti täytetyt


Osa ihmisistä jättää tutkimuksen kesken ja osa täyttää todella ylimalkaisesti. Riippuu tutkimuksesta voiko nämä vajavaiset pitää mukana vai kannattaako ne poistaa. Riippuu myös siitä millä tavalla aikoo prosentteja laskea. Jos laskee prosentit tai muut tunnusluvut kokonaisvastaajamäärästä on olennaista, että kaikki vastaajat ovat vastanneet kaikkiin kysymyksiin. Jos taas laskee prosentit aina vain niistä, jotka ovat vastanneet kysymykseen ei haittaa vaikka kysymyskohtainen vastaajamäärä vaihtelisi. Eri asia sitten on pohtia sitä miksi johonkin kysymykseen on jätetty vastaamatta. Johtuuko se siitä, että kysymys on huonosti laadittu, siihen on vaikea vastata vai muusta syystä? Koska tässä siivoamisvaiheessa on paljon kiinni tutkijan tulkinnoista, kannattaa kirjata ylös kuinka monta vastausta poistaa ja millä perusteella. Joissain tapauksissa tyhjät vastaukset voidaan korvata keskiarvolla, mutta tässäkin kannattaa käyttää omaa harkintaa ja miettiä miksi vastaus puuttuu.

Koodataan avoimet kysymykset


Osan avoimista vastauksista voi toki jättää ihan ilman koodaamista, mutta aineiston tiivistäminen yleensä helpottaa tulkintaa. Käytännössä itse jätän yleensä alkuperäisenkin vastauksen dataan ja teen rinnalle toisen, koodatun muuttujan. Tämä siltä varalta, että haluaa muuttaa luokkia jälkikäteen tai tarkistaa jotakin. Esimerkiksi sanomalehden tutkimuksessa voidaan kysyä paikkakuntaa ja sitten koodata vastaukset levikkimarkkinoinnin kannalta järkeviin luokkiin. Koodaus voi yksinkertaisimmillaan olla dikotominen eli mainitsiko vastaaja asian vai ei. Avointen koodaamisesta löytyy lisätietoja täältä. 

Yhdistellään luokkia


Voi olla, että joihinkin vastausvaihtoehtoihin tulee kovin vähän vastauksia tai jälkikäteen huomaa joidenkin vastausten tarkoittavan suunnilleen samaa. Tällöin voi olla järkevää yhdistellä luokkia, jotta saa niistä tarpeeksi suuria taustaryhmittäin tarkastelua varten.

Analysoidaan muu, mikä-kohta


Usein kysymyksissä on mukana avoin ”muu, mikä” –kohta. Näitä vastauksia on hyvä tarkastella. Yleensä suuren osan niistä saa laitettua kysymyksessä jo oleviin vastausvaihtoehtoihin. Moni vastaaja ajattelee olevansa erikoistapaus ja haluaa täsmentää ja selittää vastauksiaan. Tutkimuksessa kuitenkin usein haetaan massan mielipidettä (toki myös hajontaa) ja siksi tiivistäminen on usein järkevää. Tästä ”muu, mikä”-luokasta saattaa löytyä myös ihan uusia luokkia vastausvaihtoehdoksi, mitkä eivät aiemmin ole tulleet mieleen. Näiden kanssa kannattaa kuitenkin olla varovainen sillä, on luultavaa, että useammat ihmiset olisivat vaihtoehdon valinneet, jos se olisi ollut listattuna ja tullut siksi helpommin mieleen. Joskus on sanottu, että ”muu, mikä” -kohta ei saisi olla yli 20%. Tämä onkin hyvä nyrkkisääntö, mitä pienempi, sen paremmin ovat valmiit vastausvaihtoehdot kattaneet ilmiön.

Filtterit ja taustamuuttujat


Vaikka usein kysymyskaavakkeessa on hyppyjä, millä varmistetaan vastaamisen mielekkyys, voidaan vielä tässä vaiheessa lisätä puuttuvat hypyt ja tarkastella esimerkiksi tuotteen käyttökokemusvastauksia vain niiden osalta, jotka olivat käyttäneet tuotetta. Toki joskus on hyvä myös vertailla vastauksia keskenään käyttäjien ja pelkästään mielikuvansa perusteella vastaavien ei-käyttäjien osalta.


Aineiston siivoamiseen menee aikaa, mutta kuten alussa totesin, se on välttämätön vaihe luotettavan tutkimuksen tekemiseksi. Tutkimuksen kokonaistekoajasta siihen on hyvä varata noin viidennes eli riippuen laajuudesta siivoustalkoot kestävät suunnilleen kolmesta tunnista kolmeen päivään.

(kiitos kuvasta jk1991 at freedigitalphotos.net)