Navigation

Etusivu Ennakko Workshop Mainos Yhteenveto

Aikataulu

Osa 1: Maanantai 11.2.2012 klo 12 - 16

Osa 2: Tiistai 12.2.2012 klo 12 - 16

Ilmoittautumislomake sivun alalaidassa

Kuvaus

Tämä workshop keskittyy tutkimusprosessin usein työläimmän vaiheen, data-analyysin, tehostamiseen toistettavan tutkimuksen menetelmien avulla. Workshopissa ei käsitellä tiettyä tilastollista menetelmää vaan etsitään tehokasta tapaa hallita data-analyysi kokonaisuutena aina raakadatasta julkaisuvalmiiksi taulukoiksi ja kuvioiksi asti. Workshopissa toistettavan tutkimuksen lähetysmistapaa sovelletaan vertailevan survey-tutkimuksen tarpeisiin.

Workshop on suunnattu tutkijoille ja opiskelijoille, joiden tutkimus sisältää numeerisen datan analysointia. Workshop alkaa lyhyellä johdatuksella R-ohjelmointiin, mutta noudattelee valtaosin "tekemällä oppii" -periaatetta. Data-analyysin eri vaiheet (mm. datan siivous, muokkaaminen, survey-tutkimus, tilastolliset menetelmät, tulosten raportointi) käydään läpi esimerkkitutkimuksen puitteissa. Workshopissa laadittava yksinkertainen työvirta on laajennettavissa monimutkaisemman tutkimuksen tarpeisiin. Lisäksi workshopissa kiinnitetään erityishuomioita sähköiseen julkaisemisen vaatimuksiin ja raportit laaditaan siten, että ne on mahdollista julkaista joustavasti monissa eri julkaisumuodoissa.

Miksi?

Toistettavalla analyysillä tarkoitetaan tutkimuksen data-analyysiprosessin toteuttamista niin, että toinen tutkija voi vaivattomasti toistaa analyysin. Toistettavuudessa (wikipedia) on siis ensisijaisesti kyse tutkimuksen arvioitavuudesta ja luotettavuudesta. Tämän ohella toistettavan tutkimuksen periaatteiden soveltaminen tekee data-analyysistä suoraviivaisemman, helpommin hallittavamman sekä ennen kaikkean jaettavan. Analyysikoodin jakaminen tiedeyhteisölle on tärkeä ja konkreettinen osa tieteellisen osaamisen ja tiedon kumuloitumista, ja merkittävä mahdollisuus juuri laskennallisten (sosiaali)tieteiden kehittymiselle.

Avoimen koodin ohjelmistojen varaan rakennettu analyysi on toistettava myös riippumatta tutkijan taloudellisista resursseista. Avoin lähdekoodi ei myöskään aseta rajoituksia käytettäville aineistoille tai analyysin tulosten julkaisemiselle.

Tavoite

Workshopin tavoitteena on

  1. Antaa osallistujalle taidot omien tutkimusten data-analyysin suunnitteluun ja toteuttamiseen toistettavuuden näkökulmasta.
  2. Tehdä tutuksi uusimpia R-kielen sovelluksia data-analyysiin hallintaan
  3. Tehdä tutuksi erilaisia teknolgioita tulosten sähköiseen julkaisemiseen.

Esimerkkivideo workhopissa käytettävistä työkaluista

R Markdown, RStudio & knitr ja pandoc tekstiasiakirjan muotoilussa from Markus Kainu on Vimeo.

Kurssin pitäjä

Markus Kainu on tohtorikoulutettava Turun yliopiston sosiaalitieteiden laitoksella sosiaalipolitiikan oppiaineessa. Hän tekee väitöstutkimustaan köyhyydestä ja taloudellisesta eriarvoisuudesta postsosialistisessa transitiossa Helsingin yliopiston Aleksanteri-instituutissa. Hän on perehtynyt tieteelliseen julkaisemisen tietotekniikkaan, erityisesti avoimen koodin ohjelmistojen saralla. Ensisijaisena tilasto-ohjelmointikielenä hän käyttää R-kieltä. Hän ylläpitää avointa R-koodipankki osoitteessa: markuskainu.fi/r-tutorial/, johon on kasattu toistettavia koodipätkiä eri tutkimusaineistojen muokkaamiseen ja analysointiin sekä mm. Eurostatin tilastojen suoraan konelukemiseen R:ään.

Toteutustapa

Workshop koostuu kahdesta neljän tunnin klinikasta sekä ennakkotehtävistä. Ennakkotehtävät ja oppimateriaalit ovat saatavilla avoimessa wikissä.

Kurssilla tarvittavat varusteet

Tietokone johon osallistujalla on ylläpitäjän/admin/root oikeudet, eli mahdollisuus asentaa tarvittavat ohjelmisto sekä pääsy käyttöjärjestelmän tietohin. Nykyaikainen (~alle 10 vuoden ikäinen) Mac, Windows, tai Linux kone riittää hyvin.

Ohjelmointiympäristön asentaminen

Asennettuna pitää olla R, RStudio sekä pandoc

Pdf-muunnoksiin pitää olla myös LaTex-asennettuna

Suositeltavat ennakkotehtävät

Courserassa on tammikuussa 2013 tarjolla kaksi erinomaista aloittelijatason data-analyysin kurssia R:llä.

  1. Computing for Data Anlaysis - Jan 2nd 2013 (4 weeks long)
  2. Data Analysis - Jan 22nd 2013 (8 weeks long)

On erittäin suositeltavaa liittyä (kymmenien) tuhansien muiden joukkoon ainakin Computing Data Analysis kurssille, joka alkaa tammikuun 2. päivä. Courseran kurssien antamat tiedot auttavat saamaan enemmän irti tästä workshopista.

Tähän workshopiin orientoivat ennakkotehtävät julkaistaan osanottajille sopivasti ennen kurssin alkua.

Ilmoittautuminen