Projektiideed
Praktilise ja selge eesmärgiga projekti tegemine on lihtne viis õppida. Algajatele annab väikeste projektide tegemine võimaluse harjutada otsast lõpuni ohjade enda kätte võtmist – andmete kogumisest ja puhastamisest visualiseerimise ja analüüsini. Ekspertidele on miniprojektid hea võimalus riskivabalt uusi tehnoloogiaid katsetada.
Põnevaid andmeallikaid Eesti kohta leiab siitsamast lehelt, ülejäänud maailma kohta awesome-public-datasets Githubi repost.
Tulemusi on põnev näha ka teistel – andmeteadusehuvilistel, tulevastel tööandjatel või hoopis ajakirjanduse kaudu laiemal publikul. Näiteks võib avaldamiseks kasutada:
- blogipostitusi ükskõik millises keskkonnas
- Jupyter notebooke (näiteks Jupyter nbvieweri kaudu)
- Markdown-faile Githubis
- R markdowni (Rmd) Githubis
Võimalusi on loomulikult veel.
Kui avaldad midagi allpool pakutud projektide kohta – kasvõi lood esialgse andmestiku mingile küsimusele vastamiseks –, siis loo issue, et lisada link sinu tulemusele ja jaga seda ka Facebooki grupis! Kui sul on endal põnev projektiidee, mida tahad jagada, siis ava issue või pull request.
Tärnide arv projekti juures näitab selle ligikaudset keerukust (aga paljude puhul saab valida lihtsa või keerulise lähenemise, seega ära võta tärne sulatõena).
Filtreeri:
Eesti idufirmade rahastusringide kohta on päris korralikud andmed (alates 2006. a.). Juba nende andmete visualiseerimine oleks laiale ringile põnev, aga veel põnevam oleks välja uurida, millised ettevõtted on tegevuse lõpetanud. Siis saaks kaardistada tüüpilise Eesti idufirma teekonna: millal ja kui palju rahastust saadakse, kui suure tõenäosusega jõutakse järgmisse rahastusringi, kui kaua see kõik aega võtab jne.
Kinnistusraamat sisaldab kõigi andmeid kõigi Eesti kinnistute kohta. Kuigi omanike andmete pärimine on tasuline (1€ päringu kohta), võib kokkuleppel RIKiga või mingi muu riigiasutusega olla võimalik neid andmeid visualiseerimise eesmärgil kasutada. Oleks väga põnev näha Eesti kaarte vastavalt sellele, kas kinnistu omanik on ettevõte või eraisik, eestlane või välismaalane, noor või vana, mees või naine jne.
R-i pakett nimega Estonian Open Data üritab R-is mugaval kujul kättesaadavaks muuta võimalikult suure koguse Eestiga seonduvaid avaandmeid. Sinna andmeallikate lisamine on lihtne ja potentsiaalselt väärtuslik teistele huvilistele, kes saaksid palju kiiremini need andmed kätte, et siis analüüsi ja visualiseeringuid teha.
Ideid andmestike kohta, mida paketti lisada võiks, saab siit.
Kõigi Eesti riigiasutuste ja KOVide ametnike palgad alates 2015. aastast on avalikult kättesaadavad. Nende põhjal saaks uurida:
- Kuidas on palgad ajas muutunud? Kas keskmine on tõusnud? Kuidas erineb see Eesti keskmisest ja kas tõus/langus on käinud samas taktis Eesti keskmisega?
- Mitu protsenti riigitöötajatest igal aastal lahkub (churn)? Millistes organisatsioonides on kaadrivoolavus suurim? Kui paljud lahkujatest lähevad teistesse riigiasutustesse?
- Kas töötajate / töökohtade koguarv on kasvanud? Kuidas see erineb asutuste lõikes?
Eesti Rahvusraamatukogul on andmestik kõigist Eestis avaldatud raamatutest (veebilehel on kontaktid, kuhu tuleb täieliku andmestiku saamiseks kirjutada). Selle põhjal saab vastata huvitavatele küsimustele, näiteks:
- Kui palju on avaldatud raamatute arv kokku muutunud?
- Kuidas on eri teemadel avaldatud raamatute arv muutunud (näiteks astroloogia, ennustamine jms seotu tundub olevat viimasel paaril aastal oluliselt kasvanud)?
- Kes on kõige viljakamad autorid (või toimetajad või kirjastused)?
- Mis sõnu on pealkirjades kõige rohkem ja vähem kasutatud?
Horoskoopide ennustusvõime analüüs oleks ilmselt lati alt läbi jookmsine, aga ägedam on küsida: kas kõigile tähtkujudele öeldakse tõesti sama asja? Sellele küsimusele vastas keeleanalüüsi abil Information is Beautiful, aga inglisekeelsete horoskoopide jaoks. Eesti keeles on see analüüs veel tegemata ja andmeallikaid leiab "horoskoopi" guugeldades piisavalt.
Eesti keele morfoloogia tõttu peame sõnad kokkulugemiseks algvormi viima (kui me seda ei tee, siis loeme "põrand" ja "põrandal" eri sõnadeks) ja seda on võimalik teha näiteks estnltk Pythoni teegi abil.
Kõigi Eesti parteide Facebooki postitused (koos kommentaaride ja reaktsioonide (meeldimiste) arvuga) on mugaval kujul kättesaadavad. Nende põhjal saaks uurida mitut põnevat küsimust:
- Kuidas erineb parteide sõnakasutus? Kas see on ajas muutunud?
- Mis veebilehtedele lingib iga erakond kõige rohkem?
- Kui palju ja milliseid reaktsioone postitused saavad? Kas see on koalitsiooni vahetumisel muutunud? Kas parteide vahel on erinevused?
- Milline on teksti polaarsus?
Riigikogu lehel on kättesaadavad kõik hääletused ja stenogrammid ja need on olemas ka mugavalt kogutud andmefailides (hääletused [6.2MB], stenogrammid[172MB]).
- Millised saadikud hääletavad sarnased (näiteks: kas fraktsioon hääletab alati koos)? Kas erakondadel on tegelikult suur vahe või hääletavad lõpuks kõik ikkagi samamoodi?
- Kui suudad defineerida kahe saadiku vahelise kauguse vastavalt sellele, kui sarnaselt nad hääletavad, saad moodustada saadikutest graafi (võrgustiku) ja selle peal tüüpilisi graafianalüüsi tööriistu rakendada -- näiteks klastreid tuvastada.
- Kui ühtsed on olnud koalitsioonid: kui palju on nende hääled kokku läinud? Mis eelnõudel on peamised lahkhelid?
- Iga saadiku jaoks: kui tihti on ta istungitest osa võtnud? Kuidas sõna võtnud? Kuidas hääletanud?
Inspiratsiooni võid leida ka Euroopa Parlamendi liikmete hääletusi jälgivast lehest VoteWatch
Eestisse saabub ja siit lahkub iga päev hunnik lennukeid, laevu, busse ja ronge. Oleks põnev näha, kui palju inimesi Eestisse jõuab, kust nad tulevad ja mis nende reisi põhjus on. Sama asja võib teha pikemal skaalal migratsiooni kohta: kui palju on Eestist inimesi lahkunud? Kui paljud neist on naasnud?
Andmeid on siin ilmselt piisavalt vähe, et kogumist saab teha käsitsi, aga keerulisem osa on seda kõike põnevalt ja arusaadavalt visualiseerida.
Kui meil on mingi keelekorpus -- suur kogus teksti -- saame õppida genereerima lauseid, mis meenutavad korpuses leiduvaid. Kui kombineerime kaks põnevat korpust, näiteks piibli ja programmeerimisõpiku, saame midagi potentsiaalselt väga naljakat.
Sama asja saame teha eesti keeles. Probleem on küll veidi keerulisem, kuna eesti keelel on rikkam morfoloogia, aga piisavalt suure korpuse ja piisavalt võimsa mudeli korral (näiteks LSTM) võib ka ilma hakkama saada. Ideid korpustest, mida kasutada võiks:
- Postimehe / Õhtulehe / Delfi / Eesti parteide Facebooki lehtede kommentaarid
- Riigikogu stenogrammid + jututubade korpus
- Eestikeelne piibel + Kaur Kenderi säutsud
Valimistulemuste ennustamine on alati põnev teema. Projektil on kaks rasket osa: a) andmete kokkukogumine ja puhastamine ning b) kvaliteetse ennustusmudeli loomine.
Kui see tundub liiga heidutav, siis võib olla põnev lihtsalt andmeid visualiseerida. Näiteks oleks põnev teada, kui suur on KOVi eelarve (eelarveandmed) valimisealise kodaniku kohta (elanike arvu andmed) -- see annaks aimdust, kui mitut eurot keskmiselt ühe valija hääl mõjutab (eeldusel, et kõik lähevad valima). Veel põnevam oleks uurida, millistes omavalitsustes on suurim tõenäosus, et ühe inimese hääl muudab valimistulemust. Sellele küsimusele saab vastata ka eelmiste valimiste andmete põhjal.