Mis on andmeteadus?
Definitsioon, eesmärk ja hulk näiteid.
Andmeteadus hõlmab kõiki tegevusi, mis aitavad andmete põhjal kasulikke otsuseid teha.
See definitsioon on üsna umbmäärane, sest praegu pole definitsioon päris selgelt välja kujunenud, aga näited aitavad arusaamisele kaasa. Andmeteadust kasutavad näiteks:
- AirBnB mõistlike üürihindade soovitamiseks,
- arstid koepiltidest vähirakkude tuvastamiseks,
- TransferWise pettuse tuvastamiseks,
- kokandushuvilised toiduainete sarnasuse analüüsiks,
- Eesti e-residentsuse tiim oma progressi jälgimiseks.
… ja veel paljud inimesed akadeemias, ettevõtetes ja igapäevaelus.
Andmeteaduse tegemine ei ole eraldi eesmärk –- see on kollektsioon meetodeid, mis aitab juba seatud eesmärki paremini saavutada, kasutades selleks andmeid. Analoogne tegevus on programmeerimine: see on hulk meetodeid, mis aitab arvutite abil lahendada ära reaalse probleemi (näiteks luua internetipanga, et kliendid ei peaks enam kontorites kohal käima). Sellest, mis on andmed ja mis neist kasu on, võid lähemalt kuulata Taivo TEDx kõnest “Miks andmeteadus?”.
Andmeteaduse meetodite hulk on lai. See sisaldab väga mittetehnilisi asju nagu kirjalikke analüüse ja lihtsat kirjeldavat statistikat, veidi tehnilisemat tööd nagu andmete ettevalmistamist ja visualiseerimist, või matemaatiliselt keerulisemaid asju nagu aegridade ennustamist ja inimtegevuste (näiteks kinopiletite hinnastamise) ära automatiseerimist – ja veel palju muud.
Aga kui andmeteadus sisaldab nii paljusid erinevaid asju, siis kuidas erineb see teistest terminitest, mis hiljuti moodi läinud – tehisintellektist, masinõppest ja suurandmetest? Siin on lühike seletus, mis aitab neid eristada.
A-tüüpi ja B-tüüpi andmeteadlased
Ala heterogeensuse tõttu on ka võimatu anda üldist andmeteadlase töökirjeldust, mis kehtiks kõigile, aga kasulik on eristada A-tüüpi ja B-tüüpi andmeteadlasi.
A-tüüpi (nagu analysis) andmeteadlane töötab andmetega staatiliselt: teeb ühekordseid analüüse ja statistikat, kasutab domeeniteadmisi, tegeleb raporteerimisega – aitab organisatsioonis toimuvast andmete abil aru saada ja seda parandada. Nii maailmas kui Eestis on A-tüüpi andmeteadlased enamuses ning A-tüüpi andmeteadus sisaldab endas palju mittetehnilist tööd (äriprobleemidest arusaamine, suhtlemine, tulemuste kommunikeerimine jne).
B-tüüpi (nagu building) andmeteadlane ehitab automaatseid süsteeme, enamasti millegi ennustamiseks. Kui A-tüübi tööd tarbivad enamasti inimesed, siis B-tüübi loodud mudelid leiavad kasutust äppides, veebilehtedel, serverites jne – kohtades, kus vastus peab olema kiire ja automatiseeritud. B-tüüpi andmeteadlane peab olema tehniliselt vilunum ning kasutab tõenäoliselt palju rohkem masinõpet ning klassikalise tarkvaraarenduse meetodeid.
Näited ülesannetest:
- A: “leia, millised kliendid on ettevõttele kõige väärtuslikumad, ning kuidas nad meie toodet kasutavad”
- B: “ehita süsteem, mis ennustab tunniajase täpsusega, kui palju kliente meil järgmise 7 päeva jooksul käib”
Loomulikult ei ole maailm nii lihtsasti kaheks jaotatav, aga “A vs B” on hea mudel eri tüüpi andmeteadusest mõtlemiseks. Andmeteadusse sisenemiseks on lihtsam alustada A-tüübist, kuna A jaoks vajalikke tööriistu on lihtsam matemaatilise/tehnilise hariduseta ära õppida. Kuidas õppimisega alustada? Sellest järgmises osas.
P.S. Sellesse seeriasse on panustanud Taivo Pungas, Matleen Makko ja tagasisidega paljud teised.