Data Fail! Miten Google-Influenssatrendit Menestyvät Lyhyessä Ajassa

{h1}

Big datailla on suuri potentiaali, mutta google pyrkii seuraamaan influenssatrendejä haasteisiin.

Yritä tunnistaa influenssatapaukset seurattaessa ihmisten Google-hakuja sairaudesta, ei ole täyttänyt alkuperäistä lupaustaan, uusi paperi väittää.

Google-influenssatrendit, yritys etsiä hakutermeihin perustuvia influenssaepidemioita, ylensivät dramaattisesti vuosia 2012-2013 koskevien influenssapausten määrän ja viimeisimmät tiedot eivät näytä lupaavalta, sanoo Northeastern Universityn tietokone ja poliitikko David Lazer Bostonissa ja hänen kollegansa lehdessä julkaistussa artikkelissa julkaistussa artikkelissa Big Data -diskot.

"Siellä on valtava määrä mahdollisuuksia, mutta on myös paljon mahdollisuuksia tehdä virheitä", Lazer kertoi WordsSideKick.com. [6 Superbugs varoa]

Googlen virheet

Ei ole mikään yllätys, että Google Influenza Trends ei aina osu kotiurheiluun. Helmikuussa 2013 tutkijat ilmoittivat Nature -lehdessä, että ohjelmaa arvioitiin noin kahdesti flunssa-tapausten määrästä, kuten tautien torjunnan ja ennaltaehkäisyn keskuksista (CDC) todettiin, joka seuraa todellisia raportoituja tapauksia.

"Kun se meni kiskoilta, se todella meni kiskoilta", Lazer sanoi.

Google-influenssatrendit ovat myös kamppaillut vuonna 2009, jolloin H1NI: n epäsäännöllinen influenssaepidemia puuttui kokonaan. Virheet ovat johtaneet siihen, että Google-tiimi uudistaa työkalunsa algoritmilleen, mutta varhaisessa tarkastelussa viimeisimmässä influenssa-kaudella todetaan, että nämä muutokset eivät ole ratkaisseet ongelmaa Lazerin ja kollegojen (13.3.) Tänään julkaiseman alustavan analyysin mukaan. tieteen ennalta julkaisemisen verkkosivuilla Social Science Research Network (SSRN).

Ongelma ei ole ainutlaatuinen Google-virukselle, Lazer sanoi. Kaikki yhteiskuntatieteet Big Data tai mobiili- tai sosiaalisen mediatekniikan valtavien väestötietojen analyysi kohtaavat samat haasteet, jotka Google Influenza -tiimi yrittää voittaa.

Suuret datan haitat

Google Flu Trendsin vikaantuminen ei ole helppoa, koska yritys ei paljasta, mitä hakutermejä se käyttää seuraamaan flunssia.

"He saavat F-replikaation", Lazer sanoi, mikä tarkoittaa, että tutkijoilla ei ole tarpeeksi tietoa keinoista testata ja jäljentää löytöjä.

Mutta Lazer ja hänen kollegansa tuntee, mitä meni väärin. Suuri ongelma, hän sanoi, on, että Google on yritys, joka on kiinnostunut edistämään hakuja, ei tieteellinen tiimi, joka kerää tietoja. Google-algoritmi kehottaa käyttäjää tekemään hakuja: jos joku etsii "flunssan oireita", heitä todennäköisesti pyydetään etsimään esimerkiksi "influenssarokotteita". Näin ollen flunssaan liittyvien hakujen määrä voi kerätä lumipalloa, vaikka flunssa-asiat eivät. [5 Vaaralliset rokotusmytit Debunked]

Toinen ongelma, Lazer sanoi, on, että Googlen influenssiryhmä joutui erottamaan influenssan aiheuttavat haut ja haut, jotka ovat korreloineet influenssikauden kanssa, mutta eivät ole yhteydessä toisiinsa. He tekivät niin, että he ottivat yli 50 miljoonaa hakutermiä ja sopivat yhteen noin 1 100 datapisteen kanssa influenssan yleisyydestä CDC: llä.

Korrelaatiopelin pelaaminen niin monilla termeillä on pakko palauttaa muutamat outoja, järjetöntä tulosta, Lazer sanoi, "aivan kuten apinat voivat kirjoittaa Shakespearea lopulta." Esimerkiksi "lukion koripallo" huipentuu hakuterminä maaliskuussa, mikä on taipumus olla huippukauden huippu. Google valitsi ilmeisen väärät korrelaatiot ja poistasi ne, mutta tarkalleen mitä termejä heidät poistettiin ja logiikan tekeminen on epäselvä. Joitakin termejä, kuten "yskä" tai "kuume", saattavat näyttää influenssalta, mutta ne todella osoittavat muita kausiluonteisia sairauksia, Lazer sanoi.

"Se oli osa flunssa-ilmaisinta ja osa talvella ilmaisinta", hän sanoi.

Ongelmia ja mahdollisuuksia

Google-ryhmä muutti algoritmiaan sekä vuosien 2009 että 2013 jälkeen, mutta teki viimeisimmät muutokset sillä oletuksella, että vuoden 2012-2013 kauden aikana tiedotusvälineiden kattavuus aiheutti ongelmat, Lazer ja hänen kollegansa kirjoittavat SSRN-paperissaan. Tämä oletus alentaa vuoden 2009 H1N1-pandemian merkittävää tiedotusvälinettä eikä selitä virheitä 2011-2012-influenssisaudissa, tutkijat väittävät.

Googlen tiedottaja viittasi WordsSideKick.com -ohjelmaan Google Flu -päivityksiä koskevaan blogikirjoitukseen, jossa kehotetaan parantamaan "iteratiivista prosessia".

Lazer huomautti nopeasti, ettei hän hakenut Google-palvelua ja kutsui Google-influenssatrendejä "hienoksi." Googlen influenssan ongelmat toistuvat muissa sosiaalisen median tiedoissa, Lazer totesi. Esimerkiksi Twitter antaa käyttäjille tietoa siitä, mitä sivustossa on trendi, mikä lisää näitä termejä edelleen. [Top 10 Golden Rules of Facebook]

On tärkeää olla tietoinen verkossa kerättyjen valtavien tietolähteiden rajoista, sanoi tutkija Scott Golder, joka työskentelee tällaisten tietueiden kanssa Context Relevant -yhtiössä. Esimerkiksi esimerkiksi sosiaalisen median käyttäjiä edustavat näytteet eivät ole poikkileikkaus koko väestöstä - he voivat olla esimerkiksi nuoria, rikkaampia tai teknisempää.

"Ihmisten on oltava varovainen vaatimuksissaan," Golder, joka ei ollut mukana Lazerin Google-kritiikissä, kertoi WordsSideKick.comille.

Avainsanan valinta ja sosiaalisen median alustan algoritmit ovat muita huolenaiheita, Golder sanoi. Muutama vuosi sitten hän työskenteli projektissa, joka tutki negatiivisuutta sosiaalisessa mediassa. Sana "ruma" säilyi silmällä iltaisin. Näytti siltä, ​​että ihmisillä ei ollut yöllisiä itsetunnon kriisejä. He keskustelivat ABC-näyttelystä "Ugly Betty".

Nämä ongelmat eivät ole Big Datain kuolemaa, mutta Lazer itse sanoo, että Big Data -mahdollisuudet ovat "järkyttäviä". Sosiaalitieteilijät käsittelevät epävakaiden tietojen ongelmia koko ajan, ja Googlen flunssatiedot ovat korjattavissa, Lazer sanoi.

"Minun mieleni tarkastelemalla tietoja ja siitä, miten se meni pois, tämä on jotain, jonka voit korjata ilman, että Google mukauttaa omaa liiketoimintamalliaan", hän sanoi. "Sinun tarvitsee vain tietää, että ongelma on olemassa ja miettiä seurauksia."

Lazer vaati enemmän yhteistyötä Big Data-tutkijoiden ja perinteisten yhteiskuntatieteilijöiden välillä, jotka työskentelevät pienillä, kontrolloiduilla tietojoukkoilla. Golder sopi, että molemmat lähestymistavat voivat olla täydentäviä. Big Data voi viitata sellaisiin ilmiöihin, jotka vaativat perinteisten tekniikoiden tarkkailua, hän sanoi.

"Joskus pienet tiedot, jos ne ovat oikeita tietoja, voivat olla jopa informatiivisempia", Golder sanoi.

Seuraa Stephanie Pappasia Viserrys ja Google+. Seuraa meitä @wordssidekick, Facebook& Google+. Alkuperäinen artikkeli WordsSideKick.com.


Video Täydentää: .




FI.WordsSideKick.com
Kaikki Oikeudet Pidätetään!
Jäljentämistä Materiaalien Sallittu Vain Prostanovkoy Aktiivinen Linkki Sivustoon FI.WordsSideKick.com

© 2005–2019 FI.WordsSideKick.com