Big data via social media onbetrouwbaar

How to lie with statistics?

Facebook en Twitter worden gebruikt door wetenschappers om data te verzamelen voor hun onderzoek. Er is een artikel gepubliceerd waarin wordt gesteld dat deze data als bron niet geschikt is. De data is onbetrouwbaar en eenzijdig.

Wetenschappers van de Carnegie Mellon University en McGill University in Montreal waarschuwen dat de sociale netwerksites vooral worden gebruikt door een klein deel van de samenleving. Het is niet de echte wereld. Er zijn tal van onderzoeken (124000 hits via Google Scholar voor alleen 2014) die gebruik maken van deze sociale netwerksites om informatie te verzamelen over het menselijk gedrag. In de onderzoeken wordt te weinig gecorrigeerd voor demografische factoren.

Jonge twitteraars, oude LinkedIn-gebruikers

Onder tieners zijn relatief meer twitteraars dan LinkedIn-gebruikers. En oudere internetters hebben vaker een LinkedIn-profiel. In onderstaand figuur is dit geïllustreerd op basis van data uit de VS voor de maand oktober 2013.

ChartOfTheDay_1684_Age_structure_of_social_network_audiences_n
bron: Statista

Dewey defeats Truman

Het onderzoek refereert naar een onderzoek uit 1948 waarin de Chicago Tribune een dag na de door Truman gewonnen presidentverkiezing de krant opende met “Dewey Defeats Truman”. Op basis van telefonische interviews kwam de krant tot de conclusie dat Dewey zou gaan winnen. Een staking bij de drukker zorgde voor tijdsdruk en dus werd besloten dat de favoriet van de krant werd uitgeroepen tot winnaar.

  • De eerste fout was dat de selectie van ondervraagden was gebaseerd op abonnees van de Chicago Tribune die grotendeels op de Republikeinen stemden.
  • Een tweede fout was dat er telefonisch informatie werd verzameld. De Dewey-stemmers hadden vaker een telefoon dan de Truman-stemmers.
  • De derde fout was dat er een quotum werd gebruikt in plaats van een aselecte steekproef, hierdoor was er een te eenzijdig beeld ontstaan.

De makkelijke dataset

Het gebruiken van de data van social mediasites door wetenschappers blijft plaatsvinden, want de data is snel beschikbaar. Een dataset wordt makkelijk samengesteld, ondanks dat wetenschappers weten dat het eenzijdige informatie is. Een ander aspect is dat het gedrag op sociale netwerksites verschilt van hoe iemand zich offline gedraagt. In het onderzoek wordt ook gesteld dat veel documenten, papers, rapporten en publicaties worden gebruikt om het publiek te informeren en beslissingen te rechtvaardigen. Onderzoek is vaak te subjectief en te veel gesimplificeerd volgens de onderzoekers.

Met de vijftien vragen om statistiek in het nieuws beter te snappen is er hier duidelijk dat veel onderzoeken niet generaliseerbaar zijn.

tl;dr

Big data via social media onbetrouwbaar

Leave a Reply

Best Wordpress Popup Plugin
Skip to content
%d