Share on FacebookTweet about this on TwitterShare on LinkedIn

Big Data: kort en simpel

blog
Ik voelde toch enige opluchting, toen op een congres voor data scientists bleek dat ook daar niet iedereen het erover eens was wanneer 'gewone' data eindigt en 'Big Data' begint. En wat voor de ene organisatie gewoon data is, betekent voor een kleinere organisatie misschien big. 
 
Enerzijds kan je Big Data op een kwantitatieve manier definiëren. Zo hoorde ik een definitie: 'wanneer je het niet meer gewoon in een database kan stoppen en er een SQL query op loslaten, is het Big Data'. Dat betekent met andere woorden dat data met pakweg 650,000 records prima bruikbaar zijn en dus gewone data. Maar een dataset met 18.908.000.000 records, zoals de Event Database van het Google GDELT project, is niet langer benaderbaar met klassieke tools en machines. Grootte bepaalt dus of data Big is of niet.
 
Maar niet alleen omvang maakt dat data Big is. De complexiteit van data en de kracht van data om er correcte en relevante conclusies en voorspellingen uit te halen, maken evenzeer of het label Big van toepassing is. Het onderwerp van de data en de daaraan gekoppelde voorspellende kracht bepalen dus ook in welke mate die data als Big beschouwd kunnen worden. Een ontzettend grote hoop losse gegevens waar je onmogelijk conclusies of voorspellingen uit kan berekenen blijven een grote hoop en dus geen Big Data.
 
Om het kort samen te vatten: Big Data zijn extreem grote data sets die door computer analyse informatie over patronen kunnen blootleggen en trends kunnen voorspellen.
Share on FacebookTweet about this on TwitterShare on LinkedIn