Het fenomeen ‘big data’ bezorgt ICT-organisaties enorme kopzorgen en levert consumenten grote problemen op. Privacy wordt een heet hangijzer nu er niet alleen steeds meer informatie over consumenten wordt verzameld, maar zij ook vrijwillig informatie prijsgeven in ruil voor gratis toegang tot toepassingen en functionaliteit.

Gebruikers die zich afvragen wat websites zoals Facebook precies over hen weten, moeten zich in allerlei bochten wringen om daar achter te komen. En de kans is groot dat ze versteld zullen staan over de hoeveelheid persoonlijke gegevens die deze websites bewaren.

Bedrijven moeten enorme hoeveelheden klantgegevens bewaren — denk bijvoorbeeld aan de opslagcapaciteit die supermarktketens nodig hebben om informatie over de bestedingspatronen van hun klanten op te slaan. Dergelijke bezigheden roepen een groot aantal vragen op, zoals de manier waarop deze reusachtige hoeveelheden gegevens kunnen worden overgedragen en waar ze het beste kunnen worden bewaard.

Misschien wel de interessantste vraag vanuit technisch opzicht is of de cloud een oplossing kan bieden voor de problemen waar eerdere initiatieven voor de uitwisseling van big data tegenaan liepen.

De cloud als een data warehouse
Het uitwisselen van gegevens gaat altijd met problemen gepaard, of dit nu gebeurt binnen het bedrijfsleven, de overheid of verticale sectoren zoals de gezondheidszorg. De grootste uitdaging is het bestandsformaat van de data, zowel voor de directe integratie als toegankelijkheid op de lange termijn.

Cloud computing wordt vaak aangeprijsd als oplossing voor de opslag en verwerking van big data. Dit enthousiasme is gebaseerd op de illusie van oneindige capaciteit. De werkelijkheid is echter anders. Als gegevens worden opgeslagen in een formaat dat niet op eenvoudige wijze door uiteenlopende toepassingen kan worden benut, vormt de cloud weinig meer dan een digitale dumpplaats voor bits en bytes.

Er wordt onterecht aangenomen dat de hardware- en infrastructuur-onafhankelijkheid van de cloud zich probleemloos naar gegevens en toepassingen vertaalt. Deze hardnekkige misvatting is gebaseerd op een gebrekkig inzicht in de manier waarop gegevens worden omgezet en geschikt gemaakt voor koppeling met toepassingen. Big data is niet bijster geschikt voor overdracht via gangbare gestandaardiseerde methoden zoals RESTful API’s met JSON of XML-gecodeerde gegevens.

De uitwisseling van big data vereist veel meer zorg vanwege de enorme gegevensvolumes en de noodzaak om gebruik te maken van een gegevensprotocol dat op eenvoudige wijze kan worden geïnterpreteerd door uiteenlopende platforms en programmeertalen. Helaas bijten deze twee vereisten elkaar. De formaten die het makkelijkst kunnen worden geïnterpreteerd door de meeste platforms en talen, leveren veel grotere gegevensreeksen op dan gegevens die zijn gecodeerd in compactere, ruimtebesparende formaten.

Cloud computing biedt geen oplossing voor dit specifieke probleem omdat het daar niet op is gericht. Het is waar dat de cloud de alomtegenwoordige toegang en direct schaalbare opslagcapaciteit biedt die nodig zijn voor een succesvolle gegevensuitwisseling. Cloud computing biedt echter geen oplossing voor de onvolkomenheden in het overdrachtsproces die de uitwisseling van big data vaak in de weg zitten.

Voor deze hindernissen moet een oplossing worden gevonden voordat we ook maar van start kunnen gaan met het evalueren van de toegangscontrole en het beheer van een dergelijk data warehouse. Als we aan deze problemen voorbij gaan, zal het niet lang duren voordat we in de knel raken met de wereldwijde privacyrichtlijnen die bepalen wie toegang mag hebben tot welke gegevens, en vanaf welke locatie.

De cloud biedt een prima oplossing voor uiteenlopende taken, en met name voor de parallelle analyse van big data. Deze gegevens moeten echter eerst naar de cloud worden overgezet en toegankelijk worden gemaakt voor de systemen die de analyse uitvoeren. Tot dusver zijn er weinig tekenen van initiatieven die zich in de praktijk hebben bewezen als een snelle, efficiënte en uiterst interoperabele oplossing. Mogelijk is dit een probleem waarvoor cloud computing simpelweg geen oplossing kan bieden — voorlopig tenminste.


Een versie van dit artikel verscheen eerder op Computable.nl.