Datafabric vs datalake: vervlechten in plaats van hamsteren

0 reacties

De wereld verandert snel. De laatste jaren is er een ontwikkeling gaande waarbij steeds meer gebruik wordt gemaakt van de cloud. Die cloud biedt veel voordelen bij tal van toepassingen; van meer schaalbaarheid tot meer gebruiksgemak. Dat begint bij OneDrive of Google Drive waarmee je op al je apparaten met het grootste gemak over vele terabytes aan data kunt beschikken.

Die trend zie je niet alleen bij dit soort toepassingen, maar ook in complexe zakelijke omgevingen waarbij allerlei diensten worden gecombineerd. Denk aan Salesforce voor klantinformatie en allerlei omgevingen in Microsoft Azure, Amazon AWS of de Google Cloud. Dat kan leiden tot een wirwar van data die op allerlei plekken staat. Dit kan onoverzichtelijk worden en dat is het in de meeste gevallen ook, doordat je in allerlei toepassingen plukjes data terugvindt.


Organisaties gebruiken een wirwar aan diensten.

Het gebrek aan overzicht zorgt ervoor dat verbanden niet worden ontdekt en dat niet alle potentie van de data wordt benut. Eigenlijk zou je het probleem het beste kunnen visualiseren in de vorm van geïsoleerde datasilo’s die niet of onvoldoende met elkaar communiceren. Door daar op een slimmere manier mee om te gaan, kunnen bedrijven en organisaties de data beter toepassen. Hierbij wordt over een ‘datafabric’ gesproken. Misschien is dat ook wel een goede term om er een beter beeld bij te krijgen: een slim netwerk tussen al die silo’s met data.


Een datafabric vervlecht data. De complexiteit vereist automatisering.

Van hamsteren naar vlechten

Onlangs spraken we even met Victoria Bunyard-Ford van IBM over dit onderwerp. Ze stak direct van wal en vertelde gedreven: “Als je terugkijkt, zie je er wat er is gebeurd. De visie was eerst om een datalake te maken en alle data die geanalyseerd moet worden bij elkaar in een grote database te kieperen. Zet alles op één locatie, dan heb je het gevoel dat je het kunt overzien, was het idee. Daarbij loop je echter tegen best wat problemen aan, want door alles samen te brengen, wordt het vaak een bende. Het lukt alleen als de data echt goed is georganiseerd en wordt beheerd; alleen dan krijg je het juiste resultaat. In de praktijk kan dat heel lastig zijn. Zeker met de toenemende verspreiding van data over meerdere clouds wordt het zoeken naar een speld in een hooiberg.

In plaats daarvan kijken we er op een nieuwe manier naar en vervlechten we verschillende databronnen, waarbij we alles op zijn plaats zetten in een datafabric. We proberen de relaties tussen de data te ontdekken. De vragen die we onszelf stellen, zijn: hoe kunnen we een catalogus opbouwen en hoe kunnen we hem bevragen om zo inzichten te krijgen en de juiste informatie te destilleren? Daarbij passen we kunstmatige intelligentie (AI) toe, al kan dat natuurlijk niet zonder een vorm van een informatie-architectuur, IA. Er is dus geen AI zonder IA.” 

Veel verantwoordelijkheid

Het idee van een datafabric is even interessant als beangstigend. Je kunt hiermee allerlei verbindingen tussen en met data leggen; verbindingen die misschien niet wenselijk zijn en zeker niet toegankelijk mogen zijn voor iedereen. Hoe zorg je ervoor dat data alleen op een geoorloofde, ethische en verklaarbare manier wordt gebruikt? Als je veel macht hebt, brengt dat ook veel verantwoordelijkheid met zich mee.

Victoria sprak verder: “Je hebt allereerst de beheerders van de data en je hebt de dataverwerkers. Op basis hiervan kun je een data architectuur ontwikkelen. Daarbij moet je bewust zijn van de regelgeving in bepaalde landen. Voor bepaalde data geldt dat hij bijvoorbeeld de landsgrenzen niet mag passeren en daar moet de fabric zich bewust van zijn. Het model moet daar ver in gaan: toegang tot data gaat bijvoorbeeld niet alleen om de rol van een bepaalde persoon die met de data bezig is, maar ook om de locatie waar deze persoon zich bevindt.

Een goed voorbeeld is dat bankieren in de Verenigde Staten heel anders verloopt dan in Europa; alleen al het verschil in regels is bijzonder complex. Een belangrijk onderdeel van een datafabric is dan ook dat de tooling zich bewust moet zijn van de locatie van de data en de mensen die ermee werken. AI en ML kunnen helpen om de privacy in dit soort complexe omgevingen beter te garanderen, bijvoorbeeld door automatisch grote hoeveelheden data te classificeren.” 

Conclusie

Het combineren van data in een datafabric is een interessante gedachte. Met de komst van steeds meer cloudomgevingen en hybride dataomgevingen hebben ook steeds meer bedrijven en organisaties informatie verspreid opgeslagen. Door deze data op een slimme manier te verweven, is het mogelijk om betere inzichten te krijgen en tegemoet te komen aan de wensen van de gebruiker en organisatie. De mogelijkheden zijn groot, mits aspecten zoals privacy en ethiek meewegen in het gebruik van data. Een goede informatie-architectuur en slim beheer zorgen ervoor dat het verkrijgen van nieuwe inzichten op een geoorloofde manier gebeurt, ook in complexe en verspreide landschappen.

 

« Vorig bericht Volgend bericht »
0