Data kunnen een verhaal vertellen over de werkelijkheid. Maar de laatste jaren staat dat steeds vaker ter discussie. Met name burgers vragen zich af of hun data wel veilig zijn. Syntho.ai komt met een oplossing: zogenaamde synthetische data. Dat zijn data die niet terug te koppelen zijn naar echte mensen, omdat ze daar ook niet vandaan komen. Het zijn data die gegenereerd worden door een algoritme, op basis van echte data sets.

“Waarin wij ons onderscheiden is de toepassing van AI om alle kenmerken, eigenschappen en patronen die in de originele data zitten te reproduceren in de synthetische data”, aldus co-founder en CEO Wim Kees Jansen. Ofwel: echte data vormen de basis, maar de link met bestaande personen wordt doorgeknipt. “Synthetische data zijn eigenlijk volledig nieuw gegenereerde data, dus in plaats van echte data  die je verzamelt door bijvoorbeeld interactie met je klanten en bedrijfsprocessen is ons voorstel om synthetische data te gebruiken. Data die gegenereerd wordt door een computeralgoritme.”

“ Kenmerken, statistieken, patronen”

In het verleden werd het privacyprobleem opgelost door data te anonimiseren, maar door alle computerkracht is het tegenwoordig vrij eenvoudig data naar de bron te herleiden. “ Een combinatie van leeftijd, geslacht en woonplaats is vaak al genoeg om iemand te kunnen  herleiden. Maar veel belangrijker: door het bewerken gaan je data kapot. En je wilt juist hoge kwaliteit data hebben, want ander krijg je een garbage in garbage out principe. Als je kapotte data gaat gebruiken voor analyse doeleinden dan krijg je ook kapotte analyses. Bij synthetische data bewerken we de data niet. Wij genereren volledig nieuwe datapunten. Er is dus geen verband met de echte data. Op individueel niveau bestaan individuen simpelweg niet meer.”

Het draait om de kenmerken, statistieken, patronen die voorkomen in de originele data. Die worden gereproduceerd in de synthetische data. Hierdoor valt veel tijdwinst te behalen. “Alle bedrijven die wij spreken herkennen de uitdagingen omtrent de realisatie van data gedreven innovatie en de tijd die het duurt. We hebben niemand gesproken die zei: bij ons in de organisatie gaat het heel snel. We zien ook dat de ambitie om te innoveren heel erg toeneemt en tegelijkertijd hoor je steeds meer geluiden in de samenleving: wat doen bedrijven met mijn data? Gaat dat allemaal wel goed. En je ziet dat de wetgeving strenger wordt. Dus je ziet dat de regelgeving en roep om privacy steeds sterker wordt, maar de ambitie wordt ook steeds hoger. Dat conflict wordt alleen maar groter en daarmee ook de behoefte aan een oplossing.”

“On-premises oplossing ”

Syntho ging anderhalf jaar geleden van start. Inmiddels heeft het bedrijf betalende klanten, een investeerder en wonnen ze de Philips Innovation Award. “We gebruiken veel openbare datasets en maken daar een synthetische dataset van. Dan kun je de twee sets vergelijken op allerlei punten. Daar voegen we ook vaak  klantspecifieke punten aan toe, zodat de set getoetst kan worden. Ik denk dat er niet veel verbeter potentieel uit de datakwaliteit te halen valt. Dat verbeter potentieel zit hem vooral in de schaalbaarheid. Daarvoor hebben we ook financiering opgehaald.” Het idee is om alles zoveel mogelijk te automatiseren.

“Op dit moment werken we vooral op projectbasis, maar waar we naartoe willen is alle handmatige stappen die wij momenteel zelf doen volledig te automatiseren door een softwarepakket, zodat de klant het ultimo eigenlijk volledig zelf kan gaan doen. Het is een on-premises oplossing, omdat je wilt voorkomen dat de data die je upload in een andere omgeving belandt. Dus de data blijven in de omgeving van de klant en verlaat die omgeving niet.”

(Een verslag van @daalder)

De afleveringen van Top Names zijn via Soundcloud en iTunes als podcast beschikbaar.

Vind je het waardevol wat we doen? Steun ons door FMT Member te worden!