Prof. Dr. Piek Vossen van de Vrije Universiteit is een van de winnaars van big data-wedstrijd Enlighten Your Research, een samenwerking van SURFnet (verbindingen), SURFsara (opslag en rekenkracht) en de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). De taalkundige onderzoekt hoe computers mensentaal kunnen leren en leren begrijpen. Vossen komt aan het woord in de eerste aflevering van de interviewserie De Voorste Linie. “De huidige programma’s zitten in 40% van de gevallen fout. Zo moeilijk is het dus.”  

[Download de iPad app FMT magazine waarin de complete serie De Voorste Linie is gebundeld in de editie Big data en wetenschap, of bekijk de html5 website.]

Vossen vertelt in gesprek met Erwin Blom bevlogen over de natuurlijke wijze waarop wij met taal omgaan en het contrast met de moeite die computers hebben om ons te begrijpen. “Taal is voor ons iets heel vanzelfsprekends, maar pas als je een computer taal wilt leren, snap je hoe complex het is. Taal heeft geen betekenis van zichzelf, wij geven taal betekenis. Een reeks tekens betekent van zichzelf voor een computer helemaal niks. Hij kijkt naar taal als systeem, als een formule die je kunt oplossen.”

“De spierballen van big data”

Vossen geeft als voorbeeld de volgende drie zinnen: “De band speelt buiten op het veld. Ze hebben er zin in. Bij de eerste slag slaat de drummer zijn stokken al stuk.” Hij vertelt dat deze verzameling woorden voor een computer 2 miljard combinaties aan betekenissen heeft. Een band is namelijk een groep muzikanten, maar een band kan ook een haarband of een familieband zijn. Zo zijn er alleen voor het woord band al 12 betekenissen. “Wij snappen door de context onmiddelijk dat het hier om een verzameling muzikanten gaat. Wij zien dat in een keer, de computer niet.”

Hoe leer je een computer? Door combinaties in een database op te slaan, door te leren dat bij een bepaalde combinatie van woorden de waaarschijnlijkheid groot is dat er een bepaalde betekenis bij hoort. De rekenkracht die nodig is om taal te analyseren is enorm. “We werken nauw samen met Surf Sara om hun spierballen maximaal te gebruiken”, aldus Vossen.

Met het winnen van Enlighten Your Research kan Vossen voorlopig van die kracht gebruik blijven maken. Onderdeel van de prijs is dat de winnaars gedurende twee jaar gebruik maken van de benodigde infrastructuur van SURFsara, netwerkverbindingen van SURFnet en advies van het Netherlands eScience Center. Daarnaast ontvangen zij een geldprijs van 20.000 euro.

[Bekijk boven de samenvatting van het gesprek en onder de complete versie.]