Share on FacebookTweet about this on TwitterShare on LinkedIn

Natural language processing, euh?

blog

Computerlinguïsten hebben een geweldige baan! Tot die opmerkelijke conclusie kwam het Amerikaanse HR-bedrijf Brazen enkele jaren geleden. Maar waarom juist? Taaltechnologie ontwikkelen is vaak een erg ondankbare bezigheid: we hebben allemaal al wel eens gegiecheld om de kromme vertalingen van Google Translate en de spell checker van Microsoft Word laat onze DT-fouten vaak vrolijk staan. En hoewel computers ondertussen tot aan de rand van het heelal kunnen theoretiseren,  kost het hen nog steeds een heleboel moeite om te bevatten dat je de bank in je woonkamer niet om een hypotheek kan vragen.

Taal is een complex cultureel gegeven waar computers slechts beperkt vat op lijken te krijgen. Het is de taak van computerlinguïsten om hen daarbij te helpen. Het vereist niet alleen inzicht in hoe mensen taal produceren en verwerken maar ook en vooral inzicht in zowel de cognitieve beperkingen als sterktes van computers. In de beginjaren van de computerlinguïstiek probeerden we vooral instructies te verzinnen die computers stap voor stap moesten volgen om taalkundige analyses te maken. Tegenwoordig leren we computers taal te verwerken door hen massa’s voorbeelden aan te bieden en hen met behulp van machine learning technieken zelf een analysemodel te laten creëren. En dat werkt een pak beter: we dwingen ze niet meer in een menselijke vorm van taalverwerking, maar laten hen toe om op eigen houtje patronen te ontdekken in grote multidimensionale ruimtes volgestouwd met taaldata.

Op die manier kan je computermodellen ontwikkelen die aan nieuwe teksten een categorie kunnen toekennen, van grammaticale structuren tot complexe semantische concepten. Zo kan een computer bijvoorbeeld zelf leren hoe jihadistische propaganda eruit ziet, zonder dat we op voorhand moeten weten welke terminologie daarbij gebruikt wordt. Wat computers dan nog missen in accuraatheid en talig buikgevoel, maken ze ruimschoots goed door hun duizelingwekkende verwerkingssnelheid. En dat is geen overbodige luxe in een wereld waarin massa’s tekst wordt geproduceerd: duizenden publicaties per seconde op Twitter bevatten allemaal een zekere mate van kennis die we met taaltechnologie kunnen ontsluiten.

In elke situatie waarin je zelf geen vat kan krijgen op de hoeveelheid tekst die wordt geproduceerd, is taaltechnologie een onmisbare hulp. Taaltechnologie laat bijvoorbeeld toe om gerichte interventies te plannen tijdens natuurrampen of om de organisatie van grote evenementen te stroomlijnen op basis van nieuwsartikelen, social media content of e-mails. De commerciële toepassingen zijn dan ook legio. Zo gebruikt Dell automatische sentiment analyse om hun prijszetting te bepalen: een laptop met goede reviews en social media buzz zal minder snel afgeprijsd worden dan eerder lauw onthaalde modellen.

Mensen zijn immers niet karig met hun opinies op sociale media en de gegevens die je via text mining op sociale media kan verzamelen zijn dan ook erg waardevol: je verzamelt immers gegevens zonder mensen lastig te vallen en op het moment dat ze een mening hebben gevormd, dit in tegenstelling tot de traditionele enquêtevorm. En het is zelfs mogelijk om met taaltechnologie te achterhalen of die meningen leugenachtig zijn.

Maar we kunnen ook nog verder gaan dan de tekst zelf. Een van de meest tot de verbeelding sprekende toepassingen van taaltechnologie is auteursprofilering: op basis van iemands schrijfstijl kan je immers een heleboel verborgen demografische aspecten achterhalen: zijn/haar leeftijd, geslacht of opleidingsniveau, maar ook persoonlijkheidskenmerken zijn automatisch te herkennen in iemands schrijfstijl. De combinatie van sentiment analyse en automatische auteursprofilering laat dan toe om opinies te linken aan bepaalde demografische groepen, zonder dat je hierbij de privacy van het individu zelf schendt.

Volledig taalbegrip ligt voor computers nog niet binnen handbereik, al zorgen recente ontwikkelingen binnen het deep learning paradigma voor een indrukwekkende stroomversnelling. Als een van de meest uitdagende takken van de kunstmatige intelligentie, blijft computerlinguïstiek in elk geval tot de verbeelding spreken.

Wie graag hands-on wil gaan met taaltechnologie, nodigen we uit om onze web services uit te proberen. Ook kan je je schrijfstijl laten analyseren in onze on-line demo. We zijn in elk geval benieuwd naar jullie ervaringen.

Guy De Pauw is als postdoctoraal onderzoeker verbonden aan het CLiPS onderzoekscentrum van de Universiteit Antwerpen. Hij werkt voor het AMiCA-project dat onderzoekt hoe taaltechnologie de veiligheid van kinderen op sociale media kan vrijwaren. Guy is ook CEO van Textgain, een recente spin-off van de Universiteit Antwerpen, die state-of-the-art taaltechnologie naar de markt brengt.

En als je je afvraagt of jouw bedrijf baat kan hebben bij toepassingen met NLP denken wij bij Foursevens graag met je mee, je kan dan ook ineens kennismaken met onze NLP-gedreven AI assistente Julie: info@foursevens.be.

 

Share on FacebookTweet about this on TwitterShare on LinkedIn