Blog | Organisatieontwikkeling

AI EN DATA: EEN TIJDLOZE LES IN ‘GARBAGE IN, GARBAGE OUT’

Stel je eens voor dat AI in de middeleeuwen had bestaan, aangedreven door windmolens en paarden, en getraind op de overtuiging dat de aarde plat was. Als je destijds zou vragen of je veilig naar het westen kon varen, zou het antwoord waarschijnlijk zijn: “Ga niet te ver, anders val je van de rand!” Niet omdat de AI het fout had, maar omdat het gebaseerd was op de kennis van die tijd.

Dit denkbeeldige scenario laat goed zien waar het bij kunstmatige intelligentie vaak misgaat: garbage in, garbage out. Wat je in een AI-model stopt, bepaalt de resultaten die je eruit krijgt. Dit principe is vandaag de dag nog net zo relevant als vroeger, ondanks alle technologische vooruitgang. Of het nu gaat om zelfrijdende auto’s of medische diagnostiek, als je AI voedt met verouderde of bevooroordeelde data, krijg je verkeerde of onvolledige resultaten.

HET PROBLEEM VAN DATACONTAMINATIE IN LLMs

Bij moderne Large Language Models (LLMs), zoals GPT-4, is er een ander probleem dat opduikt: datacontaminatie. Dit gebeurt wanneer de data die wordt gebruikt om een model te testen, per ongeluk al deel uitmaakt van de trainingsdata. Dit kan leiden tot misleidende resultaten, omdat het model iets herhaalt wat het al geleerd heeft, in plaats van echt nieuwe antwoorden te genereren.

Bij LLMs is datacontaminatie extra lastig vanwege de enorme hoeveelheden data waarop deze modellen worden getraind. In traditionele machine learning is het relatief eenvoudig om te voorkomen dat testdata in de trainingsdata terechtkomt, maar bij LLMs is dit een veel grotere uitdaging. Het is simpelweg te moeilijk om zeker te weten dat bepaalde testgegevens niet per ongeluk in de trainingscorpus zijn opgenomen. Hierdoor kunnen modellen soms ten onrechte goede resultaten laten zien, terwijl ze eigenlijk gewoon hun training herhalen.

Wat het extra lastig maakt, is dat het niet altijd duidelijk is of het model echt het juiste antwoord geeft, of gewoon iets herhaalt wat het eerder heeft gezien. Bovendien is er vaak onvoldoende transparantie over welke data precies is gebruikt om het model te trainen, waardoor het nog moeilijker wordt om datacontaminatie te identificeren en te voorkomen.

HOE RAG PIPELINESS HIER BETER MEE OMGAAN

In Retrieval-Augmented Generation (RAG) pipelines speelt dit probleem ook, maar er zijn manieren om de impact van datacontaminatie en irrelevante informatie te verminderen. Een RAG pipeline combineert het ophalen van externe informatie met de kracht van een generatief model. De effectiviteit van zo’n pipeline hangt sterk af van de kwaliteit van de opgehaalde documenten. Gelukkig zijn er een paar technieken die de prestaties kunnen verbeteren:

 

  1. Contextual Document Embeddings (CDE): Onderzoekers van Cornell University hebben deze techniek ontwikkeld om de kwaliteit van documentembeddings te verbeteren. Traditionele embeddings—waarbij elk document afzonderlijk wordt behandeld—werken vaak niet goed als documenten veel op elkaar lijken, maar subtiele verschillen hebben. CDE maakt het model echter contextbewust door documenten te groeperen op basis van hun inhoud. Dit helpt het model om de kleine verschillen tussen de documenten te leren, wat zorgt voor betere zoekresultaten.
  2. Document and Query Domain Alignment: Dit is een aanpak die ervoor zorgt dat documenten die inhoudelijk relevant zijn, beter aansluiten bij de query van de gebruiker. Een interessante techniek hiervoor is Hypothetical Document Embedding (HyDE). Hierbij genereert een LLM een hypothetisch document op basis van de zoekopdracht. Dit document hoeft niet helemaal correct te zijn, maar het bevat wel de juiste patronen om relevante informatie in de kennisdatabase te vinden. De embedding van dit gegenereerde document wordt vervolgens vergeleken met de documenten in de database, wat leidt tot betere zoekresultaten.
  3. Hybride zoekmethoden: Door klassieke zoekmethoden zoals BM25 te combineren met embedding-gebaseerde zoekoplossingen, kun je de precisie van de zoekresultaten verbeteren. BM25 richt zich op trefwoorden en negeert veelvoorkomende woorden die vaak irrelevant zijn. Door deze klassieke methode te combineren met semantische zoekmethoden, krijg je een breder scala aan relevante documenten en verbeter je de nauwkeurigheid van de RAG pipeline.
  4. Reranking: Zelfs bij goed ontworpen RAG pipelines is het mogelijk dat belangrijke documenten worden gemist. Reranking is een techniek waarbij de volledige tekst van opgehaalde documenten opnieuw wordt vergeleken met de query van de gebruiker. Dit helpt om de meest relevante documenten naar voren te halen. Hoewel dit extra verwerkingstijd kost, kan het de uiteindelijke output aanzienlijk verbeteren.

Als je in de middeleeuwen aan AI zou vragen of je veilig naar het westen kon varen, zou het zeggen: ‘Ga niet te ver, anders val je van de aarde,’ gebaseerd op de kennis van toen.

 

DE BALANS TUSSEN PRESTATIES EN KOSTEN

Hoewel deze technieken de prestaties van RAG pipelines kunnen verbeteren, komen ze niet zonder kosten. Complexere methoden zoals document domain alignment vereisen extra AI-bewerkingen, wat de kosten en vertragingsfactoren kan verhogen. Het combineren van klassieke zoekmethoden en reranking voegt extra stappen toe aan het proces, wat invloed kan hebben op de snelheid en schaalbaarheid.

Het is daarom belangrijk om te bepalen hoe nauwkeurig de resultaten moeten zijn en of de voordelen van deze technieken opwegen tegen de bijkomende kosten. In sommige gevallen, zoals bij assistentie bij het schrijven van teksten, is het wellicht niet nodig om deze extra lagen toe te voegen. Maar in toepassingen waar nauwkeurigheid cruciaal is, zoals in de gezondheidszorg of juridische documenten, kunnen deze technieken essentieel zijn.

CONCLUSIE: HET BLIJVENDE BELANG VAN DATAKWALITEIT

Uiteindelijk blijft het principe van garbage in, garbage out onverminderd van kracht, zelfs bij de meest geavanceerde AI-toepassingen. AI mag dan sneller en slimmer zijn geworden, maar het blijft afhankelijk van de kwaliteit van de data waarmee het wordt gevoed. Door technieken zoals Contextual Document Embeddings, document domain alignment en hybride zoekmethoden toe te passen, kunnen we de output van RAG pipelines aanzienlijk verbeteren. Maar zoals altijd geldt: zonder de juiste datakwaliteit loop je het risico op irrelevante of foutieve antwoorden, ongeacht hoe geavanceerd de AI-oplossing is.

Geschreven door Floris Wouters

Mede-oprichter WE AIM