Koken met Google en ChatGPT
Ik kom uit een traditioneel gezin. Mijn vader werkte op kantoor en mijn moeder was huisvrouw. Zij was dan ook degene die kookte. De menukaart was kort. En dat betekende dat wij als kind op een goed moment wel wisten wanneer de andijviestamppot of bloemkool met witte saus weer aan de beurt was. Het was een carrousel.
We leven in een informatiesamenleving. We verwerken informatie. Je zou kunnen zeggen dat informatie onze belangrijkste grondstof is. Maar dat was niet altijd al zo. We werkten eerst op het land, daarna in fabrieken en vanaf de jaren zestig vooral op kantoor. Met informatie. Eerst op papier, daarna op een floppy en nu in de cloud.
Met informatie op papier werk je heel anders dan met informatie in de cloud. Vanuit een kaartenbak is het bijvoorbeeld niet mogelijk om een real-time dashboard te maken of om datagestuurd te werken. Laat staan dat we thuis zouden kunnen werken! Het historisch verband tussen grondstof en de evolutie van vaardigheden werkten wij uit in het historisch model, dat je kan vinden in het boek Digitale Intelligentie.
Bij lezingen krijg ik regelmatig de vraag uit het publiek: “Mooi die terugblik. Maar hoe gaat het zich verder ontwikkelen in de toekomst?” Meestal doe ik deze vraag af met een grapje, maar ik denk dat ik nu een aanzet tot een antwoord heb.
Om te beginnen moeten we ons realiseren dat data, informatie en kennis geen uitwisselbare begrippen zijn. Er is wel samenhang. En ook hiërarchie. Dat kan je zien in de zogenoemde kennispiramide. We richten ons even op de basis: de drie onderste lagen.
Data is feitelijke informatie zonder betekenis. Het zijn onbewerkte gegevens, zoals cijfers, letters, beelden of geluidsopnames. Bijvoorbeeld: de gegevens over de hoeveelheid regenval in een bepaald gebied op een bepaalde dag.
Informatie is data die betekenis heeft gekregen. Dat gebeurt door verbanden te leggen en conclusies te trekken. Als we bijvoorbeeld data over regenval in een bepaald gebied analyseren en verbanden leggen met andere gegevens, zoals de temperatuur en de wind, kunnen we informatie verkrijgen over de weersomstandigheden op die dag.
Kennis is de verzameling van feiten, ervaringen en informatie die iemand in zijn geheugen opgeslagen heeft en die hij kan toepassen om problemen op te lossen of beslissingen te nemen. Bijvoorbeeld: als iemand veel informatie heeft verzameld over regenval en weersomstandigheden, en hij heeft deze informatie verwerkt en geanalyseerd, kan hij op basis daarvan weersvoorspellingen doen.
Samengevat: data is de basis, informatie is data die betekenis heeft gekregen en kennis is de toepassing van informatie in de praktijk. Kennis is gebaseerd op informatie en informatie weer op data. Het is een piramide. We bewandelen normaal gesproken alleen de weg naar boven: eerst verzamelen we data, dan interpreteren we die tot informatie en passen deze toe als kennis. Vanzelfsprekend kunnen bij het leggen van verbanden en het trekken van conclusies fouten worden gemaakt. Iedere overgang van het ene niveau naar het andere impliceert een interpretatie met kans op corruptie.
Laten we nu eens kijken hoe Google hiermee omgaat en dit vergelijken hoe het taalmodel ChatGPT dit doet. We doen dit aan de hand van de metafoor van voedsel. Data: dat zijn de ingrediënten, informatie is het gerecht en kennis het restaurant.
Wanneer we Google een opdracht geven, dan zoekt het systeem naar maaltijden. Dat wil zeggen: Google zoekt naar bestaande gerechten, door menukaarten te doorzoeken. Als antwoord zegt Google: dit gerecht vind je op meerdere menukaarten. Dit zijn de meest relevante restaurants. Als je hier klikt, vind je het gerecht.
Er is een hele industrie ontstaan om het Google gemakkelijk te maken, zodat je wordt aangemerkt als goed restaurant met lekkere gerechten: SEO (search engine optimization). De mensen die zorgen dat je op deze manier hoog in de zoekresultaten verschijnt, kunnen zich laten omscholen want het generatieve taalmodel ChatGPT gaat heel anders om met een zoekopdracht. Het maakt namelijk eigen gerechten op basis van beschikbare ingrediënten die het vindt op menukaarten van anderen.
Als we dit terugvertalen naar de kennispiramide, dan kan je zeggen dat Google slim informatie zoekt. Hoewel hier veel dataverwerking bij komt kijken, laat Google het gerecht onaangeroerd. Google verlaat nooit de informatie-laag in de piramide. Google kan heel slim en snel gerechten vinden. Punt.
Google kan goed zoeken, omdat hij het aanbod van websites (gerechten), van tevoren in kaart heeft gebracht. Door de relaties tussen de websites te analyseren, ‘weet’ Google, welke restaurant de beste kipsaté serveert. Maar Google kan zelf nog geen ei koken. Het kent enkel de weg naar het beste restaurant.
ChatGPT struint net als Google het internet af (tenminste tot 2021, vooralsnog). Maar het maakt geen lijstjes. Het proeft de gerechten en analyseert de ingrediënten ervan. Het leest en begrijpt. Dat wil zeggen: het begrijpt niet zoals wij dat doen, maar het kan wel degelijk verbanden leggen in tekst. Dat doet het taalmodel door informatie terug te brengen naar data. Door deze data te herinterpreteren is het model in staat informatie terug uit te serveren als nieuw vers gerecht. Dus ChatGPT deconstrueert informatie tot data en herbouwt de data tot (nieuwe) informatie. En hoewel dit een kleine stap lijkt, is dit een revolutie die zijn weerga niet kent.
In de wereld van Google, kan je enkel zoeken naar dat, wat er al is. Met ChatGPT kan je ontdekken wat mogelijk is. Google kan alleen bestaande gerechte serveren. ChatGPT is een on-demand chef-kok. Iedereen zijn eigen Gordon Ramsay…
Normaal gesproken denken we bij informatieverwerking: the only way is up! Data > informatie > kennis. Maar ChatGPT zet dit dus op zijn kop, wanneer we informatie zoeken via ChatGPT dan gebeurt dit: informatie > data > herinterpretatie > nieuwe informatie > nieuwe kennis.
Zonder al te technisch te worden, zal ik proberen om de vraag te beantwoorden hoe het mogelijk is dat een taalmodel informatie weer terug kan brengen naar data. In essentie gaat het dan om het ontdekken van verbanden in taal. In de meest elementaire vorm: ‘if this than that’. Ik heb begrepen dat dit een complexe exercitie is en dat er pas een doorbraak kwam, toen het taalmodel werd losgelaten op programmeercode. De lineaire logica van programmeercode, heeft het taalmodel geholpen om verbanden in menselijke taal te ontdekken.
Wat ChatGPT in feite doet is letters (menselijke taal, informatie) terugbrengen naar cijfers (data). Op basis van eerdere relaties tussen woorden, genereert het systeem op basis van statistiek eigen (nieuwe) taal.
Waarom is dit ingrijpend? Het is ingrijpend omdat we op een fundamenteel andere manier informatie gaan verwerken. Doordat generatieve taalmodellen bestaande kennis en informatie kunnen terugbrengen naar data, zijn antwoorden die je krijgt op een vraag niet gebaseerd op eerdere interpretatie van data, maar worden telkens opnieuw verbanden gelegd.
Om in de metafoor van gerechten blijven: het betekent dat we veel gevarieerder kunnen gaan eten. We zullen gerechten ontdekken met verrassende combinaties waar we zelf niet opgekomen zouden zijn, en vermoedelijk zullen rijke wereldrestaurants ontstaan, gebaseerd op kennis die we niet zonder AI niet hadden kunnen vergaren.
Ik zou zeggen: eet smakelijk!