Een door een chatbot gegenereerd gedicht kan ons het een en ander leren over onze taal, merkt taalcolumnist Marten van der Meulen.
Angst voor nieuwe technieken is zo oud als de mensheid. Of het nu gaat om de boekdrukkunst, elektriciteit, de telefoon, trein of computer: telkens als er een Grote en Wereldschokkende innovatie werd gedaan vreesden mensen het ergste. Uiteindelijk viel het tot nu toe allemaal mee. Ik heb althans nog nooit ademhalingsproblemen gehad in de trein, en hoewel ik regelmatig muziek luister op mijn telefoon, ga ik ook nog steeds naar concerten.
De nieuwste boosdoener op het gebied van techniekangst is ChatGPT. Dat is, kort gezegd, een chatprogramma, dat allerlei taalregels heeft geleerd op basis van miljarden woorden. Die taalregels geven het de mogelijkheid om te reageren op input van gebruikers. Dit is ’s werelds kleinste notendop, zie vooral hier of hier voor meer uitleg.
Belangrijk punt bij dit soort taalgeneratoren is dat ze altijd nieuwe dingen maken op basis van wat ze gevoed krijgen. Geef je zo’n programma alleen maar teksten over voetbal, dan produceert het teksten over voetbal. Idem voor ieder ander onderwerp. Dat leverde in het verleden nogal eens, laten we zeggen, kleurrijke problemen op.
De resultaten van ChatGPT zijn daarentegen alleszins bruikbaar. Ik ken veel mensen die het al professioneel inzetten. Ze laten zich bijvoorbeeld op weg helpen bij het schrijven van een abstract. Er zijn ook casussen uit het onderwijs, waarbij het programma wordt gebruikt om feedback te geven, lesplanning te doen of onderwijsmateriaal te maken. Het kán op die al die manieren docenten ontlasten, en ze meer tijd geven voor hun kerntaak van onderwijs geven.
Wel is er bezorgdheid over de privacy van de gegevens die je invoert. Het is daarom raadzaam geen persoonlijke informatie in te kloppen, al helemaal niet over (minderjarige) leerlingen.
Nu ChatGPT ten tonele is verschenen, is dat misschien wel interessant als hulp voor de poëtisch uitgedaagden onder ons
Kortgeleden was het Sinterklaas, een feest dat traditioneel wordt gevierd met gedichten. Hulpmiddelen bij dichten bestaan al heel lang, bijvoorbeeld in de vorm van rijmwoordenboeken. De bekendste en verreweg beste daarvan is de heerlijk oubollige website Mick’s Rijmwoordenboek. Dat geeft véél meer opties dan bijvoorbeeld het verrassend beperkte Van Dale Rijmwoordenboek.
Nu ChatGPT ten tonele is verschenen, is dat misschien wel interessant als hulp voor de poëtisch uitgedaagden onder ons. Een collega van me vroeg zich daarom af: hoe goed kan dit programma dichten? Zie hier wat er uit haar opdracht kwam:
Sinterklaas zat vol vreugd op zijn schimmel,
Las over een wedstrijd, vol grap en gimmel.
Dichters bijeen, hun pen als een pijl,
In woorden ontvouwde zich menig verschil.
Metrum klonk als een oude klok,
Terwijl men rijmde, als een fijne sok.
Een winnaar gekozen, met lof en kabaal,
Dichtend als een nachtegaal.
De jury lachte, vol gegiechel,
Bij elke regel, elke komma, elke kegel.
A-B-rijm danste als een lentebries,
De dichters verbaasd, als Sint op reis.
Nu in de schoenen, een gedicht zo fijn,
Een ode aan woorden, een feestelijk schrijn.
Dus vier de taal, in dit sinterklaaslied,
Met a-brijm, de winst is uiteindelijk niet gegriefd!
Hier gaat best wel veel goed. De meeste woorden zijn inderdaad Nederlandse woorden. Ze worden bovendien aan elkaar verbonden op basis van de geldende regels voor de Nederlandse grammatica en interpunctie. Lidwoorden staan voor zelfstandige naamwoorden, bijstellingen staan op de goede plek, net als bijvoeglijke naamwoorden en voorzetsels.
© DALL-E / OpenAI
Wat er goed gaat is niet half zo interessant als wat er fout gaat. Dat geldt over het algemeen voor taal, zoals ik altijd maar roep. Juist door te kijken wat er fout gaat, kunnen we moeilijkheden identificeren. En juist daardoor kunnen we onderwijs verbeteren. In dit geval kunnen de fouten ons leren wat computers niet goed snappen aan taal. Dat blijkt nog flink wat te zijn.
Het eerste wat opvalt is dat het rijm vaak misgaat. Pijl – verschil klopt niet, net zomin als gegiechel – kegel, lentebries – reis en sinterklaaslied – gegriefd. Het zijn allemaal net andere fouten, maar ze hebben gemeen dat telkens één van de woorden de lange i-klank heeft, gespeld als <ie>.
Juist door te kijken wat er fout gaat, kunnen we moeilijkheden identificeren. En juist daardoor kunnen we onderwijs verbeteren
Blijkbaar vindt de computer dat moeilijk. Geen idee waarom. Worden dit soort woorden weinig gebruikt in de input die het krijgt? Als dat zo is, dan zou je verwachten dat ChatGPT ze vermijdt. Maar het overschat zichzelf, heeft de verkeerde regel onttrokken. Die regel lijkt vooral te grof: alle <i>, <ie> en zelfs <ei> worden misschien wel als dezelfde klank beschouwd.
Vervolgens hebben we te maken met échte onzin. Men rijmde als een oude sok? De winst is niet gegriefd? Verbaasd als Sint op reis? Dat lijken me onzinuitdrukkingen van het beroemde type van Chomsky: grammaticaal lopen ze wel, inhoudelijk slaan ze nergens op. Interessant is ook het woord gimmel in de tweede regel. Voor zover ik weet is dat in het Nederlands geen bestaand woord. Het lijkt dat ook nooit te zijn geweest. Het is wel de derde letter van het Hebreeuwse alfabet (waar dan weer een band naar is vernoemd in Finland, maar dat terzijde).
© DALL-E / OpenAI
Waar haalt ChatGPT dit dan vandaan? Ik denk dat het wel voor zou kunnen komen in een Nederlandstalige tekst, waardoor het foutief als Nederlands woord is geclassificeerd.
Ten slotte gebeuren er nog opvallende dingen op het niveau van de zinsconstructies. Die zijn niet per se fout, maar fraai zijn ze ook weer niet. Er is vooral weinig variatie. Bijna iedere regel heeft een komma en bestaat dus uit samengestelde zinnen. Ook vergelijkingen komen heel veel voor. Dat kan minstens twee dingen betekenen. Misschien komen dit soort vergelijkingen ook veel voor in de input. Dat kan, maar dat lijkt me eerlijk gezegd onwaarschijnlijk. Zó vaak schrijven mensen dat toch niet? De andere optie vind ik logischer: misschien is dit gewoon een ‘makkelijke’ zinsconstructie, die de computer daarom makkelijk extraheert en vaak gebruikt.
Kortom: het is aardig, maar goed is het nog niet. Wel leert zo’n gegenereerd gedicht ons iets over onze taal. Net zoals allerlei andere computationele technieken, zoals topic modeling, bepaalde patronen kunnen blootleggen die wij met het blote oog niet zien. Ik zou het mooi vinden als ChatGPT op die manier z’n weg naar het klaslokaal vindt. Aan de andere kant gaan de ontwikkelingen zo snel dat dichten misschien binnenkort wel tot de mogelijkheden behoort. Het programma heeft elf maanden om te oefenen. Kijken wat er volgend jaar uitdraait.