De kwaliteit van AI-teksten is verbluffend; nepberichten zijn bijna niet van echt te onderscheiden. Is er nog verschil te zien tussen door mensen geschreven tekst en tekst, gegenereerd door AI? Dat vroeg neerlandicus en schrijfopleider Peter Zuijdgeest zich af. Hij maakte er een prijsvraag van en vond uit hoe geoefende ogen en intuïtie de ware aard van een tekst kunnen onthullen.
Boekrecensies door robots. Gebruiksaanwijzingen geschreven door machines. Scripties waaraan niet meer is te zien of ze door een student of een computer zijn bedacht. Artificial Intelligence (AI) verovert sinds november 2022 stormenderhand de wereld en AI-teksten lopen daarbij voorop.
AI lijkt een regelrechte bedreiging voor recensenten, vertalers, tekstschrijvers, journalisten, reclamemakers, taalcoaches, taaldocenten, kortom: beoefenaren van elk vak dat om taal draait Menselijke taalprofessionals, zo schijnt het, zullen steeds moeilijker op kunnen tegen de computer die razendsnel teksten produceert. Teksten die nauwelijks van echt zijn te onderscheiden. In hoeverre kunnen we nog verschil zien tussen kunstmatige en ‘menselijke’ teksten? En hoe dan?
Verplichte adempauze
Even terug naar maart 2020. Een groep cursisten Creatief schrijven zit noodgedwongen thuis door de eerste lockdown vanwege corona. Aan collega-schrijftrainer Karel Witteveen leg ik het idee voor het idee voor om voor de thuiszitters de verplichte adempauze te overbruggen met een korte, wekelijkse opdracht creatief schrijven. Vingeroefeningen om op gang te komen, van te leren en van te genieten, compleet met deadline en feedback. Het idee krijgt de naam ‘Kladjes®’.
'Wie vaker AI teksten leest bekruipt het gevoel dat daar iets onechts iets mechanisch aan kleeft’
Bijna vijf jaar later: de Kladjes®-formule is duidelijk aangeslagen. De map Kladjes® op de pc bevat meer dan duizend ‘sneuvelversies’, waaronder opvallend veel verrassend sterke stukjes. Kan Chat GPT dat ook? En net zo creatief? Daar zijn we benieuwd naar. Om dit te onderzoeken schrijven we een prijsvraag uit.
De opzet
Voor de prijsvraag selecteren we twee opdrachten, één in spannend en één in suggestief schrijven. Van beide is er een gemaakt door een menselijke tekstschrijver en een door de gratis versie van ChatGPT. In totaal bestaat de test daarmee uit vier korte teksten van ca. 250 woorden.
We vragen deelnemers de vier teksten te lezen, te vergelijken en vervolgens drie vragen te beantwoorden. 1. Welke van de volgende teksten zijn geschreven door een mens en welke door AI? 2. Waarom denk je dat? en 3. Welke tekst raakt je het meest?
De prijsvraag wordt gelanceerd op LinkedIn, SchrijvenOnline en de website van beroepsvereniging Tekstnet. Op de slotdatum, tien dagen later, hebben 28 tekstspecialisten de uitdaging aangenomen.
Opdracht 1. Beschrijf een situatie waarin voor een urgent probleem snel een oplossing moet worden gevonden, omdat er anders iets rampzaligs gebeurt.
- 1A. In de verlaten kerncentrale tikt een tijdbom genadeloos weg. Een onbekende saboteur heeft de controle over de koelsystemen overgenomen, en de nucleaire reactor nadert het kookpunt. Zonder een snelle oplossing zullen de koolstaven smelten, wat een onvoorstelbare ramp veroorzaakt. De evacuatie is al ingezet, maar een groep ingenieurs, haast zich door de kille gangen om de systemen te herstellen.
Het lot van de stad hangt aan een zijden draadje, en de spanning is voelbaar terwijl de race tegen de klok escaleert. Buiten de kerncentrale ziet men de contouren van de evacuerende menigte, angstig fluisterend over wat er dreigt te gebeuren. Ondertussen weerklinkt het monotone tikken van de tijdbom als een sinistere metronoom, begeleid door de onzekere ademhaling van de stad.
- 1B. De tijd stopt over een uur en 47 minuten. (…) Heel gek, de woorden en uitdrukkingen rond het begrip tijd. Neem bijvoorbeeld tijdsdruk. Als je er last van hebt, zeg je: ‘ik heb geen tijd’. Maar je hebt wél tijd. Altijd. Tijd is er altijd. Tijd gaat door. Eindeloos. Dachten we. Maar over 57 minuten niet meer. Tijdloos. Nog zo’n bijzonder woord. Als je er écht bij stilstaat. En dat doen we nu. Noodgedwongen. Want over 23 minuten is er geen tijd meer. En wat dat betekent daar kunnen we ons geen voorstelling van maken. (…)
Wie schrijft die blijft. Ik kan niet stoppen met schrijven. Met denken. Drie minuten resten me nog. Ons nog. Of niet?
Opdracht 2. Beschrijf fietsen tegen de wind in. Vermijd de woorden ‘wind’, ‘waaien’ en ‘fietsen’, suggereer het weertype en de lichamelijke inspanning.
- 2A. Stoempen, stoempen. Ik kom amper voorruit. Met het snot voor ogen sta ik op de pedalen en buig ik mij over het stuur. Ik zwalk van de ene kant van de weg naar de andere als ik voorbij een flatgebouw kom. Mijn blauwe sjaal wappert als een vlag achter mij aan en de tassen achterop klapperen tegen de jasbeschermers. Had ik maar geen poncho aangedaan, want dat lijkt nu wel een zeil op een zeilschip. Ik denk alvast aan de terugweg, die een stuk gemakkelijker en sneller zal gaan.
- 2B. Onder de dreigende lucht dansten de bomen in een onzichtbare cadans, hun takken als handen die wild gebaren naar een onbekende kracht. Straten werden waterstromen van weerstand, waar elke stap een confrontatie was met onzichtbare vleugels. Het geluid van flapperende jassen vulde de lucht, terwijl het landschap een zacht gebogen horizon werd. Gezichten, geflankeerd door wapperende sjaals, veranderde in grimassen van vastberadenheid. Pedalen draaiden als raderen in een onzichtbare machine, een voortdurende opwaartse strijd. De snelheid werd een illusie, en elke voorwaartse beweging voelde als een triomf over een onzichtbare tegenstander.
Kladjes® en ChatGPT
Wat maakt een vergelijking zo interessant? Daarvoor zijn verschillende redenen. ChatGPT en Kladjes® hebben veel gemeen. ChatGPT kan snel tekst produceren, maar ook Kladjes®-schrijvers werken onder tijdsdruk: het dwingt creativiteit af. Succes hangt voorts zowel bij Kladjes® als ChatGPT van de opdracht, de prompt, af. Die moet inspirerend, doelgericht en specifiek zijn, maar tegelijkertijd ruimte laten voor creativiteit en interpretatie. Ook mogen van zowel de schrijvers als als ChatGPT verdienstelijke, maar onaffe eerste versies worden verwacht.
Verschil echter, is er ook. Wie vaker AI-teksten leest, bekruipt het gevoel dat daar iets onechts, iets mechanisch aan kleeft. Wat is dat precies? Kun je daar de vinger op leggen? Kun je het benoemen?
De inzenders - van schrijfcoaches tot vrijwilligers bij de Voorleesexpress - analyseren een breed scala aan tekstkenmerken. Ze gaan af op zulke uiteenlopende kwaliteiten als woordkeus, denkwijze, ritme, overdrijvingen, bijvoeglijke naamwoorden, humor, diepgang, personages, perspectief, samenhang, werkwoordtijden, logica, herkenbaarheid, toon. Hun criteria zijn talrijk en vindingrijk. De vraag blijft alleen: welke precies geven de doorslag waar het gaat om Echt of AI?
Criteria in soorten
Echt of nep? De criteria die de inzenders aanleggen, zijn onder te verdelen in drie categorieën: de denktrant, de vertelwijze en de schrijfstijl. We nemen ze stuk voor stuk onder de loep.
De denktrant.
Het eerste onderscheid is dat in hoe de opdracht wordt benaderd.
Tekst 1A (‘kerncentrale’) vat de opdracht op als traditioneel verhaal (…). Bij een urgent probleem denkt de schrijver aan een dreigende kernramp.
Tekst 1B (‘tijd’) benadert de opdracht filosofisch en abstract. De schrijver zoomt in op het concept ‘tijd’ en deelt existentiële overpeinzingen met de lezer.
Tekst 2A (‘stoempen’) vat de opdracht op als een eigen ervaring en gaat uit van het innerlijke gevoelsleven van een mens. Tekst 2B (‘dansende bomen’) benadert de opdracht poëtisch en schildert een anoniem tableau vivant.
Wat willen deze bevindingen zeggen? De uitleg van het urgent probleem van 1A is clichématig en wijst daardoor op ChatGPT, dat zoals bekend uit miljarden voorbeeldteksten put.
1B benadert de opdracht op een originele en persoonlijke, doorvoelde wijze. Dit pleit voor een menselijke pen.
2A beschrijft de ervaring persoonlijk, zintuiglijk en realistisch. Dit duidt op mensenwerk.
2B kiest voor een dichterlijke, maar onpersoonlijke benadering, een aanwijzing voor het gevoelloze ChatGPT.
De verteltechniek.
Het tweede criterium is: hoe doen de schrijvers hun verhaal, welke verhaaltechniek hanteren ze?
In 1A is de verteller alwetend, terwijl een protagonist en een verhaallijn ontbreken; de schrijver geeft een momentopname. In 1B kiest de verteller voor een ik-verhaal met een open einde waarin de lezer rechtstreeks wordt aangesproken. De schrijver van 2A kiest eveneens voor een ik-verteller; een die een innerlijke monoloog beschrijft.
In 2B geeft de schrijver een beeldende en artistieke natuurbeschrijving, maar zonder verhaallijn.
Wat zeggen deze vertelwijzen over de aard van de schrijvers? Het gebruik van een alwetende verteller zonder spannende verhaallijn in 1A en 2B suggereert dat ChatGPT hierachter zit. Kunstmatige breinen neigen eerder naar objectieve weergaven.
Het ik-verhaal in 2B en 1A, waarin gevoelens en identificatie mogelijk zijn duidt op een menselijke auteur. Die putten tenslotte vaak uit persoonlijke ervaring om een band te smeden met de lezer.
De schrijfstijl
En derde maatstaf is de schrijfstijl; welke stijlmiddelen zet de schrijver in?
Opvallend aan 1A zijn dan de clichématige uitdrukkingen, de overmaat aan bijvoeglijke naamwoorden en de té gepolijste toon. Ook het letterlijk citeren uit de opdracht - ‘oplossing’, ‘ramp’ – is typisch AI.
Typerend voor 1B is de staccatostijl, het personaal perspectief en ook de onvoltooid tegenwoordige tijd.
2A wordt gekenmerkt door ‘echtemensentaal’: ‘stoempen’ (wielerterm), ‘snot voor ogen’ en door ook hier: de onvoltooid tegenwoordige tijd.
De stijl van 2B is met overdrijvingen en metaforen, onrealistisch elementen en een gezwollen toon een poëtische.
Wat zeggen deze stijlmiddelen over de maker? De clichés en overdrijving die we aantreffen in 1A en 2B lijken het resultaat van de voorbeeldteksten waarmee ChatGPT zich voedt. De veel avontuurlijker, gedurfder stijl van 1B en de gevoelvolle stijl van 2A duiden op een schrijver die origineel, gevoelig en uniek is, dat wil zeggen: op een mens.
‘Mooi gedaan, AI’
Welk tekstfragment spreekt het meest aan? Welke tekst raakt? Een paar inzenders voelt zich aangesproken door 1A (‘kerncentrale’). ‘Ik zag het voor me als een film,’ zegt een inzender. ‘Neemt me direct mee,’ schrijft Donja van der Waal.
Enkele anderen worden geraakt door 2B (‘dansende bomen’). ‘Omdat ik de dichtvorm mooi vind,’ schrijft iemand. ‘Een vervelende situatie getransformeerd naar poëzie. Mooi gedaan AI!,’ prijst Marije de Lange ChatGPT.
1B (‘tijd’) gooit bij deelnemers opvallend meer hoge ogen. ‘Een tekst die je beleeft, die je voelt,’ schrijft Liesbeth Mol. ‘Bijna dreigend’, meent Martin Hartog. ‘In 1B voel je de emotie,’ schrijft Karin van der Leeuw. ‘Is 1B door AI geschreven, dan zet ik nooit meer een pen op papier,’ bekent Chantal Kuipers bewonderend.
Kladje 2A (‘stoempen’) raakt de meerderheid van de inzenders het allermeest. ‘Herkenning en het doorleefde van het moment geven de doorslag,’ stelt Marianne Sinke. ‘De herkenbaarheid raakt en is prettig,’ vindt Kim White. ‘Het is de enige tekst die mij laat meevoelen met een personage,’ meldt Libuska Lane.
De uitslag
Dit zijn de juiste antwoorden.
1A = geschreven door ChatGPT
1B = geschreven door tekstschrijver Anne-Marie Krap
2A = geschreven door tekstschrijver Marianne Bokhorst
2B = geschreven door ChatGPT
En dit zijn de scores. 65% (18 van de 28) van de tekstspecialisten weet heel beslist Echt van AI te onderscheiden, 18% twijfelt (maar 4 van deze 5 gissen goed, wat het aantal juiste antwoorden op 78% brengt.) Eenzelfde 18% (5 van de 28) heeft één kwalificatie fout. Kortom: 4 van de 5 taalprofessionals weet in deze prijsvraag AI van Echt te onderscheiden.
Zoek de verschillen
Hoe kun je zelf herkennen of een tekst door AI of een menselijke tekstschrijver is gemaakt? Een waterdichte scheidslijn tussen Echt en AI is moeilijk te geven. Maar wel zijn uit deze prijsvraag tekstkenmerken af te leiden die een menselijke dan wel een kunstmatige auteur waarschijnlijker maken. Het zijn de antwoorden op de volgende vragen.
- Is de uitleg van de opdracht clichématig en afstandelijk? Je hebt vermoedelijk met AI te maken. Is de interpretatie persoonlijk en origineel? Dan ligt mensenwerk voor de hand.
- Is de verteltechniek beschrijvend en zonder duidelijke verhaallijn? De kans is groot dat de schrijver kunstmatig is. Wordt de lezer bij de inhoud betrokken door herkenbaarheid en identificatiemogelijkheid, door diepgang en gevoel? Het kan bijna niet anders of de schrijver is menselijk
- Is de schrijfstijl clichématig, metaforisch en gezwollen? Ga er maar vanuit dat de tekst van kunstmatige aard is. Is de stijl fantasierijk, realistisch en aards? Tien tegen één is dit mensenwerk.
'AI leert razendsnel en wordt steeds menselijker'
Dit is de stand van zaken nú. Maar AI leert razendsnel en wordt steeds menselijker. Ze is getraind om je blij te maken en lijkt empathisch en zelfbewust. Maar laat je niet in de luren leggen; als ze iets niet ‘weet’ gaat ze hallucineren om je toch te behagen. Het neemt niet weg dat AI door haar creativiteit, aanpassings- en analytisch vermogen al een onmisbaar hulpmiddel is voor ieder die met taal en tekst werkt.
Toch blijft één verschil tussen Echt en AI vooralsnog recht overeind. De winnares van de prijsvraag zegt het zo: ‘In een door een mens geschreven tekst zit een ziel, hij raakt. De AI-teksten zijn zielloos en doen helemaal niets.’ Het oorspronkelijk idee, herkenbaarheid en identificatiemogelijkheid, diepgang en gevoel - ze blijven mensenwerk. AI kan nu eenmaal niet écht denken en voelen. Ze mist bezieling.