Schrijven is schrappen, ook voor ChatGPT!

Gianni
Van de Velde

Als je vandaag een vraag stelt aan ChatGPT, dan zal die vaak vliegensvlug antwoorden, aan zo'n hoge snelheid dat we niet eens kunnen volgen met lezen. Maar heb je je al eens afgevraagd hoe dat brein van ChatGPT aan dat tempo kan schrijven? Wel, dat is eigenlijk door veel te schrappen! Vandaag nemen we een kijkje onder de motorkap en zien we waarom ChatGPT vaak tien keer meer kladdert dan dat die echt schrijft. Meer zelfs, dat kladderen kan zelfs energie uitsparen!

Hoe werkt dat kladderen dan?

Stel, je bent een scriptie, een artikel of eender welke andere tekst aan het schrijven. Je wilt dat jouw woorden goed overkomen, dus ga je niet zomaar elk woord van links naar rechts schrijven en nooit meer terugkijken. Nochtans is dat wat de eerste versies van ChatGPT en andere chatbots deden. In plaats daarvan, bedenken wij mensen een paar mogelijkheden en kiezen de beste uit. Hedendaagse chatbots doen dat ook, maar hoe werkt dat dan in praktijk? Een chatbot heeft eigenlijk twee breinen (neurale netwerken): het kleine kladderbrein en het grote naleesbrein. In de eerste stap schrijft het kladderbrein niet één, maar vele kladversies uit voor de volgende zinsdelen. Stel dat de chatbot al begonnen is met: "Gent ligt". Dan kan het kladderbrein voorstellen maken als "Gent ligt in Vlaanderen", "Gent ligt aan het strand", enzovoort. Het kleine kladderbrein maakt wel nog veel fouten. Daarom zal het naleesbrein in stap twee alle mogelijkheden afgaan en bepalen welke kladversie goed genoeg is. Maar pas op, dat naleesbrein maakt het niet gemakkelijk, want soms keurt die gewoon alles af! Zo herhalen de chatbots die stappen vele keren en iedere keer komen er een paar zinsdelen bij. Dat is dus wat je ziet wanneer ChatGPT zo snel aan het schrijven is.

Een schema dat het verschil toont tussen tekstgeneratie zonder en met kladderen. Bovenaan: ‘Zonder kladderen’. Er zijn drie iteraties waarin de zin stap voor stap groeit: Iteratie 1: ‘Gent ligt’; Iteratie 2: ‘Gent ligt in’; Iteratie 3: ‘Gent ligt in Vlaanderen’. Onder een scheidingslijn: ‘Met kladderen’. Al bij de eerste iteratie verschijnt ‘Gent ligt’, terwijl de kladversies ‘in Vlaanderen’ (groen gemarkeerd) en ‘aan het strand’ (rood doorstreept) naast elkaar staan als alternatieven.

Maar hoe spaart dat nu tijd uit, of energie?

Door alle foute kladversies te schrappen, hebben we veel verloren werk, maar waarom gaat dat dan toch sneller? Dat is omdat het kladderbrein vele keren kleiner is en dus kan de computer die kladversies vele keren sneller genereren dan het grote brein. Nu heeft het kladderbrein die kladversies heel snel gemaakt, maar gaat dat overlezen dan ook zo snel? Ja! En dat is dankzij een term waar computerwetenschappers zoals ik wild van worden: parallellisatie! Met parallelliseren bedoelen we dat we de werklast verdelen, want vele handen maken licht werk. Het is namelijk zo dat elke computer, zelfs die van jou, vele werkers heeft. Als de kladversies dan binnenkomen, verdelen we het werk over die werkers. Daarom duurt het niet zoveel langer om 50 kladversies te laten nalezen door 50 werkers, dan 1 kladversie door 1 werker. Meer zelfs, omdat die 50 werkers allen hetzelfde brein gebruiken, moeten we dit brein maar één keer inladen. Het gekke is dat het laden van zo'n brein veel meer energie kost dan effectieve berekeningen. Daarom kost het niet zoveel meer energie om die 50 kladversies in parallel te controleren, dan wat het kost om 1 kladversie te controleren.

Wat heb ik hieraan vernieuwd?

De bovenstaande techniek van het kladderen bestond al voor mijn scriptie, dus ik heb daarop voortgebouwd en een nieuwe techniek uitgevonden om betere kladversies te schrijven. Natuurlijk, hoe beter de kladversies zijn, hoe meer woorden geaccepteerd worden en hoe sneller we vooruit kunnen. Hoe we de beste kladversies maken zou ik zelfs een hot topic in de AI durven noemen. Vandaag zijn de tien beste methoden allemaal puur neurale netwerken. Die worden getraind door ze miljarden voorbeelden te tonen van hoe ze een zin verder moeten aanvullen. Daarna kan het neurale netwerk zelf proberen te voorspellen. Het probleem is dat zo'n netwerk enkel goed werkt als het de taal kent. Zo hebben vele modellen enkel maar Engels geleerd en spreken ze dus weinig Nederlands. Om dit te verhelpen, heb ik teruggegrepen naar oudere methoden. Vroeger werd er namelijk met eenvoudige regels gewerkt om te kladderen. Een interessante methode is de kopieertechniek. Die zegt dat als de laatste woorden letterlijk gekopieerd zijn uit de vraag, dat we het vervolg daarvan waarschijnlijk ook gaan kopiëren (zie figuur). Nu vraag je je waarschijnlijk af waarom de chatbot de vraag zou kopiëren. Dat doet die toch helemaal niet zo vaak? Eigenlijk wel, maar het wordt verborgen voor ons.

Een schema met bovenaan ‘Vraag: Wie is de winnaar van de Vlaamse Scriptieprijs?’ en onderaan ‘Antwoord: De winnaar van de Vlaamse Scriptieprijs ...’. Het overlappende stuk ‘De winnaar van de Vlaamse Scriptieprijs’ is deels groen gemarkeerd met een pijl en label ‘Al gekopieerd’, en deels geel gemarkeerd met een pijl en label ‘Verder gekladderd’ om te tonen dat een deel al gekopieerd is en het vervolg van de vraag als kladversie gebruikt wordt..

Je hebt waarschijnlijk al eens gehad dat ChatGPT op het internet gaat opzoeken. Indien niet: voeg dan eens "Zoek het op." toe aan een vraag. Dan zal hij eerst op het internet zoeken voor hij een antwoord geeft. Eigenlijk gaat hij die bronnen gewoon als tekst toevoegen vóór jouw vraag, zonder dat je het ziet. Dus ook al is jouw vraag heel kort, toch is de volledige input voor de chatbot vaak heel lang, met veel bronnen. Dat zorgt ervoor dat de chatbot vaak terugkijkt naar de documenten en daarbij stukken letterlijk kopieert, soms zelfs zinnen lang! Dit is dus waar die techniek van hierboven op steunt: kopiëren komt vaker voor dan je zou denken. Nu was deze methode al lang in vergetelheid geraakt door de neurale netwerken. Mijn toevoeging aan het hele verhaal is verbazingwekkend simpel: wat als we de twee methoden combineren? We nemen dus de kladversies van het kopiëren en die van het neurale netwerk tezamen. Tot mijn eigen verbazing blijkt dit beter te werken dan elke andere methode die al bestond! In het Nederlands zien we een versnelling van 17% bovenop het beste neurale netwerk ter wereld en het is 17% energie-efficiënter!

Deze scriptie toonde aan dat we chatbots energie-efficiënter kunnen maken, zonder kwaliteitsverlies. Dit is een kleine stap in het grote energieprobleem dat AI veroorzaakt. Ik geloof dat we ooit tot duurzame AI zullen komen, dankzij inspanningen vanuit de academische en de bedrijfswereld. Daarnaast is deze scriptie ook geruststellend. We zagen namelijk dat de kopieermethode van taalspecialisten toch nog zijn plaats heeft in een tijd waar specialisten vrezen vervangen te worden door AI. Ik vrees daar niet voor, want het is samenwerking tussen specialisten en AI dat tot de beste resultaten leidt.

Bibliografie

[1]Pranjal Aggarwal et al. “Automix: Automatically mixing language models”.
In: Advances in Neural Information Processing Systems 37 (2024), pp. 131000–131034.
[2]Ryoko AI. “ShareGPT Dataset”. In: ().
url: https://huggingface.co/datasets/RyokoAI/ShareGPT52K.
[3]Blake Alcott. “Jevons’ paradox”. In: Ecological economics 54.1 (2005), pp. 9–21.
[4]Negar Alizadeh et al. “Analyzing the Energy and Accuracy of LLMs in Software Development”.
In: arXiv e-prints (2024), arXiv–2412.
[5]Seth Ayers et al. Measuring the Emissions and Energy Footprint of the ICT Sector : Implications
for Climate Action ( (English). Mar. 2024.
url: https://documents.worldbank.org/en/publication/documents-
reports/documentdetail/099121223165540890/p17859702a98880540a4b70d57876048abb.
[6]Himanshu Bamoria.
Solving Latency Challenges in LLM Deployment for Faster, Smarter Responses. Sept. 2024.
url: https://medium.com/athina-ai/solving-latency-challenges-in-llm-deployme…-
for-faster-smarter-responses-64ff301e40d3.
[7]Emily M Bender et al. “On the dangers of stochastic parrots: Can language models be too big?”
In: Proceedings of the 2021 ACM conference on fairness, accountability, and transparency. 2021,
pp. 610–623.
[8]Tom Brown et al. “Language models are few-shot learners”.
In: Advances in neural information processing systems 33 (2020), pp. 1877–1901.
[9]Banghao Chen et al. “Unleashing the potential of prompt engineering in large language models: a
comprehensive review”. In: arXiv preprint arXiv:2310.14735 (2023).
[10]Jianlv Chen et al. “Bge m3-embedding: Multi-lingual, multi-functionality, multi-granularity text
embeddings through self-knowledge distillation”. In: arXiv preprint arXiv:2402.03216 (2024).
[11]Mark Chen et al. “Evaluating large language models trained on code”.
In: arXiv preprint arXiv:2107.03374 (2021).
[12]Sarah Chudleigh. Complete Guide to LLM Agents (2025). Nov. 2024.
url: https://botpress.com/blog/llm-agents.
[13]Karl Cobbe et al. “Training Verifiers to Solve Math Word Problems”.
In: arXiv preprint arXiv:2110.14168 (2021).
[14]Jacob Devlin et al.
“Bert: Pre-training of deep bidirectional transformers for language understanding”.
In: Proceedings of the 2019 conference of the North American chapter of the association for
computational linguistics: human language technologies, volume 1 (long and short papers). 2019,
pp. 4171–4186.

[15]Docker, Inc. Docker. Accessed: 2025-05-18. 2024. url: https://www.docker.com.
[16]E-SPIN. The Rise of Local LLMs: Why Everyone Is Building Their Own AI Models. Feb. 2025.
url: https://www.e-spincorp.com/rise-of-local-llms-ai-models.
[17] Eiffel Tower. url: https://en.wikipedia.org/wiki/Eiffel_Tower (visited on 04/30/2025).
[18]Envisioning. GPU-Poor. 2022. url: https://www.envisioning.io/vocab/gpu-poor.
[19]Shahul Es et al. “Ragas: Automated evaluation of retrieval augmented generation”.
In: Proceedings of the 18th Conference of the European Chapter of the Association for
Computational Linguistics: System Demonstrations. 2024, pp. 150–158.
[20]Wenqi Fan et al.
“A survey on rag meeting llms: Towards retrieval-augmented large language models”.
In: Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
2024, pp. 6491–6501.
[21]Jared Fernandez et al.
“Energy Considerations of Large Language Model Inference and Efficiency Optimizations”.
In: arXiv preprint arXiv:2504.17674 (2025).
[22]Thibault Formal, Benjamin Piwowarski, and Stéphane Clinchant.
“SPLADE: Sparse lexical and expansion model for first stage ranking”. In: Proceedings of the 44th
International ACM SIGIR Conference on Research and Development in Information Retrieval.
2021, pp. 2288–2292.
[23]Thibault Formal et al.
“SPLADE v2: Sparse lexical and expansion model for information retrieval”.
In: arXiv preprint arXiv:2109.10086 (2021).
[24]Elias Frantar et al.
“Gptq: Accurate post-training quantization for generative pre-trained transformers”.
In: arXiv preprint arXiv:2210.17323 (2022).
[25]Luyu Gao et al. “Precise zero-shot dense retrieval without relevance labels”. In: Proceedings of the
61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).
2023, pp. 1762–1777.
[26]Amir Gholami et al. “AI and memory wall”. In: IEEE Micro (2024).
[27]Aaron Grattafiori et al. “The llama 3 herd of models”.
In: arXiv preprint arXiv:2407.21783 (2024).
[28]Zeyu Han et al. “Parameter-efficient fine-tuning for large models: A comprehensive survey”.
In: arXiv preprint arXiv:2403.14608 (2024).
[29]Demis Hassabis, James Manyika, and Jeff Dean.
2024: A year of extraordinary progress and advancement in AI. Jan. 2025. url:
https://blog.google/technology/ai/2024-ai-extraordinary-progress-advanc….
[30]Zhenyu He et al. “Rest: Retrieval-based speculative decoding”.
In: arXiv preprint arXiv:2311.08252 (2023).
[31]IEA. AI is set to drive surging electricity demand from data centres while offering the potential to
transform how the energy sector works. Apr. 2025. url: https://www.iea.org/news/ai-is-
set-to-drive-surging-electricity-demand-from-data-centres-while-offering-the-
potential-to-transform-how-the-energy-sector-works.
[32]Gautier Izacard et al. “Unsupervised dense information retrieval with contrastive learning”.
In: arXiv preprint arXiv:2112.09118 (2021).

[33]Huiqiang Jiang et al.
“Llmlingua: Compressing prompts for accelerated inference of large language models”.
In: arXiv preprint arXiv:2310.05736 (2023).
[34]Huiqiang Jiang et al. “Longllmlingua: Accelerating and enhancing llms in long context scenarios
via prompt compression”. In: arXiv preprint arXiv:2310.06839 (2023).
[35]K2view. GenAI adoption 2024: Challenges with enterprise data.
url: https://www.k2view.com/genai-adoption-survey/ (visited on 04/30/2025).
[36]Omar Khattab et al. “Demonstrate-search-predict: Composing retrieval and language models for
knowledge-intensive nlp”. In: arXiv preprint arXiv:2212.14024 (2022).
[37]Gangwoo Kim et al. “Tree of clarifications: Answering ambiguous questions with
retrieval-augmented large language models”.
In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing.
2023, pp. 996–1009.
[38]Sehoon Kim et al. “Full stack optimization of transformer inference: a survey”.
In: arXiv preprint arXiv:2302.14017 (2023).
[39]Sehoon Kim et al. “Full stack optimization of transformer inference: a survey”.
In: arXiv preprint arXiv:2302.14017 (2023).
[40]Sehoon Kim et al. “Speculative decoding with big little decoder”.
In: Advances in Neural Information Processing Systems 36 (2023), pp. 39236–39256.
[41]Tom Kwiatkowski et al. “Natural questions: a benchmark for question answering research”.
In: Transactions of the Association for Computational Linguistics 7 (2019), pp. 453–466.
[42]Woosuk Kwon et al.
“Efficient Memory Management for Large Language Model Serving with PagedAttention”.
In: Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles. 2023.
[43]langchain. PyPDFDirectoryLoader.
url: https://python.langchain.com/api_reference/community/document_loaders/
langchain_community.document_loaders.pdf.PyPDFDirectoryLoader.html.
[44]langchain. RecursiveCharacterTextSplitter.
url: https://python.langchain.com/api_reference/text_splitters/character/
langchain_text_splitters.character.RecursiveCharacterTextSplitter.html.
[45]Carlos Lassance et al. “SPLADE-v3: New baselines for SPLADE”.
In: arXiv preprint arXiv:2403.06789 (2024).
[46]Yaniv Leviathan, Matan Kalman, and Yossi Matias.
“Fast inference from transformers via speculative decoding”.
In: International Conference on Machine Learning. PMLR. 2023, pp. 19274–19286.
[47]Mosh Levy, Alon Jacoby, and Yoav Goldberg. “Same task, more tokens: the impact of input
length on the reasoning performance of large language models”.
In: arXiv preprint arXiv:2402.14848 (2024).
[48]Yucheng Li et al. “Compressing context to enhance inference efficiency of large language models”.
In: arXiv preprint arXiv:2310.06201 (2023).
[49]Yuhui Li et al. “Eagle-2: Faster inference of language models with dynamic draft trees”.
In: arXiv preprint arXiv:2406.16858 (2024).
[50]Yuzhuo Li et al. “The unseen AI disruptions for power grids: LLM-induced transients”.
In: arXiv preprint arXiv:2409.11416 (2024).

[51]Barys Liskavets et al.
“Prompt compression with context-aware sentence encoding for fast and improved llm inference”.
In: Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 39. 23. 2025,
pp. 24595–24604.
[52]Aixin Liu et al. “Deepseek-v3 technical report”. In: arXiv preprint arXiv:2412.19437 (2024).
[53]Nelson F Liu et al. “Lost in the middle: How language models use long contexts”.
In: Transactions of the Association for Computational Linguistics 12 (2024), pp. 157–173.
[54]Richard Luscombe. Three Mile Island nuclear reactor to restart to power Microsoft AI operations.
Sept. 2024. url: https://www.theguardian.com/environment/2024/sep/20/three-mile-
island-nuclear-plant-reopen-microsoft.
[55]Niklas Muennighoff et al. “MTEB: Massive text embedding benchmark”.
In: arXiv preprint arXiv:2210.07316 (2022).
[56]Ramesh Nallapati et al.
“Abstractive text summarization using sequence-to-sequence rnns and beyond”.
In: arXiv preprint arXiv:1602.06023 (2016).
[57]world nuclear news. Facebook owner Meta seeks up to 4 GW nuclear capacity. Dec. 2024.
url: https://www.world-nuclear-news.org/articles/facebook-owner-meta-seeks-u…-
4gw-nuclear-capacity.
[58]NGINX, Inc. NGINX. Accessed: 2025-05-18. 2024. url: https://nginx.org.
[59]Jianmo Ni et al. “Large dual encoders are generalizable retrievers”.
In: arXiv preprint arXiv:2112.07899 (2021).
[60]Zhuoshi Pan et al.
“Llmlingua-2: Data distillation for efficient and faithful task-agnostic prompt compression”.
In: arXiv preprint arXiv:2403.12968 (2024).
[61]Pieces. Local large language models (LLMs) and their growing traction. Mar. 2025. url: https:
//pieces.app/blog/local-large-language-models-lllms-and-copilot-integrations.
[62]Soham Poddar et al. “Towards Sustainable NLP: Insights from Benchmarking Inference Energy in
Large Language Models”. In: arXiv preprint arXiv:2502.05610 (2025).
[63]PostgreSQL Global Development Group. PostgreSQL. Accessed: 2025-05-18. 2024.
url: https://www.postgresql.org.
[64]Zongyue Qin et al.
“Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference”.
In: arXiv preprint arXiv:2407.09722 (2024).
[65]Zackary Rackauckas. “Rag-fusion: a new take on retrieval-augmented generation”.
In: arXiv preprint arXiv:2402.03367 (2024).
[66]Pranav Rajpurkar et al. “Squad: 100,000+ questions for machine comprehension of text”.
In: arXiv preprint arXiv:1606.05250 (2016).
[67]François Remy, Kris Demuynck, and Thomas Demeester. “BioLORD-2023: semantic textual
representations fusing large language models and clinical knowledge graph insights”.
In: Journal of the American Medical Informatics Association 31.9 (2024), pp. 1844–1855.
[68]Stephen Robertson, Hugo Zaragoza, et al.
“The probabilistic relevance framework: BM25 and beyond”.
In: Foundations and Trends® in Information Retrieval 3.4 (2009), pp. 333–389.

[69]João da Silva. AI’s Energy Appetite Sparks Environmental Concerns. Oct. 2024.
url: https://www.bbc.com/news/articles/c748gn94k95o.
[70]Emma Strubell, Ananya Ganesh, and Andrew McCallum.
“Energy and policy considerations for modern deep learning research”.
In: Proceedings of the AAAI conference on artificial intelligence. Vol. 34. 09. 2020,
pp. 13693–13696.
[71]Tyler Suard. A Quick Review of The Most Popular AI Agent Frameworks (June 2024). June 2024.
url: https://medium.com/@ceo_44783/a-quick-review-of-the-most-popular-ai-age…-
frameworks-june-2024-ce53c0ef809a.
[72]Ruslan Svirschevski et al. “Specexec: Massively parallel speculative decoding for interactive llm
inference on consumer devices”.
In: Advances in Neural Information Processing Systems 37 (2024), pp. 16342–16368.
[73]Rohan Taori et al. Stanford Alpaca: An Instruction-following LLaMA model.
https://github.com/tatsu-lab/stanford_alpaca. 2023.
[74]Harsh Trivedi et al. “Interleaving retrieval with chain-of-thought reasoning for
knowledge-intensive multi-step questions”. In: arXiv preprint arXiv:2212.10509 (2022).
[75]u/fictioninquire. Best open source embedding models for EU languages. Reddit thread. 2024.
url: https://www.reddit.com/r/LocalLLaMA/comments/1chqkph/best_open_source_
embedding_models_for_eu_languages/.
[76]UGent. VERANTWOORD GEBRUIK GENERATIEVE AI IN DE MASTERPROEF
FACULTEIT INGENIEURSWETENSCHAPPEN EN ARCHITECTUUR. url: https:
//www.ugent.be/ea/nl/faculteit/studentenadministratie/masterproef/ai_2425…
(visited on 05/03/2025).
[77] Vancomycin. url: https://en.wikipedia.org/wiki/Vancomycin (visited on 04/30/2025).
[78]Menlo Ventures. 2024: The State of Generative AI in the Enterprise.
url: https://menlovc.com/2024-the-state-of-generative-ai-in-the-enterprise (visited
on 04/30/2025).
[79]Weaviate. Weaviate. Accessed: 2025-05-18. 2024. url: https://weaviate.io.
[80]Jules White et al. “A prompt pattern catalog to enhance prompt engineering with chatgpt”.
In: arXiv preprint arXiv:2302.11382 (2023).
[81]Guangxuan Xiao et al.
“Smoothquant: Accurate and efficient post-training quantization for large language models”.
In: International Conference on Machine Learning. PMLR. 2023, pp. 38087–38099.
[82]Fangyuan Xu, Weijia Shi, and Eunsol Choi.
“Recomp: Improving retrieval-augmented lms with compression and selective augmentation”.
In: arXiv preprint arXiv:2310.04408 (2023).
[83]Lingling Xu et al. “Parameter-efficient fine-tuning methods for pretrained language models: A
critical review and assessment”. In: arXiv preprint arXiv:2312.12148 (2023).
[84]Nan Yang et al. “Inference with reference: Lossless acceleration of large language models”.
In: arXiv preprint arXiv:2304.04487 (2023).
[85]Josh You. How much energy does ChatGPT use? Feb. 2025.
url: https://epoch.ai/gradient-updates/how-much-energy-does-chatgpt-use.
[86]Wayne Xin Zhao et al. “A survey of large language models”.
In: arXiv preprint arXiv:2303.18223 1.2 (2023).

[87]Huaixiu Steven Zheng et al.
“Take a step back: Evoking reasoning via abstraction in large language models”.
In: arXiv preprint arXiv:2310.06117 (2023).
[88]Lianmin Zheng et al. “Judging llm-as-a-judge with mt-bench and chatbot arena”.
In: Advances in Neural Information Processing Systems 36 (2023), pp. 46595–46623.
[89]Yongchao Zhou et al. “Distillspec: Improving speculative decoding via knowledge distillation”.
In: arXiv preprint arXiv:2310.08461 (2023).
[90]Shengyao Zhuang et al. “Open-source large language models are strong zero-shot query likelihood
models for document ranking”. In: arXiv preprint arXiv:2310.13243 (2023).

Universiteit of Hogeschool
Universiteit Gent
Thesis jaar
2025
Promotor(en)
Thomas Demeester en Chris Develder
Kernwoorden