Koop een hangmat en laat AI je werk doen.

Marnix
Verduyn

Stel dat je een machine zou kunnen maken die je baan overneemt, dan zou nooit nog hoeven te werken. Alleen maandelijks een factuurtje sturen voor de geleverde prestaties. Verder is het elke dag vakantie. Heerlijk toch? Miguel de Cervantès wist het al : 'L'homme qui travaille perd un temps précieux.'

Het klinkt een beetje als een scenario uit een strip en dat is niet zo vreemd want ik ben ruim twintig jaar fulltime stripauteur. Maar met de komst van AI wordt dit soort fictie werkelijkheid en daarom vroeg ik mij af of AI ook strips zou kunnen maken. Grappige, mooi getekende strips waarvan je onmogelijk kan merken dat ze door een machine werden vervaardigd. Ik zou die dan naar mijn uitgever sturen zonder het creatieproces te onthullen en zelf de auteursrechten innen. Ik was benieuwd hoe lang het zou duren voor iemand mijn werkwijze doorkreeg. Vanuit deze vraag ben ik een paar jaar geleden master of AI gaan studeren aan de KU Leuven. In het kader van mijn masterproef heb ik mijn eigen strips aan algoritmes gegeven en onderzocht hoe goed ze het ervan af brachten om mijn tekenstijl onder de knie te krijgen.

Onderzoek

Hoe moeilijk is het om een tekenstijl aan te leren met een beperkt aantal bestaande stripalbums? Die vraag is niet nieuw. Alleen wordt ze zelden gesteld door auteurs die dromen van een leven in een hangmat. In de stripindustrie stelt ze zich steeds als een succesvol auteur overlijdt of met pensioen gaat. Er worden dan jonge getalenteerde tekenaars aangezocht om de populaire serie verder te zetten. Zo besliste de uitgeverij Dupuis kortgeleden nog om Guust Flater van Franquin te laten tekenen door de Canadees Delaf. In een interview met ActuaBD verklapte hij zijn werkwijze: 'Ik heb gedurende drie jaar ruim 10.000 voorbeelden opgezocht van elk object of personage tot ik volledig doorhad hoe Franquin de werkelijkheid interpreteert in zijn zwierige stijl.'

Dat is hoe mensen te werk gaan. Als we een strip lezen, begrijpen we de tekeningen ook al zijn het vereenvoudigde, karikaturale weergaven van de werkelijkheid. Machines zijn hierin voorlopig beperkter. Ze begrijpen de werkelijkheid namelijk niet. In het beste geval kunnen ze met een verzameling beelden leren om nieuwe beelden te creëren die er exact hetzelfde uitzien zonder dat het kopieën zijn. Voor dit soort toepassingen bestaan sinds 2014 de zogenaamde GAN's (General Adversarial Networks). Die maken gebruik van een simpel maar geniaal trucje. Een GAN bestaat uit twee algoritmes die tegen elkaar strijden. De eerste, de generator, probeert zo goed mogelijk om een beeld te maken in de stijl van de voorbeeldset. Zo'n gegeneerd beeld noemen we een vals beeld. De tweede, de discriminator, probeert om een vals beeld van een echt te onderscheiden. Wanneer dat niet meer lukt, is de generator een geslaagde imitator.

Dit soort netwerken hebben op korte tijd furore gemaakt op datasets waarvan er veel beelden voorradig zijn, bijvoorbeeld, zoals menselijke gezichten. Het internet puilt namelijk uit van de foto's. Door GAN's te trainen op miljarden gezichten, kunnen we tegenwoordig perfecte portretfoto's genereren van mensen die nooit bestaan hebben. In video leiden die netwerken tot de befaamde deep fake video's. Van strips bestaan er slechts een beperkt aantal boeken. Guust Flater duikt op in negentien albums. Omgerekend is dat een dataset van 10.000 tekeningen. Bovendien zijn de tekeningen veel diverser dan een verzameling portretfoto's. Als een gezicht netjes bijgesneden is, dan bevinden de ogen, neus en mond zich ongeveer op dezelfde positie. De variatie is dan relatief beperkt. Bij strips toont elk vakje een andere scene. De personages kunnen zich overal bevinden en de decors veranderen voortdurend.

0841 nl

Kinky & Cosy

Als dataset gebruikte ik beelden van mijn reeks Kinky & Cosy. Dat is een krantenstrip die ontstond in De Morgen en daarna internationale publicaties kende tot in Le Monde. Heel even was de reeks als tekenfilm te zien in het programma Volt op Eén. De hoofdpersonages zijn een blonde tweeling in rode jurkjes en ze worden vergezeld van honderd nevenpersonages. Dat geeft meteen een idee van de grote variatie in de tekeningen. Bovendien zijn er geen miljoenen beelden van. Uit de tekenfilmpjes werden twee datasets geselecteerd. Een eerste bestaat uit 56.000 beelden die voldoende verschillend zijn en vierkant bijgesneden. Een tweede concentreert zich enkel op de hoofdpersonages en telt slechts 8.500 tekeningen.

De netwerken die ik trainde zijn de zogenaamde DCGAN, WGAN en Stylegan2-ADA. Dat zijn opvolgers van de allereerste GAN waarbij er gesleuteld werd aan de architectuur met het oog op betere resultaten. Ondanks de beperkte omvang en de grote diversiteit van de datasets, kreeg ik toch verbazingwekkend goede imitaties. Vooral de tweede dataset leverde na training met Stylegan2-ADA valse beelden op die haast vlekkeloos leken op de originele. Dat is goed nieuws en tegelijk slecht nieuws. Een GAN heeft dus duidelijk baat bij minder diversiteit. Deze belangrijke beperking wordt veroorzaakt door het gebrek aan kennis van de echte wereld. Het levert een afweging op tussen diversiteit en nauwkeurigheid van de tekeningen.

fakes

De latente ruimte

Maar wat ben je nu met een netwerk dat willekeurige beelden kan maken, ook al zijn ze stilistisch perfect? De eerstvolgende stap is natuurlijk de generator te sturen tot ik de beelden krijg die ik wil. En daarvoor lijkt een toevallige ontdekking tijdens mijn experimenten beloftevol. Toen ik bij een getraind netwerk de latente ruimte verkende, ontdekte ik semantisch betekenisvolle richtingen. De latente ruimte zou je de verbeelding van het netwerk kunnen noemen. Een richting is semantisch betekenisvol als je vertrekkend vanuit een beeld nieuwe beelden genereert waarbij slecht één gegeven wijzigt . Zo ontdekte ik richtingen waarbij een personage alleen het hoofd draaide. Dat zou in een latere fase kunnen toestaan om een hoofd in een gewenste positie te plaatsen .

Gesteld dat ik dan stripplaatjes kan maken die er uitzien alsof ik ze zelf getekend heb, dan moet er natuurlijk nog een scenario bedacht worden. Daarvoor bestaan er goed presterende algoritmes met even cryptische namen als GPT-2 en GPT-3. Het zal dus nog wel even duren voor ik in mijn hangmat lig.



 

 

Download scriptie (47.38 MB)
Universiteit of Hogeschool
KU Leuven
Thesis jaar
2022
Promotor(en)
prof. dr. ir. Luc De Raedt