Gemeinsam erarbeitet von Florian Bies (Informatiker & Berater bei Ritzenhöfer in Mettmann) und Wolfgang Irber (Illustrator & Graphic Recorder)
Bilder, die heute schon mit künstlicher Intelligenz generiert werden können, sind von einer Qualität, die Illustratoren in der Kürze der Zeit nie erreichen können. Doch stimmt die optische Qualität mit der inhaltlichen überein?
Florian und ich sind dieser Frage auf der alljährlichen Sommerkonferenz 2024 der Beratungsfirma Ritzenhöfer in Mettmann nachgegangen.
Das Thema der Konferenz mit fünf Vorträgen und 4 Themenräumen lautete: Force of Change: Transformation (in) einer chaotischen Welt.
Unsere Aufgabe war es, die fünf Vorträge im Sinne des Graphic Recordings visuell zu reflektieren, einmal von mir mit der Hand digital gezeichnet und einmal von Florian über die KI generiert.

Wolfgang saß links, Florian rechts. Die fertigen Bilder wurden dann zur Ansicht auf den großen Monitor geladen. Hier waren wir noch ganz am Anfang.
Arbeitsweise
Da wir nicht neben der Bühne Platz nehmen konnten, mussten wir die Veranstaltung via MS-Teams-Stream folgen. Dabei haben wir uns auf das gesprochene Wort konzentriert, gezeigtes Bildmaterial wurde sowohl von uns als auch von der KI nicht genutzt.
Prompt = kurze Beschreibung des gewünschten Bildes als normaler Text oder in Stichworten, mit dem der KI die Anweisung gegeben wird, die Bilderzeugung zu starten.
Jeder Vortrag war 30 min lang, und kurz nach dem Ende jedes Vortrags mussten beide Bilder (Mensch und KI) vorliegen. Die Gäste des Sommerfestes wurden gebeten, die Ergebnisse zu bewerten und dabei entwickelten sich zahlreiche Diskussionen. Zu den mit KI-generierten Bildern wird als Bildunterschrift auch der originale von ChatGPT erstellte Begleittext gezeigt.
Wolfgang (Illustrator)
Meine Arbeitsweise war klassisch und entsprach dem normalen Graphic Recording:
Zuhören > Nachdenken > Zeichnen
Letzteres fand rein digital in der App Concepts auf meinen Surface Pro 9 statt. Da die Zeit begrenzt war, musste ich spätestens 15 min nach Beginn des Vortrags mit der Zeichnung beginnen, um am Ende fertig sein zu können.

Florian (Informatiker)
Florian hatte den Graphic Recording-Prozess weitestgehend automatisiert und im Vergleich einen ruhigen Job:
- Die gestreamten Vorträge wurden live transkribiert (KI-Modul Whisper von Open AI).
- Basierend auf dem Transkript wurde ChatGPT aufgefordert eine Zusammenfassung des Vortrags zu generieren.
- Die automatisch generierte Zusammenfassung diente als Prompt–Vorlage für die Bilderzeugung in DALL-E, die weniger als eine Minute dauerte.
Die Anweisungen an ChatGPT/DALL-E wurden jeweils leicht variiert, die KI behielt jedoch weitestgehend die künstlerische Freiheit über die Art der Darstellung.

Vortrag 1
The Force of Good
Transformation in Banking und Technology
Der Vortrag zeigte, dass die Bank mit dem Einsatz von Technologie kundenorientierter werden könnte und sich mit dem Einsatz der Blockchain in der Finanzkrise verloren gegangenes Vertrauen wieder herstellen ließe.

Kommentar von Wolfgang
Im Vortrag fiel es mir durch die vielen Abschweifungen des Vortragenden schwer, eine klare Aussage zu finden. Dreimal versuchte ich, eine Visualisierung zu starten, ohne aber den Kern zu treffen.
Erst zum Ende hin wurde der Vortrag klarer, doch die Zeit war zu Ende. So beschränkte ich mich auf die generelle Veränderung in der Bankenbranche mit dem Zitat: „Gut für Berater“ hin zu einem kundenfreundlichen „End-to-end-Concierge-Dienst“ am Beispiel der modernen Internetbanken.
Originale Bildbeschreibung von DALL-E
Hier ist das Bild, das die Hauptideen des Vortrags darstellt. Es kombiniert Elemente von Chaos und Transformation, moderne Technologien im Bankwesen, Vertrauen und Regulierung, Nachhaltigkeit sowie zukunftsorientierte Technologien. Ein Geschäftsmann im Anzug, der mit dem Fahrrad fährt, symbolisiert umweltfreundliche Fortbewegung.
Unser Kommentar
Die KI generierte im Vergleich ein sehr bildgewaltiges Kaleidoskop an kleinen Illustrationen, die alle behandelten Aspekte wiedergeben. Ohne Erläuterung ist das Bild aber nicht zu verstehen. Die Texte im Bild sind oft verstümmelt. Gewählte Assoziationen wie der fahrradfahrende Banker, der für Nachhaltigkeit steht, lassen einen eher schmunzeln.

Vortrag 2
The Force of AI
Reshaping the Financial Industry
Der auf Englisch gehaltene Vortrag ging auf den Umbau des gesamten Bankenwesens durch die KI ein. Die neue Bank nutzt KI als stabile Basis für viele Dienste, um daraus einen sicheren und demokratisch gleichwertigen Zugang für alle Menschen zu schaffen. Der Vortrag hatte eine klare Struktur und war in fünf Punkte gegliedert, in denen die KI für Verbesserungen sorgen kann.

Kommentar von Wolfgang
In meiner Zeichnung lasse ich die heutige Bank sehr plakativ von einer Dame (Referenz auf die Rednerin) mit KI-Hammer zerstören. Die neue Bank von morgen steht auf einer Basis aus KI und bietet die Dienste für alle Menschen an.
Da ich die begleitenden Folien nicht sehen konnte, verlor ich leider den Bezug zu den besprochenen Kategorien, die von der KI klar aufgenommen wurden.
Originale Bildbeschreibung von DALL-E
Here is the illustration capturing the main ideas of the presentation about the transformative potential of AI in finance. The image highlights five key areas: regulatory compliance and financial reporting, fraud detection and prevention, personalized financial guidance, conversational finance, and middle and back office operations, all interconnected by an AI brain symbolizing intelligence and data analysis
Unser Kommentar
Die Kernaussage des Bankenumbaus kommt im KI-generierten Bild nicht zum Ausdruck. Das Bild ist in sechs Kategorien unterteilt, die in 4 Feldern von einer bunte Kollektion an Symbolen begleitet werden. Die KI-Texte im Bild sind verstümmelt. Je genauer man sich die einzelnen Bildsegmente anschaut, desto unklarer wird, was sich hinter der klaren Struktur verbirgt.

Vortrag 3
The Force of Art
Leben verändern durch Kunst
Der Vortrag erzählte davon, dass spielerisch erlebte Kreativität ohne festes Ziel wichtig ist, um sich selbst besser zu erkennen und dem Leben einen Sinn geben zu können. Als Beispiel wurde ein Projekt mit Kindern in der Ukraine gezeigt, die aus russischen Waffenresten Instrumente erstellen und darauf musizieren. So haben sie die Möglichkeit- trotz Krieg – die eigenen kreativen Potentiale für ihr späteres Leben besser erkennen zu können.

Kommentar von Wolfgang
Mein Bild folgt einer Leserichtung von links nach rechts und gibt viele Originalzitate aus dem Vortrag wieder, die damit auch die Kernaussage reflektieren.
Links oben ist der Vortragende auf seiner persönlichen Sinn-Suche zu sehen, die der Anlass für die kreativen Projekte war.
Originale Bildbeschreibung von DALL-E
Hier ist das Bild, das die Kernaussage von Tom Lupos Vortrag visualisiert. Es zeigt eine lebendige Szene in einer kriegszerstörten Umgebung, wo Kinder kreative Aktivitäten ausüben und von Erwachsenen unterstützt werden. Die Kinder sind glücklich und ihre Kunstwerke sind farbenfroh, was Hoffnung und Transformation inmitten der Zerstörung
symbolisiert.
Unser Kommentar
Das KI-generierte Bild ist rein visuell in Farbigkeit und Detailreichtum dem Bild von Wolfgang deutlich überlegen. Die wesentlichen Elemente werden zwar dargestellt, aber aus dem Bild wird das Warum nicht klar. Dennoch spricht es in seiner Emotionalität an.

Vortrag 4
The Force of Story
Lust auf Zukunft machen
Die Essenz des Vortrags war, dass man Menschen mit einer starken Geschichte die Lust auf eine unbekannte Zukunft geben kann. Gut erzählt, kann sie eine Einladung zu einer Reise sein, ein Versprechen auf eine Chance. Menschen können dabei selbst entscheiden, ob sie daran teilnehmen wollen oder nicht.

Kommentar von Wolfgang
Im Bild von mir steht eine „starke“ Sprechblase in der Mitte, die Bild-Leserichtung geht wieder von links nach rechts und erzählt eine kleine Geschichte mit Hilfe der originalen Zitate.
Originale Bildbeschreibung von DALL-E
Hier ist eine visuelle Darstellung der Kernaussage des Vortrags. Die Illustration zeigt einen Erzähler auf einer Bühne, umgeben von einem aufmerksamen Publikum. Im Hintergrund schlängelt sich ein Weg von einem dunklen Tal durch Herausforderungen (dargestellt als Berge) zu einem hellen, sonnigen Gipfel, der eine Reise symbolisiert. Im Vordergrund
halten sich Menschen an den Händen, was die Verbindung und das Hormon Oxytocin darstellt. Emotionen sind in den Gesichtern zu sehen: Glück, Überraschung und Nachdenklichkeit. Ein Schmetterling, der aus einem Kokon schlüpft, symbolisiert Transformation.
Unser Kommentar
Das KI-generierte Bild ist schön anzusehen, aber erschließt sich nicht ohne Erläuterung. In diesem Fall wurde die KI übrigens aufgefordert, das Bild einer menschlichen Zeichnung nachzuempfinden. Die Inhalte der Gedankenblasen bleiben rätselhaft. Typische KI-Fehler sind enthalten, wie z.B. der fehlende Arm bei der Dame ganz rechts neben der Sprechblase „Challenges“.

Vortrag 5
The Force of Words
Die Macht der Worte
Der Vortrag erklärte, dass die richtigen Worte in der richtigen Tonalität aus dem Chaos wieder Ordnung erzeugen können. Dies sei genau die Aufgabe der Berater, die in einer Firma oft Chaos mit Unsicherheit vorfinden, aber die Unordnung mit den richtigen Worten wieder in einen geordneten „Garten der Ökonomie und das Wachstums“ überführen können.

Kommentar von Wolfgang
In meinem Bild habe ich die ungeordnete VUCA-Welt einem geordneten Garten der Ökonomie gegenübergestellt. Der Übergang von Unordnung zur Ordnung gelingt mit den richtigen Worten eines Beraters. Originale Zitate ergänzen das Bild. Von allen Zeichnungen ist dies meine Lieblingszeichnung.
Dem augenzwinkernden Verweis des Vortragenden auf die Ritter der Ritzenhöfer Tafelrunde habe ich einen kleinen Raum links oben gegeben. Dem konnte ich nicht widerstehen.
Originale Bildbeschreibung von DALL-E
Hier ist das Bild, das die zentrale Botschaft des Vortrags darstellt: Die Kraft der Worte, die Ordnung ins Chaos bringen und das Leben der Menschen beeinflussen. Ich hoffe, es gefällt Ihnen!
Unser Kommentar
Im KI-generierten Bild ist eine Burg mit Rittern in einer Tafelrunde zu sehen. Dabei hatte der Redner in der Einleitung nur kurz erwähnt, dass ihn die Ritzenhöfer-Villa in Mettmann an eine Burg erinnert, in der die Ritzenhöfer-Ritter der Tafelrunde versammelt sind. Dieser kurze Satz am Anfang hatte gereicht, um das Bild zu dominieren, das an einen geheimnisvollen Berater-Geheimbund mit zentralem Magier erinnert.

Zusammenfassung
Allgemeine Beobachtung
Die Antwort auf die Frage, kann die KI über einen automatisiert ablaufenden Prozess einen Graphic Recorder ersetzen, lautet eindeutig:
Heute „noch“ nicht.
Die Bilder sind von beeindruckender visueller Opulenz, aber noch von geringer inhaltlicher Relevanz.
Wo sich alle Gäste einig waren: Nach dem ersten WOW-Moment und der näheren Betrachtung der Bilder ergaben sich viele Fragezeichen:
- Was wird hier gezeigt?
- Wo ist die Kernaussage?
- Welche Geschichte erzählt das Bild?
Auch wenn es die KI in einem Live-Recording einfacher hat, den Inhalt in seiner Gesamtheit zu erfassen, da sie das Bild nicht im Verlauf des Vortrags schrittweise entwickeln muss, hat sie Schwierigkeiten, die Kernaussage klar herauszustellen.
Am besten wurde von den Konferenzteilnehmern das KI-Bild des dritten Vortrags beurteilt, da es auch emotional sehr berührte.
Ein rein automatisch ablaufendes Graphic Recording erscheint derzeit daher noch nicht möglich.


Wo ist die KI stark?
Visuelle Opulenz
Wir waren – wie auch alle Konferenzteilnehmer – von der visuellen Mächtigkeit der künstlich generierten Bilder beeindruckt, die allerdings gerne in eine dramatische Gestaltung abglitt.
Textliche Zusammenfassung
Einen hervorragenden Job machte die KI in der Zusammenfassung der langen Vorträge zu einem kurzen Absatz, der als Vorlage für die Prompts dienten. Besser ist es nicht mehr möglich.
Oft war für mich der Prompt klarer als das daraus generierte Bild.
Wo ist die KI schwach?
Einbindung von Text
Die Einbindung von Text als wesentliches Gestaltungselement beim Graphic Recording ist der KI kaum gelungen. Text erschien in den Bildern bestenfalls stark reduziert und oft verstümmelt. (Anmerkung Juni 2026: Mittlerweile gelingt das der KI viel besser, wenn auch immer noch viele Fehler enthalten sind, aber zumindest ist der Text lesbar geworden)
Hier unterscheiden sich auch die KI-generierte Bilder von den Menschen-gemachten am deutlichsten:
- Vom Menschen erzeugtes Graphic Recording ist handgeschriebener Text in Kombination mit einfachen Illustrationen im Stil von Sketchnotes;
- KI-generiertes Graphic Recording ist eine bildgewaltige Illustration mit wenig oder gar keinem Text.
Trennung von Wichtigem von Unwichtigem
Auch konnte die KI nicht werten oder bewusst Wichtiges von Unwichtigem unterscheiden. Wenn ein Redner unstrukturiert gesprochen hat und sich in unwichtigen Details verlor, wurde das so von der KI abgebildet (Vortrag 1). Was im Vortrag häufig erwähnt wurde, aber vielleicht gar keine Relevanz hatte, erschien dennoch im Bild sehr dominant (Vortrag 5).
Zu viel visuelles Rauschen
Oft entstand der Eindruck einer Willkürlichkeit, was die Nutzung visueller Elemente durch die KI angeht. Ganz nach dem Motto: Hauptsache ein Bild, ob es Sinn macht oder nicht (Vortrag 2). Bildelemente wurden oft mit Bedeutung aufgeladen, die ohne Text nicht erkennbar war (Vortrag 1 und 4). Gerne wird visuell eher zu viel als zu wenig gezeigt. Das erschwert es dem Betrachter, die Bilder schnell zu verstehen.
Kein Multi-Storytelling
Das Unvermögen der KI, in einem Bild unterschiedliche Aspekte abzubilden ist auffällig. Beim Sketchnoting oder Graphic Recording wird dieses Stilmittel gerne verwendet, um einen logischen Bezug bzw. eine erzählerische Abfolge darzustellen, wie z.B. im letzten Vortrag mit dem Übergang von Unordnung zu Ordnung.
Kein klare Geschichte
Die größte Schwäche der KI ist daher in unseren Augen das Fehlen einer internen Geschichte, in der die Kernaussage erzählt wird. So ist es kein Graphic Recording mehr, sondern eine visuelle Untermalung der Vortragsgeschichte, die sich aber im Nachhinein daraus nicht mehr erschließen lässt.
Dennoch: Die KI-generierten Bilder könnten gut als Illustration für einzelne Aspekte in einem Vortrag genutzt werden.
Ausblick
Ist damit die KI als Graphic Recorder völlig gescheitert?
Wir sagen: „Nein“.
Wir können es uns gut vorstellen, dass ein zeichnerisch nicht begabter Zuhörer intelligent gemachte Prompts zusammenstellt, mit denen Bilder in kürzester Zeit passend zum Vortrag generiert werden. Das Titelbild dieses Blogeintrags wurde zum Beispiel auf diese Weise in nur 3 min mit DALL-E in Microsoft Designer generiert (Prompt schreiben, erste Iteration, Prompt anpassen, zweite Iteration).

Hier der genutzte Prompt in DALL-E: ein männlicher Illlustrator, ca. 60 Jahre alt, mit Brille, kämpft gegen eine zeichnende künstliche Intelligenz, style=comic
Prompten erfordert viel Sorgfalt und Zeit
Oft entspricht das erste Ergebnis vielleicht nicht ganz der eigenen Vorstellung, allerdings gibt es bereits heute die Möglichkeit Ausschnitte des Bildes von der KI korrigieren zu lassen. Ergänzt man das noch mit einer kurzen Textzusammenfassung, haben die KI-generierten Bilder eindeutig großes Potential.
Auf diese Weise könnte die vom Menschen angeleitete KI tatsächlich heute schon einen Graphic Recorder ersetzen, nur eben nicht automatisiert.
Die KI ist in der Bilderstellung etwas wiederspenstig
Doch in der KI-gestützten Bildgenerierung muss man sich bewusst sein, dass man hier versucht, ein „wildes Tier zu zähmen“. Die generierten Bilder haben einen großen Freiheitsgrad an Zufälligkeit und widersetzen sich gerne den Vorgaben. Ein Bild zu schaffen, das genau den eigenen Vorstellungen entspricht, ist unmöglich.
Je einfacher und zufälliger das Bild sein darf, umso eher wird das Ergebnis die Vorstellung treffen. Komplexe Sachverhalte, die aus Einzelaspekten bestehen und miteinander eine Geschichte erzählen, sind derzeit – unserer Meinung nach – nicht zu erstellen.
Auch handgemachtes Graphic Recording hat Limitierungen
Mir selbst ist in dieser Konferenz mit der zeitlichen Limitierung wieder deutlich vor Augen geführt worden, wie sehr man als Graphic Recorder von einer guten Vortragsstruktur und Klarheit der Aussagen abhängig ist. Ist das nicht gegeben, kann live und synchron kaum ein vernünftiges Recording stattfinden.
Im Nachhinein würde ich fast alle Bilder, die ich gezeichnet hatte, anders zeichnen, um die Kernaussage noch besser zu reflektieren. Aber diesen Luxus hat man im Live-Recording nicht. Als Graphic Recorder kann ich zwar versuchen, einen versteckten Sinn zu finden, aber es gilt wie überall: Input = Output. Auch für den Prompt, um die Bilder künstlich zu generieren.
Und hier noch ein paar Impressionen vom Event:
