Juni 2024
Design Research
Design Investigations
12 Min. Lesezeit
Mit: Lucy Li, Alan Schiegl

Large Language Writer

Wie schreiben wir in Zukunft? Gestaltung von »honest« Interfaces für Large Language Models im KI-gestützten kreativen Schreiben.

a person sitting in a large beautiful building writing on a device
© Fritz Enzo Kargl

Interfaces

Die Schnittstellen zwischen Menschen und Maschinen prägen entscheidend, wie wir Technologie wahrnehmen. Aktuelle Interfaces großer Technologieunternehmen setzen oft auf Mystifizierung und Verschleierung – sie präsentieren Technologie als Magie. Dieser Top-down-Ansatz weckt Skepsis und Misstrauen. Ich nenne solche Interfaces »Unehrliche Interfaces«. Dieses Projekt erforscht, was es bedeutet, »ehrliche« Interfaces zu gestalten.

Picture of Andres Sergovia playing the spanish guitar
Andres Sergovia
Picture of a control interface designed by Ettore Sottsass
ELEA 9003 by Ettore Sottsass

Unehrliche Interfaces

Mir fällt ein beunruhigender Trend im Design auf, besonders bei Interfaces »ausgereifter« Produkte wie Backöfen, Herden und Autointerieurs. Nehmen wir den Backofen: Seine praktischen Funktionen sind optimiert, aber Unternehmen müssen trotzdem verkaufen. Statt auf geplante Obsoleszenz zu setzen, die ihrem Ruf schaden könnte, schaffen sie Nachfrage durch beworbene Features. Das erklärt den Aufstieg von WLAN in Haushaltsgeräten.[1] Klassische Bedienelemente werden durch Begriffe wie »4D-Heat« oder »Fischmodus« ersetzt. Unternehmensgewinn ist eine einfache Erklärung – doch das Wesen des Designs selbst bietet tiefere Einblicke.

Zeitgenössische Technologien vernetzter rechnerischer Dinge und künstlicher Intelligenz, sowie der von ihnen ermöglichte Datenkapitalismus, unterscheiden sich von der Logik industrieller Produktion. Nicht nur das, sie stellen den konzeptionellen Raum grundlegend in Frage, den Designer*innen geschaffen haben, um mit Komplexität umzugehen. Bei der Laufzeit-Assemblierung vernetzter Services, konstanten atomaren Updates und agilen Entwicklungsprozessen ist die Grenze zwischen Produktion und Konsum fast vollständig aufgelöst.

Elisa Giaccardi, Johan Redström, Technology and More-Than-Human Design, DesignIssues: Volume 36, Number 4 Autumn 2020

Image of a modern car interior showing only a screen and a steering wheel
Tesla interior
Image of a modern baking oven interface showing pictures on its screen
Gorenje iChef

Gesellschaftliche Auswirkungen

In unserer technokratischen Ära, die von Big Tech dominiert wird, haben »Unehrliche Interfaces« in modernen Konsumprodukten wachsende Skepsis gegenüber Forschung und Technologie geschürt – oft bis hin zu Verschwörungstheorien. Eine einfache Warnleuchte in heutigen digitalen Autos, die früher auf eine leichte Reparatur hindeutete, führt heute meist zu teuren Werkstattbesuchen. Das schafft Intransparenz und Kontrollverlust. Diese Dynamik nährt Frustration und Misstrauen – Nutzer*innen fühlen sich von ihrer Technologie regiert, statt von ihr ermächtigt. So verstärkt sich die Skepsis gegenüber dem Fortschritt.

Graph showing low interest in science in Austria
Decreased interest in science in Austria.

Funktioniert wie Magie

Diese Tendenzen beobachten wir in verschiedenen Designbereichen. Der Satz »Es funktioniert einfach wie Magie« scheint ein Leitprinzip zu sein. Auch wenn die Anwender*innen ehrlich an dessen Wirksamkeit glauben, verdeutlicht er nur das Problem, das Elisa Giaccardi und Johan Redström aufzeigen: Absichtliche Verschleierung wird zum bevorzugten Leitprinzip, statt die zugrundeliegenden Probleme anzugehen.

»Clarkes drittes Gesetz: Jede hinreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden.«

Arthur C. Clarke, "Hazards of Prophecy: The Failure of Imagination", Profiles of the Future (revised edition, 1973)

Screenshot of apple introducing the iPhone. Backdrop reads "works like magic".
iPhone introduction 2007

Deus ex machina

Der »Deus ex machina« – eine Figur im griechischen Theater, die sichtbar per Kran herabgelassen wurde, um unlösbare Dilemmata zu lösen – bietet eine überzeugende Analogie. Die Sichtbarkeit des Krans ermöglichte es dem Publikum, der Magie zu vertrauen, ohne sich getäuscht zu fühlen. Im Design sollten wir »den Kran zeigen«, indem wir die Mechanismen hinter der Technologie sichtbar machen. Das fördert Vertrauen und Transparenz und ermöglicht Nutzer*innen, sich zu engagieren, ohne sich manipuliert zu fühlen.

Sketch showing the mechanism of deus ex machina

Ehrliches Design

Mit all diesen Erkenntnissen, Ideen und Herausforderungen bleibt die Frage: Was braucht es, um ehrlich zu gestalten? Es scheint, dass ehrliches Design durch nahtlose[2] Interaktionen ein Eckpfeiler für eine positivere und selbstbewusstere Perspektive auf technologische Entwicklung sein könnte.

Gutes Design ist ehrlich.

Dieter Rams, 10 Prinzipien des Designs

Design muss antizipatorisch sein, wünschenswerte Beziehungen zwischen Menschen und aufkommenden Technologien schaffen können und somit proaktiv in den damit verbundenen Forschungs- und Entwicklungsprozessen sein.

Elisa Giaccardi, Johan Redström, Technology and More-Than-Human Design, DesignIssues: Volume 36, Number 4 Autumn 2020

Ich machte mich daran, einen Prototyp eines »ehrlichen Interfaces« zu gestalten, zusammen mit Hardwarekomponenten, die derselben Philosophie folgen. Das Ziel war, Methoden zur Entwicklung eines solchen Interfaces zu entwickeln – am spezifischen Beispiel der Interaktion mit Large Language Models. Ohne weitere Umschweife: die fünf Prinzipien ehrlichen Designs.

Sketches showing the design-process of a AI writing device

01 Scheinwerfer aufstellen

KI ist derzeit ein Buzzword, und während ihre Tools verbreiteter werden, entstehen wichtige Fragen über ihre Auswirkungen. Während generative KI in der Bildgestaltung noch relativ nischig bleibt, werfen Systeme wie ChatGPT breitere Bedenken auf. Da Student*innen KI für Hausaufgaben nutzen und andere sie zum Verfassen von Dokumenten verwenden, wird der Wert des Schreibens als kreative Praxis und menschliche Dokumentationsmethode zunehmend hinterfragt.

Screenshot of ChatGPTs interface
Screenshot of Llamas interface

Die Zukunft des Interfaces

Während Big Tech Chat-basierte Interfaces bevorzugt, sollten wir neugierig auf alternative Methoden bleiben. Jenseits des veralteten Kommando-und-Kontrolle-Ansatzes liegt der Zentauren-Ansatz, theoretisiert von Garri Kasparow, bei dem Menschen und Maschinen kollaborieren und jeweils ihre Stärken einbringen. 2021 erforschte ich das, indem ich Kinder und generative KI gemeinsam Spielzeug gestalten ließ – ein Beispiel dafür, wie der Zentauren-Ansatz Menschen in den generativen Prozess integrieren kann.

Mosaic depicting a centaur
© Mary Harrsch / Flickr

02 Die Technik aufschlüsseln

Bei der Betrachtung »ehrlicher« Technologie stoßen wir auf ein Paradox: Während Interfaces wie ChatGPT ihre Funktionsweise verschleiern, könnte die transparenteste Interaktion Ishan Anands »Spreadsheets is all you need« sein – ein voll funktionsfähiges GPT-2 in Excel. Obwohl transparent, fehlt ihm die Benutzerfreundlichkeit. Als Designer fragte ich mich, ob es einen Mittelweg gibt, einen Sweet Spot zwischen Transparenz und Benutzerfreundlichkeit. Um das zu erforschen, untersuchte ich drei wesentliche Ideen...

Timelapse of Spreadsheets are all you need
Spreadsheets are all you need

Tokens und Beziehungen

In einem Generative Pretrained Transformer (GPT) sind Tokens die kleinsten Texteinheiten, wie Wörter oder Teilwörter. Das Modell lernt Beziehungen zwischen Tokens durch die Analyse großer Textdatensätze. Der Aufmerksamkeitsmechanismus des Transformers gewichtet die Wichtigkeit jedes Tokens im Kontext und erfasst Muster, Syntax und Semantik. Das ermöglicht dem Modell, kohärente und kontextuell relevante Sequenzen zu generieren, indem es das nächste Token basierend auf gelernten Beziehungen vorhersagt.

Datensatz

Der Datensatz zum Trainieren eines KI-Modells prägt Qualität, Umfang und Verzerrungen seines generierten Texts. Ein vielfältiger und umfangreicher Datensatz ermöglicht präzisere und kreativere Ergebnisse, aber er bettet auch inhärente Verzerrungen ein. Nach dem Training kann das Modell nicht aus neuen Daten lernen – diese Einschränkungen sind festgeschrieben. Allerdings kann ein Modell auf zusätzlichen Datensätzen feinabgestimmt werden, um sein Wissen anzupassen oder zu aktualisieren, was einige Anpassungen nach dem Training ermöglicht.

Wahrscheinlichkeit

Bei der KI-Textgenerierung treibt Wahrscheinlichkeit die Wortvorhersage an – das Modell wählt das wahrscheinlichste nächste Wort basierend auf dem Kontext. Das führt oft zu Text, der sich »mittelmäßig« anfühlt, da es sichere, generische Entscheidungen bevorzugt, um Kohärenz zu wahren. Interessanterweise können sogar unwahrscheinliche Ideen wie Zeitreisen oder Aliens entstehen, wenn das Modell sie als wahrscheinlichste unter unwahrscheinlichen Optionen berechnet – das erzeugt die Illusion von Kreativität. Der allgemeine Fokus auf hochwahrscheinliche Wörter lässt KI-Text jedoch oft neutral und vorhersagbar klingen.


Für Tiefertauchende empfehle ich LLM Visualization von Brendan Bycroft


03 Schleifen öffnen

Im konventionellen Ansatz beginnt der Prozess mit einem Prompt und endet mit einem Resultat, das durch Iteration und Prompt Engineering verfeinert werden kann. Diese Methode entfernt jedoch das menschliche Element weitgehend aus dem generativen Teil des Prozesses. Dieses Projekt stellt einen alternativen Ansatz vor, der für einen kollaborativen Schreibmodus inspiriert von Generative Pre-trained Transformers (GPTs) plädiert. Durch Betonung gegenseitigen Verständnisses und Förderung »ehrlicher« Interaktion mit KI bezieht dieser Ansatz Menschen aktiv in den generativen Prozess ein und stellt sie direkt in dessen Zentrum. Während des Schreibprozesses, der in einer dynamischen Feedbackschleife stattfindet, sind drei Schlüsselmechanismen integriert: »Datensatz«, »Betonung« und »Wahrscheinlichkeit«.

Sketch showing circles and the words "Emphasis", "Dataset" and "Probability"

Die Hauptschleife

Einfach gesagt führt LLW eine neue interaktive Feedbackschleife ein. Der Prozess beginnt mit einem Prompt, gefolgt von der KI-Extraktion eines Themas und der Generierung eines ersten Satzes. Die Schleife bietet dann kontinuierlich Fortsetzungssätze basierend auf den Nutzer*innen-Einstellungen. Wir werden die Interaktionsmodi (Betonung, Datensatz, Wahrscheinlichkeit) gleich vertiefen. Sobald ein Satz ausgewählt ist, wird er zum neuen »letzten Satz«, und die Schleife wiederholt sich, bis die Nutzer*in den Schreibprozess abschließt. Dieser Ansatz taucht Schreibende direkt in den generativen Prozess ein.

Large Language Writer Screenshot: Main Loop

Betonung → Die Feedbackschleife steuern

Durch die Integration der KI-Kernprinzipien in die Benutzeroberfläche fördert LLW intrinsisches Verständnis und führt zu einer vertrauensvollen und ehrlichen Beziehung zwischen Nutzer*innen und ihren Tools. Die Betonungs-Strategie, basierend auf Token-Beziehungen, verkörpert diesen Ansatz. Im Betonungsmodus können Nutzer*innen Wörter oder Strings durch Halten der Shift-Taste auswählen, dann ein Gewicht (1 bis 3) zuweisen, bevor sie den Modus verlassen. Die generierten Fortsetzungssätze spiegeln diese nutzer*innendefinierten Gewichtungen wider.

Close up of a pcb with a rotary encoder
© Fritz Enzo Kargl
Large Language Writer Screenshot: Emphasis

Datensatz → Die Schleife informieren

Wir müssen die grundlegenden Unterschiede zwischen menschlicher und mehr-als-menschlicher Intelligenz erkennen und sie annehmen. Die Nicht-Verschleierung dieser Realität ist ein wichtiger Schritt beim ehrlichen Gestalten für KI. Menschliche Eigenschaften wie inspirierende Momente oder Dinge, ein süßes Geschenk, das sie kürzlich bekommen haben, oder ihre aktuelle Umgebung können in den Datensatz eingespeist werden, um den generativen Prozess auf unkonventionelle Weise zu inspirieren. LLW ist mit einem Kameramodul ausgestattet, das Schreibenden ermöglicht, alles zu erfassen, was sie sich vorstellen, in das Schreiben einfließen zu lassen.

A person is using the LLWs camera
© Fritz Enzo Kargl
A person is sitting in a room writing on the LLW
© Fritz Enzo Kargl

Die LLW-Kamera nutzen

Wenn Nutzer*innen den Datensatz-Modus aktivieren, werden sie aufgefordert, mit der LLW-Kamera ein Bild aufzunehmen. Bei der Motivwahl gibt es keine kreativen Grenzen. Wenn beispielsweise etwas die Nutzer*in an einen bestimmten Moment erinnert, wenn sie sich beim Schreiben in einer inspirierenden Umgebung befinden oder wenn sie etwas Aufregendes sehen – all das kann mit der Kamera erfasst und dem »Datensatz« der LLW hinzugefügt werden. Sogar ein Wort oder eine Skizze kann fotografiert werden.

A person is lying on the floor, holding the Large Language Writer's camera up in the air.
© Fritz Enzo Kargl

Bilderkennung

Im Hintergrund wird das Bild mit KI-Bilderkennung analysiert und eine Liste auswählbarer Schlagwörter generiert. Der/die Nutzer*in sieht immer vorher die vollständige Bildbeschreibung, um sicherzustellen, dass die Ableitung der Tags logisch in den Arbeitsablauf integriert ist.

Large Language Writer Screenshot: Dataset, Step1
Large Language Writer Screenshot: Dataset, Step

Wahrscheinlichkeit → Die Schleife durchbrechen

Ein wesentliches Problem bei der Implementierung feedbackschleifen-basierter Interaktionen in Benutzeroberflächen ist die Natur der Schleife selbst. Sie zu durchbrechen ist eine der Hauptherausforderungen. Bis jetzt nutzten wir die Idee der »wahrscheinlichen Fortsetzung«, um Schleifen aufzubrechen und sie woanders weiterlaufen zu lassen. Anstatt das wahrscheinlichste nächste Wort oder den wahrscheinlichsten Satz vorherzusagen, wie KI es natürlich macht, können Student*innen auf der LLW-Tastatur die Wahrscheinlichkeitstaste nutzen, um die KI nach der unwahrscheinlichsten Fortsetzung einer Geschichte zu fragen. Das hilft Student*innen, die Natur der Technologie zu verstehen und mit ihr zu kollaborieren, um spielerisch ihre persönliche Perspektive zu erweitern.

Large Language Writer Screenshot: Probability

04 Ehrliche Hardware gestalten

KI ist eine sich schnell verändernde Landschaft mit täglich neuen Entwicklungen. Um diese sich ständig wandelnde Technologie ehrlich zu repräsentieren und ihr eine Materialität zu geben, müssen wir anerkennen, dass ein Design, das in die klaren Grenzen eines gegossenen Unibody eingegossen ist, nicht mehr nachhaltig ist. Wir schlagen daher die Erforschung modularer Hardware vor, wie voxel-basiertes modulares Design, das anmutig auf seine Obsoleszenz reagieren kann.

The Large Language Writer sits on a table
© Fritz Enzo Kargl

Durchgehend modular

Der erste Prototyp des Large Language Writers besteht aus einem 3D-gedruckten, modularen, voxel-basierten Gehäuse. Dieses System nutzt drei Farbcodierungen: Rot für Volumen, Gelb für Verbindung und Monochrom für Funktion. Mit diesem System entstanden drei Hauptbaugruppen: 1. Display-Modul: Dieses Modul beherbergt ein 2K-E-Ink-Display in maßgeschnittenen, pulverbeschichteten Aluminium-Blechteilen, zusammen mit dem Computer der LLW. 2. Tastatur-Modul: Dieses Modul enthält eine maßgefertigte Leiterplatte mit einem Hardware-Design, das aus den oben erklärten UI/UX-Prinzipien abgeleitet ist. 3. Kamera-Modul: Ein separates Modul für die Kamera.

A person is using the Large Languge Writer
© Fritz Enzo Kargl
A person is using the Large Language Writer
© Fritz Enzo Kargl

Tastaturlayout

Wir entschieden uns, eine Leiterplatte zu entwerfen und zu fertigen, die den Größen des zugrundeliegenden Rasters entspricht. Diese Leiterplatte umfasst drei Funktionstasten, eine Shift-Taste und drei Modustasten: »Betonung«, »Datensatz« und »Wahrscheinlichkeit«, welche die oben beschriebenen Modi umschalten. Es gibt auch eine »Schreiben«-Taste, vergleichbar mit einer Return-Taste. Der Cursor wird mit einem Rotary Encoder gesteuert. Ein Pro-Micro, der auf der Unterseite sitzt, läuft mit QMK. Die Tastatur kann über USB-C an jeden Computer angeschlossen werden.

Close up of the Keyboard of the Large Language Writer
© Fritz Enzo Kargl
Close up of the Large Language Writer's screen
© Fritz Enzo Kargl

05 Die reale Welt einbeziehen

Nach der Entwicklung des Prototyps und dem Betrieb der ersten halbstabilen Software-Version luden wir fünf Personen aus verschiedenen Bereichen ein – jede mit einer starken Verbindung zum Schreiben, sei es aus Notwendigkeit oder Kreativität. Sie erhielten eine kurze Einführung in die Bedienung der Maschine und durften ihre eigenen Schreibprompts wählen. Die Teilnehmer*innen schrieben 45 Minuten bis eine Stunde und wurden anschließend interviewt. Diese erste Testphase lieferte wertvolle Erkenntnisse und informierte potentielle Richtungen für die Projektfortsetzung.

Philipp

Philipp, ein 16-jähriger Oberstufenschüler, trug zum Test bei, indem er einen Leser*innenbrief schrieb. Obwohl der Inhalt seines Briefs nicht auf KI fokussiert war, gibt er Einblick, wie Student*innen seiner Altersgruppe mit KI in Bildungskontexten umgehen.

Sie lesen den Zeitungsbericht »Nur keine Spompanadeln« von Michael Omasta aus der Wochenzeitung Falter vom 22. Juni 2016 und antworten mit einem Leser*innenbrief.

Initial Prompt

Flora

Flora, die Jus studierte und derzeit in der Gesetzgebung arbeitet, bietet eine wichtige Perspektive für die Tests. Fragen der Verantwortung, Genauigkeit und kontextuellen Bewusstheit, besonders in Bezug auf KI, können erforscht werden. Floras Einblicke helfen, die Notwendigkeit sorgfältiger Berücksichtigung dieser Faktoren bei der Entwicklung von Gesetzen und Richtlinien für aufkommende Technologien zu unterstreichen. Ihr Beitrag fügt Erkenntnisse zu rechtlichen und ethischen Implikationen hinzu.

Eine Anwältin berät ihren Klienten basierend auf KI-generierter Rechtsrecherche. Beschreiben Sie mögliche Probleme in ihrer Arbeit anhand eines Fallbeispiels.

Initial Prompt

Helmut

Helmut, ein 56-jähriger Autor, trägt eine erfahrene Perspektive zu den Tests bei. Seine Erfahrung als Schriftsteller bringt einen einzigartigen Blickwinkel darauf mit, wie Sprache, Storytelling und vielleicht sogar KI sich überschneiden. Während der Inhalt seines Beitrags nicht auf KI fokussiert ist, bereichert sein Hintergrund als Autor diese Tests, indem er Einblicke darüber bietet, wie Kreativprofis mit sich entwickelnden Technologien umgehen.

Zeitungsartikel über niederschwellige kostenlose Kulturangebote im öffentlichen Raum in Wien.

Initial Prompt

Flora

Flora, eine Kunstgeschichtsstudentin, bringt einen wichtigen Fokus auf faktisches Bewusstsein in die Tests ein. Ihr akademischer Hintergrund unterstreicht die Bedeutung von Präzision und Kontext bei der Interpretation von Informationen. Diese Perspektive ist vital in Diskussionen über KI, wo Genauigkeit und kontextuelle Integrität wesentlich sind. Floras Beitrag zog Parallelen zwischen ihrem Feld und den Herausforderungen, denen KI bei der Wahrung dieser Standards gegenübersteht.

Meine Gedanken zu Otto Wagners Entwurf für den Friedenspalast in Den Haag, 1905-1906.

Initial Prompt

Yucheng

Yucheng, ein junger Unterstufenschüler, gehört einer Generation an, für die KI zunehmend Teil des täglichen Lebens ist. Seine Erfahrungen zeigen, wie frühe KI-Exposition das Lernen und die Interaktion mit Technologie beeinflusst. Yuchengs Teilnahme bietet einen Einblick in die wachsende Rolle der KI in der Bildung und ihre Auswirkungen auf jüngere Student*innen.

Innerer Monolog: Gedanken von Janine Puh! Das war knapp, er hätte mich fast erwischt...

Initial Prompt

A person sitting on the carpet using the Large Language Writer
© Fritz Enzo Kargl

Credits

Betreuung: Univ. Prof. Anab Jain & Team vom Design Investigations Studio
Projektleitung: Leo Mühlfeld
Design: Leo Mühlfeld, Lucy Li
Hardware: Leo Mühlfeld
Software-Entwicklung: Alan Schiegl
PCB Layout: Elias Mack
Fotos: Fritz Enzo Kargl
Operator: Mia Tešić

Besonderer Dank an: Ursula Gschlacht & Team von der Universitätsbibliothek, Max Kure, Florian Sapp, Stefan Schönauer und Viktor Windisch.

Gitarrenbild: Poran111, Flickr
Bild der Olivetti ELEA 9003: Olivetti, Wikimedia
Autoinnenraum-Bild: Leo Nguyen, Wikimedia
Backofen-Bild: Gorenje
iPhone-Präsentations-Video-Still: John Schroter, Youtube
ChatGPT-Screenshot: ChatGPT von OpenAI
Llama-Screenshot: Llama von Meta
Zentaur-Mosaik: Mary Harrsch, Flickr
Spreadsheets are all you need Screenshot: Youtube


  1. Zugegebenermaßen könnte eine praktische Anwendung darin bestehen, diese Geräte während Überschussperioden im Stromnetz zu aktivieren, was eine Vernetzung erfordern würde. ↩︎

  2. Upol Ehsan, Q. Vera Liao, Samir Passi, Mark O. Riedl, Hal Daume III veröffentlichten Forschung zu Seamful XAI: Seamful XAI: Operationalizing Seamful Design in Explainable AI. ↩︎