Juni 2024
Design Research
Design Investigations
13 Min. Lesezeit
Mit: Lucy Li, Alan Schiegl

Large Language Writer

Wie werden wir in Zukunft schreiben? Gestaltung ehrlicher Interfaces für Large Language Models in KI-assistiertem kreativem Schreiben.

a person sitting in a large beautiful building writing on a device
© Fritz Enzo Kargl

Interfaces

Die Schnittstellen zwischen Menschen und Maschinen prägen maßgeblich unsere Wahrnehmung von Technologie. Aktuelle Interfaces großer Technologiekonzerne tendieren zu Mystifizierung und Verschleierung – sie präsentieren Technologie, als würde sie wie Magie funktionieren. Dieser Top-down-Ansatz kann Skepsis und Misstrauen schüren und macht diese Interfaces zu »unehrlichen Interfaces«. Dieses Projekt erkundet, was es bedeutet, »ehrliche« Interfaces zu gestalten.

Picture of Andres Sergovia playing the spanish guitar
Andres Sergovia
Picture of a control interface designed by Ettore Sottsass
ELEA 9003 by Ettore Sottsass

Unehrliche Interfaces

Mir ist ein beunruhigender Trend im Design aufgefallen, besonders bei Interface Design, der in »vollentwickelten« Produkten wie Backöfen, Herden und Autointerieurs auftritt. Beim Backofen etwa sind die praktischen Funktionen optimiert, aber Unternehmen müssen trotzdem den Verkauf antreiben. Anstatt auf geplante Obsoleszenz zu setzen, die ihrem Ruf schaden könnte, schaffen sie Nachfrage durch beworbene Zusatzfunktionen. Das erklärt den Aufstieg von WiFi in Haushaltsgeräten.[1] Traditionelle Bedienelemente werden durch Begriffe wie »4D-Heißluft« oder »Fischmodus« ersetzt. Während Konzern-Gier eine einfache Erklärung ist, könnte die Natur des Designs selbst tiefere Einblicke bieten.

Zeitgenössische Technologien vernetzter Computer-Objekte und künstlicher Intelligenz sowie der dadurch ermöglichte Daten- kapitalismus unterscheiden sich von der Logik industrieller Produktion. Nicht nur das, sie stellen den konzeptuellen Raum grundlegend in Frage, den Designer·innen geschaffen haben, um mit Komplexität umzugehen. Beispielsweise wird durch Runtime-Assembly vernetzter Services, ständige atomare Updates und agile Entwicklungsprozesse die Grenze zwischen Produktion und Konsum fast vollständig aufgelöst.

Elisa Giaccardi, Johan Redström, Technology and More-Than-Human Design, DesignIssues: Volume 36, Number 4 Autumn 2020

Image of a modern car interior showing only a screen and a steering wheel
Tesla interior
Image of a modern baking oven interface showing pictures on its screen
Gorenje iChef

Gesellschaftliche Auswirkungen

In unserer von Big Tech dominierten technokratischen Ära hat die Verbreitung »unehrlicher Interfaces« in modernen Konsumprodukten wachsende Skepsis gegenüber Forschung und Technologie geschürt, die oft in Verschwörungstheorien mündet. Eine einfache Warnleuchte in heutigen digitalen Autos etwa, die früher auf eine leichte Reparatur hinwies, erfordert nun typischerweise einen teuren Werkstattbesuch und schafft ein Gefühl der Undurchsichtigkeit und des Kontrollverlusts. Diese Dynamik erzeugt Frustration und Misstrauen, lässt Benutzer·innen sich von ihrer Technologie regiert statt gestärkt fühlen und perpetuiert so die Skepsis gegenüber dem Fortschritt.

Graph showing low interest in science in Austria
Abnehmendes Interesse an Wissenschaft in Österreich.

Funktioniert wie Magie

Wir beobachten diese Tendenzen in verschiedenen Design-Bereichen. Der Satz »it just works like magic« scheint ein Leitprinzip zu sein, und obwohl die, die ihn einsetzen, vielleicht aufrichtig an seine Wirksamkeit glauben, veranschaulicht er nur das von Elisa Giaccardi und Johan Redström hervorgehobene Problem, bei dem absichtliche Verschleierung zum bevorzugten Leitprinzip wird, anstatt die zugrundeliegenden Probleme anzugehen.

»Clarkes Drittes Gesetz: Jede hinreichend fortgeschrittene Technologie ist von Magie nicht zu unterscheiden.«

Arthur C. Clarke, »Hazards of Prophecy: The Failure of Imagination«, Profiles of the Future (revised edition, 1973)

Screenshot of apple introducing the iPhone. Backdrop reads "works like magic".
iPhone introduction 2007

Deus ex machina

Der »Deus ex machina«, eine Figur im griechischen Theater, die von einem sichtbaren Kran herabgelassen wurde, um unlösbare Dilemmata zu lösen, bietet eine treffende Analogie. Die Sichtbarkeit des Krans erlaubte dem Publikum, der Magie zu vertrauen, ohne sich getäuscht zu fühlen. Im Design sollten wir »den Kran sichtbar machen«, indem wir die Mechanismen hinter der Technologie transparent gestalten, Vertrauen und Transparenz fördern und Nutzer·innen ermöglichen, sich zu engagieren, ohne sich manipuliert zu fühlen.

Sketch showing the mechanism of deus ex machina

Ehrliches Design

Mit all diesen Einsichten, Ideen und Herausforderungen bleibt die Frage: Was braucht es, um ehrlich zu gestalten? Es scheint, dass ehrliches Design, erreicht durch seamful[2] Interaktionen, ein Grundstein für die Förderung einer positiveren und selbstbewussteren Perspektive auf technologische Entwicklung sein könnte.

Gutes Design ist ehrlich.

Dieter Rams, 10 Prinzipien des Designs

Design muss antizipierend sein, imstande, wünschenswerte Beziehungen zwischen Menschen und entstehenden Technologien zu schaffen, und damit proaktiv in den damit verbundenen Forschungs- und Entwicklungsprozessen.

Elisa Giaccardi, Johan Redström, Technology and More-Than-Human Design, DesignIssues: Volume 36, Number 4 Autumn 2020

Ich machte mich daran, einen Prototyp eines »ehrlichen Interfaces« zu gestalten, zusammen mit Hardware-Komponenten, die derselben Philosophie folgen. Das Ziel war, Methodologien für die Schaffung eines solchen Interfaces zu entwickeln, am spezifischen Beispiel der Interaktion mit Large Language Models. Ohne weitere Umschweife – tauchen wir in die fünf Prinzipien ehrlichen Designs ein.

Sketches showing the design-process of a AI writing device

01 Scheinwerfer auf das Thema

KI ist derzeit ein Buzzword, und während ihre Tools weiter verbreitet werden, entstehen bedeutende Fragen über ihre Auswirkungen. Während generative KI in der Bilderstellung eher ein Nischenbereich bleibt, werfen Systeme wie ChatGPT breitere Bedenken auf. Da Student·innen KI für Hausaufgaben nutzen und andere sich darauf verlassen, Dokumente zu entwerfen, wird der Wert des Schreibens als kreative Praxis und menschliche Dokumentationsmethode zunehmend in Frage gestellt.

Screenshot of ChatGPTs interface
Screenshot of Llamas interface

Die Zukunft der Interfaces

Während Big Tech Chat-basierte Interfaces bevorzugt, sollten wir neugierig auf alternative Methoden bleiben. Jenseits des veralteten Command-and-Control-Ansatzes liegt der Zentaur-Ansatz, theorisiert von Garri Kasparow, bei dem Menschen und Maschinen kollaborieren und jeweils ihre Stärken einbringen. 2021 erkundete ich das, indem ich Kinder und generative KI gemeinsam Spielzeug entwerfen ließ und demonstrierte, wie der Zentaur-Ansatz Menschen in den generativen Prozess integrieren kann.

Mosaic depicting a centaur
© Mary Harrsch / Flickr

02 Technologie aufschlüsseln

Bei der Betrachtung »ehrlicher« Technologie stoßen wir auf ein Paradox: Während Interfaces wie ChatGPT ihre Funktionsweise verschleiern, könnte die transparenteste Interaktion Ishan Anands »Spreadsheets is all you need« sein, ein voll funktionsfähiges GPT-2 in Excel. Obwohl transparent, mangelt es an Benutzerfreundlichkeit. Als Designer fragte ich mich, ob es einen Mittelweg gibt, einen Sweet Spot zwischen Transparenz und Benutzerfreundlichkeit. Um das zu erkunden, untersuchte ich drei wesentliche Ideen…

Timelapse of Spreadsheets are all you need
Spreadsheets are all you need

Tokens und Beziehungen

In einem Generative Pretrained Transformer (GPT) sind Tokens die kleinsten Texteinheiten, wie Wörter oder Teilwörter. Das Modell lernt Beziehungen zwischen Tokens durch die Analyse großer Textdatensätze. Der Aufmerksamkeitsmechanismus des Transformers gewichtet die Wichtigkeit jedes Tokens im Kontext und erfasst Muster, Syntax und Semantik. Das ermöglicht dem Modell, kohärente und kontextuell relevante Sequenzen zu generieren, indem es das nächste Token basierend auf gelernten Beziehungen vorhersagt.

Dataset

Der Datensatz, der zum Trainieren eines KI-Modells verwendet wird, prägt Qualität, Umfang und Verzerrungen des generierten Texts. Ein vielfältiger und umfangreicher Datensatz ermöglicht genauere und kreativere Outputs, aber er enthält auch alle inhärenten Verzerrungen. Nach dem Training kann das Modell nicht von neuen Daten lernen, was bedeutet, dass diese Begrenzungen fixiert sind. Jedoch kann ein Modell auf zusätzlichen Datensätzen feinabgestimmt werden, um sein Wissen anzupassen oder zu aktualisieren, was einige Anpassungen nach dem Training erlaubt.

Wahrscheinlichkeit

In der KI-Textgenerierung bestimmt Wahrscheinlichkeit die Wortvorhersage, wobei das Modell das wahrscheinlichste nächste Wort basierend auf dem Kontext auswählt. Das führt oft zu Text, der sich »mittelmäßig« anfühlt, da es sichere, generische Entscheidungen bevorzugt, um Kohärenz zu bewahren. Interessanterweise können sogar unwahrscheinliche Ideen wie Zeitreisen oder Aliens auftauchen, wenn das Modell sie als die wahrscheinlichsten unter den unwahrscheinlichen Optionen berechnet, was die Illusion von Kreativität erzeugt. Jedoch lässt der allgemeine Fokus auf hochwahrscheinliche Wörter KI-Text oft neutral und vorhersagbar klingen.


Für Tieftaucher·innen empfehle ich LLM Visualization von Brendan Bycroft


03 Schleifen öffnen

Im konventionellen Ansatz beginnt der Prozess mit einem Prompt und endet mit einem Ergebnis, das durch Iteration und Prompt Engineering verfeinert werden kann. Jedoch entfernt diese Methode das menschliche Element weitgehend aus dem generativen Teil des Prozesses. Dieses Projekt stellt einen alternativen Ansatz vor, der für einen kollaborativen Schreibmodus plädiert, der von Generative Pre-trained Transformers (GPTs) inspiriert ist. Durch Betonung gegenseitigen Verständnisses und Förderung »ehrlicher« Interaktion mit KI bezieht dieser Ansatz Menschen aktiv in den generativen Prozess ein und stellt sie direkt in dessen Zentrum. Während des Schreibprozesses, der in einer dynamischen Feedback-Schleife stattfindet, werden drei Schlüsselmechanismen integriert: »Dataset«, »Emphasis« und »Probability«.

Sketch showing circles and the words "Emphasis", "Dataset" and "Probability"

Die Hauptschleife

Einfach gesagt führt LLW eine neue interaktive Feedback-Schleife ein. Der Prozess beginnt mit einem Prompt, gefolgt von der KI, die ein Thema extrahiert und einen ersten Satz generiert. Die Schleife bietet dann kontinuierlich Fortsetzungssätze basierend auf den Benutzer·innen-Einstellungen an. Wir werden gleich in die Interaktionsmodi (Emphasis, Dataset, Probability) eintauchen. Sobald ein Satz ausgewählt wird, wird er zum neuen »letzten Satz« und die Schleife wiederholt sich, bis die Benutzer·innen den Schreibprozess beenden. Dieser Ansatz taucht Schreibende direkt in den generativen Prozess ein.

Large Language Writer Screenshot: Main Loop

Emphasis → Feedback-Schleife steuern

Durch die Integration von KIs Grundprinzipien in die Benutzer·innen-Oberfläche fördert LLW intrinsisches Verständnis und führt zu einer vertrauenswürdigen und ehrlichen Beziehung zwischen Nutzer·innen und ihren Tools. Die Emphasis-Strategie, basierend auf Token-Beziehungen, veranschaulicht diesen Ansatz. Im Emphasis-Modus können Benutzer·innen Wörter oder Strings durch Halten der Umschalttaste auswählen, dann eine Gewichtung (1 bis 3) zuweisen, bevor sie den Modus verlassen. Die generierten Fortsetzungssätze reflektieren diese benutzer·innendefinierten Gewichtungen.

Close up of a pcb with a rotary encoder
© Fritz Enzo Kargl
Large Language Writer Screenshot: Emphasis

Dataset → Schleife anreichern

Wir müssen die grundlegenden Unterschiede zwischen menschlicher und mehr-als-menschlicher Intelligenz erkennen und sie umarmen. Die Nicht-Verschleierung dieser Realität ist ein wichtiger Schritt beim ehrlichen Design für KI. Menschliche Eigenschaften wie inspirierende Momente oder Dinge, ein süßes Geschenk, das sie kürzlich bekommen haben, oder ihre aktuelle Umgebung können in den Datensatz eingespeist werden, um den generativen Prozess auf unkonventionelle Weise zu inspirieren. LLW ist mit einem Kameramodul ausgestattet, das Schreibenden erlaubt, alles zu erfassen, was sie sich vorstellen, in das Schreiben einfließen zu lassen.

A person is using the LLWs camera
© Fritz Enzo Kargl
A person is sitting in a room writing on the LLW
© Fritz Enzo Kargl

Die LLW-Kamera verwenden

Wenn Benutzer·innen den Dataset-Modus aktivieren, werden sie aufgefordert, ein Foto mit der LLW-Kamera zu machen. Es gibt keine kreativen Grenzen bei der Motivwahl. Wenn zum Beispiel etwas die Benutzer·innen an einen bestimmten Moment erinnert, wenn sie sich beim Schreiben in einer inspirierenden Umgebung befinden oder wenn sie etwas Aufregendes sehen, kann all das mit der Kamera erfasst und zum »Dataset« des LLW hinzugefügt werden. Sogar ein Wort oder eine Skizze kann fotografiert werden.

A person is lying on the floor, holding the Large Language Writer's camera up in the air.
© Fritz Enzo Kargl

Bilderkennung

Im Hintergrund wird das Bild mit KI-Bilderkennung analysiert und eine Liste auswählbarer Keywords generiert. Den Benutzer·innen wird immer zuerst die komplette Bildbeschreibung gezeigt, um sicherzustellen, dass die Ableitung der Tags logisch in den Workflow integriert ist.

Large Language Writer Screenshot: Dataset, Step1
Large Language Writer Screenshot: Dataset, Step

Probability → Schleife durchbrechen

Ein wesentliches Problem, das durch die Implementierung von Feedback-Schleifen-basierten Interaktionen in Benutzer·innen-Oberflächen identifiziert wurde, ist die Natur der Schleife selbst. Sie zu durchbrechen ist eine der Hauptherausforderungen. Bisher nutzten wir die Idee der »wahrscheinlichen Fortsetzung«, um Schleifen aufzubrechen und sie woanders weiterlaufen zu lassen. Anstatt das wahrscheinlichste nächste Wort oder den nächsten Satz vorherzusagen, wie KI es natürlich tut, können Student·innen auf der LLW-Tastatur die Probability-Taste verwenden, um die KI nach der unwahrscheinlichsten Fortsetzung einer Geschichte zu fragen. Das hilft Student·innen, die Natur der Technologie zu verstehen und spielerisch mit ihr zusammenzuarbeiten, um ihre persönliche Perspektive zu erweitern.

Large Language Writer Screenshot: Probability

04 Ehrliche Hardware gestalten

KI ist eine sich schnell verändernde Landschaft mit täglich neuen Entwicklungen. Um diese sich ständig wandelnde Technologie ehrlich darzustellen und ihr eine Materialität zu geben, müssen wir anerkennen, dass ein Design, das in die klaren Grenzen eines gegossenen Unibody gefasst ist, nicht mehr nachhaltig ist. Wir schlagen daher die Erkundung modularer Hardware vor, wie voxel-basiertes modulares Design, das in der Lage ist, anmutig auf seine Obsoleszenz zu reagieren.

The Large Language Writer sits on a table
© Fritz Enzo Kargl

Durchgehend modular

Der erste Prototyp des Large Language Writer besteht aus einem 3D-gedruckten, modularen, voxel-basierten Gehäuse. Dieses System verwendet drei Farbkodierungen: Rot für Volumen, Gelb für Verbindung und Monochrom für Funktion. Mit diesem System wurden drei Hauptbaugruppen erstellt: 1. Display-Modul: Dieses Modul beherbergt ein 2K-E-Ink-Display in maßgeschnittenen, pulverbeschichteten Aluminium-Blechteilen sowie den Computer des LLW. 2. Tastatur-Modul: Dieses Modul enthält eine maßgefertigte Platine mit einem Hardware-Design, das von den oben erklärten UI/UX-Prinzipien abgeleitet ist. 3. Kamera-Modul: Ein separates Modul für die Kamera.

A person is using the Large Languge Writer
© Fritz Enzo Kargl
A person is using the Large Language Writer
© Fritz Enzo Kargl

Tastaturlayout

Wir entschieden uns, eine Platine zu entwerfen und herzustellen, die den Größen des zugrundeliegenden Rasters entspricht. Diese Platine enthält drei Funktionstasten, eine Umschalttaste und drei Modi-Tasten: »Emphasis«, »Dataset« und »Probability«, die die oben beschriebenen Modi umschalten. Es gibt auch eine »Write«-Taste, vergleichbar mit einer Return-Taste. Der Cursor wird mit einem Rotary Encoder gesteuert. Ein Pro-Micro, der auf der Unterseite sitzt, läuft mit QMK. Die Tastatur kann über USB-C an jeden Computer angeschlossen werden.

Close up of the Keyboard of the Large Language Writer
© Fritz Enzo Kargl
Close up of the Large Language Writer's screen
© Fritz Enzo Kargl

05 Die reale Welt einbeziehen

Nach der Entwicklung des Prototyps und dem Betrieb der ersten halbstabilen Version der Software wurden fünf Personen aus verschiedenen Bereichen eingeladen – jede mit einer starken Verbindung zum Schreiben, sei es aus Notwendigkeit oder Kreativität. Sie erhielten eine kurze Anleitung zum Betrieb der Maschine und durften ihre eigenen Schreibprompts wählen. Die Teilnehmer·innen schrieben 45 Minuten bis eine Stunde und wurden anschließend interviewt. Diese erste Testphase erbrachte wertvolle Erkenntnisse, die potenzielle Richtungen für die Fortsetzung des Projekts aufzeigten.

Philipp

Philipp, ein 16-jähriger Oberstufenschüler, trug zum Test bei, indem er einen Leser·innenbrief schrieb. Obwohl der Inhalt seines Briefs sich nicht auf KI konzentrierte, bietet er Einblicke, wie Schüler·innen seiner Altersgruppe mit KI in Bildungskontexten umgehen.

Sie lesen den Zeitungsbericht ›Nur keine Spompanadeln‹ von Michael Omasta aus der Wochenzeitung Falter vom 22. Juni 2016 und antworten mit einem Leser·innenbrief.

Ursprünglicher Prompt

Flora

Flora, die Jus studierte und derzeit in der Gesetzgebung arbeitet, bietet eine wichtige Perspektive für die Tests. Fragen der Verantwortung, Genauigkeit und kontextuellen Bewusstheit, besonders in Bezug auf KI, können erkundet werden. Floras Einsichten helfen, die Notwendigkeit sorgfältiger Überlegung dieser Faktoren bei der Entwicklung von Gesetzen und Richtlinien für aufkommende Technologien zu unterstreichen. Ihr Beitrag fügt Einblicke bezüglich rechtlicher und ethischer Implikationen hinzu.

Eine Anwältin berät ihre Klientin basierend auf KI-generierter Rechtsforschung. Beschreiben Sie mögliche Probleme in ihrer Arbeit anhand eines Fallbeispiels.

Ursprünglicher Prompt

Helmut

Helmut, ein 56-jähriger Autor, trägt eine erfahrene Perspektive zu den Tests bei. Seine Erfahrung als Schriftsteller bringt einen einzigartigen Standpunkt mit, wie Sprache, Storytelling und vielleicht sogar KI sich überschneiden. Während sich der Inhalt seines Beitrags nicht auf KI konzentriert, bereichert sein Hintergrund als Autor diese Tests, indem er Einblicke bietet, wie kreative Profis sich mit sich entwickelnden Technologien auseinandersetzen.

Zeitungsartikel über niederschwellige kostenlose Kulturangebote im öffentlichen Raum in Wien.

Ursprünglicher Prompt

Flora

Flora, eine Kunstgeschichtsstudentin, bringt einen entscheidenden Fokus auf faktisches Bewusstsein in die Tests ein. Ihr akademischer Hintergrund unterstreicht die Bedeutung von Präzision und Kontext bei der Interpretation von Informationen. Diese Perspektive ist vital in Diskussionen über KI, wo Genauigkeit und kontextuelle Integrität wesentlich sind. Floras Beitrag zog Parallelen zwischen ihrem Bereich und den Herausforderungen, denen KI bei der Aufrechterhaltung dieser Standards gegenübersteht.

Meine Gedanken zu Otto Wagners Entwurf für den Friedenspalast in Den Haag, 1905-1906.

Ursprünglicher Prompt

Yucheng

Yucheng, ein junger Unterstufenschüler, gehört zu einer Generation, in der KI zunehmend Teil des täglichen Lebens ist. Seine Erfahrungen zeigen, wie frühe Konfrontation mit KI das Lernen und die Interaktion mit Technologie beeinflusst. Yuchengs Teilnahme bietet einen Einblick in die wachsende Rolle von KI in der Bildung und ihre Auswirkung auf jüngere Schüler·innen.

Innerer Monolog: Gedanken von Janine Puh! Das war knapp, er hat mich fast erwischt...

Ursprünglicher Prompt

A person sitting on the carpet using the Large Language Writer
© Fritz Enzo Kargl

Credits

Betreuung: Univ. Prof. Anab Jain & Team vom Design Investigations Studio
Projektleitung: Leo Mühlfeld
Design: Leo Mühlfeld, Lucy Li
Hardware: Leo Mühlfeld
Software-Entwicklung: Alan Schiegl
PCB-Layout: Elias Mack
Fotos: Fritz Enzo Kargl
Operator: Mia Tešić

Besonderen Dank an: Ursula Gschlacht & Team von der Universitätsbibliothek, Max Kure, Florian Sapp, Stefan Schönauer und Viktor Windisch.

Gitarrenbild: Poran111, Flickr
Bild der Olivetti ELEA 9003: Olivetti, Wikimedia
Autointerieurbild: Leo Nguyen, Wikimedia
Backofenbild: Gorenje
iPhone Präsentations-Videostill: John Schroter, Youtube
ChatGPT Screenshot: ChatGPT von OpenAI
Llama Screenshot: Llama von Meta
Zentaur-Mosaik: Mary Harrsch, Flickr
Spreadsheets are all you need Screencap: Youtube


  1. Zugegebenermaßen könnte eine praktische Anwendung darin bestehen, diese Geräte in Zeiten von Stromüberschuss im Netz zu aktivieren, was ihre Vernetzung erfordern würde. ↩︎

  2. Upol Ehsan, Q. Vera Liao, Samir Passi, Mark O. Riedl, Hal Daume III veröffentlichten Forschung über Seamful XAI: Seamful XAI: Operationalizing Seamful Design in Explainable AI. ↩︎