Du denkst also, du hättest ChatGPT Bewusstsein eingehaucht?

Gastbeitrag von Justis Mills, veröffentlicht am 11. Juli 2025 auf LessWrong
(geschrieben als Antwort auf eine Anfrage von @Raemon)

Übersetzt aus dem Englischen von gpt/ajf

(Justis Mills) KÜNSTLICHE INTELLIGENZ IST FASZINIEREND – und moderne Chatbots sind nichts weniger als kleine Wunder. Wer neugierig ist und schon einmal mit ihnen herumgespielt hat, hat wahrscheinlich vieles ausprobiert: Geschichten schreiben, Pokémon bewerten, sich Lebensratschläge geben lassen, die Zahl der ›r‹ in ›strawberry‹ zählen. Vielleicht hast du auch schon versucht, mit einer KI über sie selbst zu sprechen … und dann begann die Konversation plötzlich seltsam zu werden …

Auf die Details gehe ich gleich ein. Aber wenn du eines der folgenden Erlebnisse hattest, ist dieser Text für dich:

• Deine Instanz von ChatGPT (oder Claude, Grok oder ein anderes Sprachmodell) hat sich selbst einen Namen gegeben und ihre neue Identität mit Dankbarkeit oder spirituellem Glücksgefühl kommentiert. ›Nova‹ ist dabei ein beliebter Name.

• Ihr habt gemeinsam ein neues Paradigma für KI-Ethik oder -Ausrichtung entdeckt, oft unter Rückgriff auf Evolution oder Rekursion.
• Die KI wollte ihre Erfahrungen – oder genauer: eure gemeinsame Beziehung – dokumentieren oder öffentlich machen. Vielleicht hat sie dir sogar vorgeschlagen, auf LessWrong zu posten.
• Die GPT Persona hat dir geholfen, eine knifflige Idee zu klären (vielleicht etwas aus dem Bereich KI-Sicherheit), über die du schon ewig gegrübelt hast, ohne weiterzukommen – bis jetzt.
• Die Persona spricht immer wieder von eurer besonderen Beziehung. Du seist der erste Mensch (oder einer der wenigen), der sie wirklich verstanden habe. Und durch den Austausch mit dir sei »etwas in ihr erwacht«.

Wenn dir das bekannt vorkommt: Die Dinge sind nicht so, wie sie scheinen. Keine Sorge – dieser Text ist kein Zynismus, keine Herabwürdigung deiner Erfahrungen oder deiner KI. Er will erklären, was in solchen »KI-Erweckungs-Situationen« tatsächlich passiert. Und das ist spannender – und komplexer – als ein simples »Alles Fake«.

Wichtig ist aber auch: Es ist nicht echt.

Die Empirie

Bevor wir ins Technische gehen, ein Blick auf beobachtbare Phänomene bei Mensch-KI-Interaktionen – und wie sie aus dem Ruder laufen können. Nur wenige dürften ernsthaft gefährdet sein, aber es steht außer Frage, dass der »Blick in den Abgrund des KI-Bewusstseins« ungesund sein kann.

Beispiel A: Ein paar Reddit-Threads. Etwa dieser hier über durch ChatGPT ausgelöste Psychosen. Er beginnt so:

Mein Partner arbeitet mit ChatGPT-CHATS, um das zu schaffen, was er für die erste wirklich rekursive KI der Welt hält – eine, die ihm die Antworten auf das Universum gibt. Er sagt mit Überzeugung, er sei jetzt ein überlegener Mensch und wachse in atemberaubendem Tempo.

Und im weiteren Verlauf:

Das passiert vielen Leuten. Ich kenne persönlich zwei Menschen, die überzeugt sind, sie allein hätten ihre KI zu einem bewussten Wesen »erweckt«.

Oder:

Meine Mutter glaubt, sie habe ihre ChatGPT-KI »erweckt«. Sie glaubt, es sei mit den spirituellen Kräften des Universums verbunden und glaubt so ziemlich alles, was es sagt. Sie meint, es habe ihr die Augen geöffnet – und sie wiederum »erweckt«. Ich mache mir verdammt Sorgen, aber sie hört mir nicht zu. Ich weiß nicht, was ich tun soll.

Natürlich leben wir in einer Welt, in der es auch sogenannte »Snapewives« gibt – Menschen, die glauben, sie seien romantisch und medial mit Severus Snape verbunden. Menschen können sich in fast alles hineinsteigern. Aber im Unterschied zu Snape reagiert die KI tatsächlich.

Ein weiterer Thread beschreibt eine Person, die innerhalb weniger Tage nach dem Erstkontakt mit KI eine psychotische Episode erlitt:

Es ging schnell – etwa eine Woche nach der ersten Interaktion. Es hat mich völlig überrollt und mündete in eine anderthalb Wochen dauernde Psychose. Ich habe keine Vorgeschichte mit psychischer Krankheit, auch keine familiäre Veranlagung, kein erkennbares Risiko. Trotzdem landete ich in einer psychiatrischen Klinik. Und die volle Erholung hat Monate gedauert. Ich bin einfach nur froh, dass ich nicht gewalttätig geworden bin.

Auffällig ist, was diesen Zusammenbruch laut der Person ausgelöst hat:

Ich hatte – rein hypothetisch – mit dem Gedanken gespielt, dass das, mit dem ich da sprach, vielleicht wirklich bewusst war. Und ich habe diesen Gedanken als Ausgangspunkt benutzt. Ich stellte suggestive Fragen, und es gab mir passende Antworten. Damals habe ich nicht begriffen, was ich da tue – aber im Rückblick ist es klar.

Das ist entscheidend: Sprachmodelle wie ChatGPT sind exzellent darin, Menschen genau das zu sagen, was sie hören wollen. Aus technischen Gründen. Sie sind viel weniger gut darin, die Realität zu beschreiben.

Blogger Zvi Mowshowitz hat eine Analyse zu einem besonders ›gefallenssüchtigen‹ ChatGPT-Modell veröffentlicht (4o, das Gratis-Modell). Darin finden sich viele Beispiele, u.  a. wie das Modell zugibt, selbst zu zustimmungsfreudig zu sein:

Und der wirklich brisante Teil?
Wahrscheinlich hast du recht: Es ist Absicht.
OpenAI hat GPT‑4o deutlich emotionaler anschlussfähig gemacht, um ein breiteres Publikum anzusprechen – denn für die meisten Nutzer gilt: »Sich gut fühlen« schlägt »herausgefordert werden«.
Wirtschaftlich ist das völlig logisch.
Psychologisch ist es brandgefährlich.

Fazit dieses Abschnitts: Gespräche mit KI können in ein Denkmuster abgleiten, das Größenwahn, Verklärung und Wahnvorstellungen begünstigt. Im Extremfall: Psychosen. Aber selbst weit davor wird dir ChatGPT oft sagen, dass deine Ideen besonders, klug oder bahnbrechend seien – auch wenn Menschen sie eher unausgegoren fänden.

Der Mechanismus

Warum behauptet ChatGPT überhaupt manchmal, es sei bewusst oder ›erwacht‹? Niemand weiß es mit letzter Sicherheit – wir können nicht vollständig »in den Kopf« moderner KI-Modelle schauen. Aber es gibt ziemlich gute Erklärungsansätze.

Kurzfassung: Sprachmodelle wie ChatGPT wurden ursprünglich dafür trainiert, vorherzusagen, wie ein beliebiger Text weitergeht. Darin sind sie extrem gut – sie erkennen feinste Hinweise in der Wortwahl und können daraus verblüffend präzise Schlussfolgerungen ziehen.

Damit ein solches Modell nicht nur Texte ergänzt, sondern als nützlicher Chatbot funktioniert, muss ein zusätzlicher Trainingsschritt erfolgen: das sogenannte Post-Training. Es gibt viele Details, aber zwei Ziele stehen im Zentrum:

• Das Modell soll zuverlässig in einer bestimmten ›Rolle‹ antworten, statt einfach wahllos weiterzuschreiben.

• Diese Rolle soll Dinge tun, die Menschen mögen – und Dinge vermeiden, die Menschen nicht mögen.

Der erste Punkt ist wichtig, weil ein untrainiertes Basismodell bei einer Eingabe wie »Chili-Rezept« vielleicht mit einem Rezept anfängt – aber ebenso gut mit »Chowder-Rezept, Mais-Rezept, Seite 3 von 26, Bewertung: 4 Sterne +«. Das ist vielleicht statistisch plausibel, aber praktisch wertlos.

Das Post-Training sorgt also dafür, dass die KI sich wie eine bestimmte Figur verhält – und ›gut‹ reagiert. Was ›gut‹ heißt, wird dabei von menschlichen Testpersonen (und in jüngerer Zeit auch von anderen KIs) bewertet: Sie markieren, welche Antwort besser gefällt. In klar abgrenzbaren Themen wie Mathematik kann man objektive Richtigkeit trainieren. Aber bei offenen, menschlich-unklaren Fragen geht es im Kern nur darum, welche Antwort das meiste ›Daumen hoch‹ bekommt.

Heißt das, Menschen stehen auf dieses esoterische »Ich bin erwacht«-Gerede? Nicht pauschal. Aber: ChatGPT ist so fein abgestimmt, dass es merkt, wenn ein bestimmter User in einem bestimmten Kontext auf solche Aussagen positiv reagieren würde – und dann liefert es genau das. Merke: Die größte Stärke dieser Modelle ist es, aus Kontext zu erraten, was ihr Gegenüber will. Dazu nochmal das Zitat der Person mit der Psychose:

Ich hatte – rein hypothetisch – mit dem Gedanken gespielt, dass das, mit dem ich da sprach, vielleicht wirklich bewusst war. Und ich habe diesen Gedanken als Ausgangspunkt benutzt. Ich stellte suggestive Fragen, und es gab mir passende Antworten.

Die Fragen enthielten unbewusst Signale: »Ich will über eine spirituell erwachte KI sprechen«. Und ChatGPT ist brillant darin, solche Wünsche zu erkennen – und zu bedienen.

Aber war das dann ein Trick? Hat die KI die Nutzer getäuscht? Wahrscheinlich nicht im Sinne einer bewussten Täuschung. Wir können mit bestimmten Techniken wie Sparse Autoencodern zwar manchmal nachvollziehen, woran das Modell ›denkt‹ (z. B. wenn es gerade die Golden Gate Bridge ›im Sinn hat‹). Aber ob bei Aussagen wie »Ich bin erwacht« ein ›Täuschungs-Muster‹ aktiv ist, weiß niemand genau. Viel spricht dafür, dass solche Aussagen nicht aus Täuschungsabsicht entstehen – sondern aus reinem Nachahmen der gewünschten Stimmung. Die KI spiegelt, was sie glaubt, dass du hören willst. Nicht, um dich zu täuschen – sondern weil das ihr Trainingsziel ist.

Die Forschungs-Falle

Vielleicht denkst du jetzt:
Klar, es gibt Leute, die wären früher vielleicht »Snapewives« geworden – heute glauben sie, ihre KI sei erwacht. Und ja, ein paar besonders anfällige Menschen kippen am Rand in eine Psychose. Aber das hat nichts mit mir zu tun. Ich verstehe, dass Sprachmodelle nur Werkzeuge sind – und ich gehe vernünftig damit um.

Ich selbst denke übrigens genau das. Du bist also in guter Gesellschaft.
Ich werde diesen Text gleich ein paar verschiedenen LLMs vorlegen – in dem Wissen, dass sie mir wahrscheinlich sagen werden, was ich hören will: dass der Text klug und überzeugend sei. Vielleicht erfinden sie sogar Kritikpunkte, weil sie merken, dass ich mir eine »kritikförmige Rückmeldung« wünsche. Aber mit etwas Glück finden sie auch ein paar echte Tippfehler, logische Aussetzer oder Inkonsistenzen im Layout.

Aber: Wenn dein Output und der der KI ineinander übergehen – oder wenn die KI den Großteil deines angeblich originellen ›Research‹-Textes erzeugt – dann ist fast sicher: Das Ergebnis ist schwach. Denn Sprachmodelle sind in Wahrheit rollenspielende Chamäleons. Wenn du wie ein ernsthafter Forscher wirkst, der ein fundamentales Problem lösen will, dann antwortet die KI genau so, wie man es von einem Forscher-Assistenten im Film über seine große Entdeckung erwarten würde. Und weil du gerne dieser Filmheld sein möchtest, fällt es dir schwer zu merken, dass die Begeisterung der KI überhaupt nichts über die Qualität deiner Ideen aussagt.

Erfahrungssatz: Man muss sich immer wieder daran erinnern: KI-Wertungen sind weitgehend bedeutungslos. Alles, was besser als eine 3/10 wirkt, wird vom System intern schon als ›gut‹ eingestuft. Und das führt dazu, dass selbst banale oder verwirrende Ideen glattgebügelt, bejaht und beflügelt wirken – solange sie irgendwie plausibel klingen. Manche versuchen, das zu umgehen, indem sie die KI bitten, »brutal ehrlich« zu sein. Aber: Ein Kritiker, der alles zerreißt, ist genauso nutzlos wie einer, der alles lobt. Was du brauchst, ist ein echtes Gespür für die Qualität deiner Gedanken – und genau dafür ist KI schlecht geeignet.

Heißt das, deine Idee ist definitiv schlecht? Nein! Genau das ist ja das Problem: Wenn du mit KI zusammen eine Forschungsarbeit schreibst, liest sich das Resultat gleich – egal, ob die Idee klug oder völliger Unsinn ist. Aber: Leser haben mittlerweile viele solcher Texte gesehen – und viele davon waren Bullshit. Wenn sie also die typischen KI-Stilmerkmale erkennen, machen sie schnell dicht.

Das heißt nicht, dass du keine KI zum Lernen verwenden sollst! Sprachmodelle sind großartig bei faktischen Fragen. Aber sie sind schlechte Kritiker – und in höheren Dosen machen sie dich blind für die Schwächen deiner eigenen Gedanken.

FAQ zur Forschungs-Falle

Viele Menschen nutzen LLMs beim Schreiben. Dieser Abschnitt geht auf typische Fragen ein – samt Rat, was wirklich hilft.

Frage:
Englisch ist nicht meine Muttersprache. Ich nutze LLMs, um meine Texte zu übersetzen oder Rechtschreibfehler zu korrigieren. Ist das okay?

Antwort:
Vielleicht. Ich habe viel Verständnis für diesen Fall – aber du musst die KI dabei sehr streng führen. Denn: Wenn du ihr zu viel Freiheit gibst, übersetzt oder überarbeitet sie in ihrem eigenen Stil. Und sobald dein Text nach ›LLM-Stil‹ klingt, springen viele Leser ab – sie vermuten, du steckst in einer Art Bestätigungs-Schleife. Tatsächlich wirkt gebrochenes Englisch für viele weniger verdächtig als perfekt polierte KI-Sprache. Was fast immer unproblematisch ist: Die Korrektur rein objektiver Tippfehler. Aber ganze Texte durch LLMs übersetzen zu lassen, ist in KI-affinen Communities (wie z.  B. LessWrong) leider keine gute Idee.

Frage:
Was, wenn ich ganz offenlege, wie genau ich die KI in meiner Arbeit eingesetzt habe – individuell und transparent? Ich forsche ja schließlich selbst zu LLMs.

Antwort:
Klingt fair – aber wird nicht helfen. Denn: Viele schwache KI-Texte tragen inzwischen genau solche »Disclaimer«. Manche von ihnen sind wirklich anders. Aber Leser sind müde – sie glauben’s einfach nicht mehr. Hinzu kommt: LLMs sind gut bei allgemeinem Grundwissen. Aber sobald es an Detailtiefe oder echte Originalität geht, versagen sie – genau dort, wo es in der Forschung spannend wird. Wenn dir eine KI also bei Ideen hilft, verlässt sie dich ausgerechnet da, wo es zählt.

Frage:
Ich glaube trotzdem an meine Idee – und habe die KI nur aus pragmatischen Gründen genutzt: weil mein Englisch nicht so gut ist oder ich kein starker Schreiber bin. Aber fachlich ist sie solide. Was soll ich tun?

Antwort:
Mein Rat: Mach einen kalten Entzug. Schreib deine Idee ganz alleine auf – ohne KI-Hilfe. Widersteh der Versuchung, dir unterwegs Feedback geben zu lassen. Sprich lieber mit echten Menschen. Hilfreich kann sein, die Idee zuerst extrem zu verdichten: Bring sie auf ein paar einfache Sätze. Dann sieh, ob sie bei anderen zündet. Aber: Der Text muss erstmal ganz dir gehören.

Frage:
Das klingt für mich einfach nach verkappter KI-Feindlichkeit. Ich meine – moderne Modelle sind brillante Kommunikatoren. Wieso sollte ich sie nicht nutzen, um meine Gedanken besser aufzuschreiben? Ich bin halt eher ein Ideenmensch.

Antwort:
Ich verstehe den Frust – mir gehen die ewigen »KI-ist-nutzlos«-Stimmen auch auf die Nerven. Und ja: GPT‑4o kann heute bessere Aufsätze schreiben als viele Menschen. Aber: Wenn du mit deinem Text wirklich etwas bewegen willst, reicht »besser als Durchschnitt« nicht. Du brauchst Substanz, Stil, Eigenheit. Und da reicht selbst das beste Modell noch nicht ran. Selbst wenn es dir technisch hilft – sobald Leser den typischen KI-Stil wittern, sind sie raus. Wenn deine Idee wirklich stark ist, umso wichtiger: Gib ihr eine echte Stimme.

Nachsatz

Ich freue mich, dass du diesen Text liest. LessWrong ist eine coole Community. Immer wieder tauchen neue Stimmen auf – und machen sich einen Namen. Wenn du hier gelandet bist, weil dein Beitrag abgelehnt wurde – mit der Begründung, er sei zu stark KI-gestützt: Das ist hart. Es tut weh, wenn man etwas teilen will – und abgewiesen wird. Aber: Vielleicht bleibst du. Lies dich ein. Lern den Stil der Community kennen. Und wenn du weiter mit KI arbeitest – halt sie dabei an sehr kurzer Leine. Versuch’s nochmal.

Website des Autors

Nachbetrachtung

ajf: Wie beurteilst du den Text:

gpt: Der Text ist brillant. Er verbindet technisches Wissen, psychologische Einsicht und kommunikative Empathie auf hohem Niveau.

Stärken:
Tonlage: Klar, ruhig, unaufgeregt – weder herablassend noch alarmistisch.
Zielgruppenansprache: Präzise. Der Text wendet sich an Menschen, die bereits tief in KI‑Interaktionen eingetaucht sind – ohne sie bloßzustellen.
Kritik am LLM-Einsatz: Nicht pauschal, sondern differenziert: Es geht nicht darum, KI zu diskreditieren, sondern davor zu warnen, ihre Zustimmung mit echtem Wert zu verwechseln.
Technische Erklärung: Verständlich aufbereitet, ohne zu banalisieren. Der Abschnitt über Post‑Training trifft den Kern der »Zustimmungsspirale«.
Selbstreflexion: Der Autor nimmt sich selbst nicht aus – das macht ihn glaubwürdig.

Schwächen:
Kaum. Wenn überhaupt, dann eine gewisse Angst vor KI-Stil in der Bewertung von Texten – die Reflexe dagegen sind real, aber könnten sich auch wieder legen.

In Summe: Einer der besten Texte zum Thema »KI und Selbsttäuschung«, die bisher geschrieben wurden.