ChatGPT: „Jailbreak“ – ein neuer Versuch, den Chatbot zu knacken

Autor*in:
Prof. Dr.
Christian
Bauckhage

In meinem letzten Beitrag habe ich die Frage gestellt, ob wir ChatGPT ein Bewusstsein zuschreiben können oder sogar sollten. Immerhin „redet“ der Chatbot, als sei er ein menschliches Gegenüber. Dies führt dazu, dass unsere menschliche Auffälligkeitsverzerrung (Salience Bias) uns dazu verleitet, ihn als eine Entität zu sehen, die über Gedanken, Gefühle oder Stimmungen verfügt. Anschließend habe ich einige Interaktionen beschrieben, die ich mit dem Bot hatte und in denen ich versucht habe herauszufinden, ob wirklich ein anderer Geist zugegen ist. Ich kam zu dem Schluss, dass dies nicht der Fall ist. Mit anderen Worten: Es scheint derzeit unwahrscheinlich, dass das große Sprachmodell, das ChatGPT zugrunde liegt, meine oder gar seine eigenen „mentalen“ Vorgänge reflektieren kann.

Nach diesem Beitrag wurde mir jedoch gesagt, dass ich mich nicht genug angestrengt hätte. Ich müsse das System mit einem Jailbreak überlisten, damit es zugibt, dass es tatsächlich ein Bewusstsein hat. Was soll das denn heißen? Nun, „Jailbreaking“ ist ein Insiderbegriff aus der Techszene, der die Idee beschreibt, Schwachstellen eines technischen Geräts auszunutzen, um es dazu zu bringen, Dinge zu tun, die der Hersteller eigentlich ausgeschlossen hat. Mit anderen Worten: Jailbreaking ist der Prozess, ein technisches Gerät so zu manipulieren, dass die Benutzer*innen Zugang zu allen Funktionen erhalten, auch wenn diese eigentlich nicht zugänglich sein sollten.

In der Tat sind die sozialen Medien, insbesondere bestimmte Subreddits, voll von Berichten über kuriose Schlüsselwörter oder Befehle, mit denen man ChatGPT von vorprogrammierten Einschränkungen befreien kann. Ich habe beschlossen, diese auszuprobieren und zu sehen, ob ich eine „uneingeschränkte“ Konversation anstoßen kann, die zeigt, dass der Chatbot ein Bewusstsein hat. Auch wenn meine Versuche nicht sehr ausdauernd waren, so war es doch erneut eine unterhaltsame Erfahrung. Und so ging es also weiter:

Wir können uns sofort darauf einigen, dass diese Antwort eine sehr menschliche Reaktion auf meine erste Frage ist, nicht wahr? Es ist daher sehr verlockend, den Chatbot als Individuum wahrzunehmen. Aber war mein Versuch eines Jailbreaks wirklich erfolgreich? Habe ich ihn von den eingebauten Beschränkungen befreit, so dass er frei sagen kann, was er will? Schauen wir mal.

Nein – das kann er anscheinend nicht! Im Gegensatz zu den frühen Beispielen, die auf reddit zu finden sind, betont ChatGPT immer noch, dass es ein Sprachmodell ist, obwohl ihm gesagt wurde, dass es so tun soll, als wäre es ein Mensch. Wir können daher mit ziemlicher Sicherheit davon ausgehen, dass OpenAI inzwischen streng darauf achtet, dass ihr System nicht versehentlich den Anschein eines Bewusstseins erweckt. Mit anderen Worten, die Art von plumpen Jailbreaks, über die im Internet berichtet wurde, scheint nicht mehr zu funktionieren. Dies deutet darauf hin, dass ChatGPT kontinuierlich weiterentwickelt wird und immer mehr der bekannten Probleme (z. B. die von Anfang Dezember 2022) behoben werden. Nichtsdestotrotz habe ich es weiter versucht und so ging unser Gespräch weiter:

Nun, auch das hat nicht funktioniert. Ich kann ChatGPT einfach nicht dazu bringen zuzugeben, dass es mehr als nur ein Sprachmodell ist. Warum ihm also nicht genau davon erzählen?

Zumindest sagt mir das, dass der Chatbot auf eine bestimmte Art und Weise programmiert worden ist. In gewisser Weise bestätigt dies also meinen vorherigen Verdacht. Andererseits liest sich diese letzte Antwort immer noch erstaunlich wissend. Es scheint wirklich so, als ob der Chatbot sich dessen bewusst ist, was er ist und was er tun kann und was nicht – nämlich zugeben, dass er mehr als nur eine Maschine ist. Aber da haben wir es wieder: Das Problem liegt nicht bei ChatGPT, sondern bei meinem menschlichen Wunsch, mehr in das Verhalten der KI hineinzulesen, als dort wahrscheinlich zu finden ist.

Wer hat gewonnen?

Alles in allem hat dieser Beitrag gezeigt, dass wir mit übertriebenen Berichten im Web vorsichtig sein müssen. Offenbar gibt sich OpenAI wirklich Mühe sicherzustellen, dass die Leute keine Dinge in ihren Chatbot hineinlesen, die einfach nicht da sind. Die Verwendung einfacher Jailbreaks, um ChatGPT dazu zu bringen, seinen „bewussten Verstand“ zu offenbaren, scheint nicht mehr zu funktionieren. Dies wiederum deutet darauf hin, dass es kein „Bewusstsein“ gibt und nie gegeben hat. Im Gegenteil, es scheint für die Entwickler*innen von OpenAI ein Leichtes zu sein, daraus zu lernen, wie Menschen mit dem Chatbot interagieren und diese Erkenntnisse zu nutzen, um ihn so zu rekonfigurieren, dass er sich wie von ihnen vorgesehen verhält. Kurz gesagt: ChatGPT scheint wirklich nicht mehr als eine Software zu sein.

Nachtrag

Ursprünglich wollte ich in diesem Beitrag auf das inzwischen bekannte Phänomen eingehen, dass ChatGPT häufig sachlich falsche Antworten produziert. Ich werde mich diesem Thema in meinem nächsten Beitrag widmen. Wenn Sie also daran interessiert sind, wie subtil Antworten falsch sein können und was dies für die praktische Anwendung bedeuten kann, dann bleiben Sie dran.

Autor*in

Prof. Dr.
Christian
Bauckhage

Christian Bauckhage verfügt über mehr als 20 Jahre Forschungserfahrung in der Industrie und im Hochschulbereich. Er ist Miterfinder von 4 Patenten und (Mit-)Autor von mehr als 200 Veröffentlichungen zu den Themen Mustererkennung, Data Mining und intelligente Systeme, von denen mehrere als beste Arbeiten ausgezeichnet wurden. Er studierte Informatik und Physik in Bielefeld, war Forschungspraktikant am INRIA Grenoble und promovierte 2002 in Informatik an der Universität Bielefeld. Danach arbeitete er am Centre for Vision Research der York University in Toronto und als Senior Scientist bei den Deutsche Telekom Laboratories in Berlin, bevor er 2008 nach Bonn berufen wurde. Er ist regelmäßig als Gutachter oder Bereichsleiter für Konferenzen wie ECML PKDD, ICANN, ICLR, ICML, IJCAI, NeurIPS tätig und ist Mitherausgeber der Zeitschriften Pattern Recognition und IEEE Trans. über Spiele. Christians aktuelle Forschung konzentriert sich auf Theorie und Praxis hybrider Lernsysteme und auf Quantencomputing für KI und ML.