Es ist nicht ok, Kundendaten an ChatGPT zu senden

17. Oktober 2023

Michael Fieg

Nachdem mir bereits der zweite Kunde innerhalb einer Woche von „großartigen Use Cases mit ChatGPT im Customer Service“ berichtet hat, hier ein beherzter Appell: Seid Ihr eigentlich wahnsinnig?

Wie kommt Ihr eigentlich auf die Idee, dass es „ok und innovativ ist“, E-Mails von Euren Kunden inklusive aller Kundendaten an einen LLM-(= Large Language Model) Server in den USA zu senden? Woher kommen eigentlich die vielen windigen „KI-Experten“ in unseren News Feeds, die uns das auch noch empfehlen? Das ist mir echt unbegreiflich.

Glücklicherweise führen Kunden nun die ersten Projekte durch, wo „private“ LLM im Einsatz sind und bei denen sichergestellt wird, dass die Daten geschützt sind.

Nachfolgend einige Risiken, die sich aus dem Einsatz von LLM-Tools für Unternehmen ergeben. Sie wurden im Rahmen des Gartner D&A Summits in London in diesem Jahr in mehreren Expert-Sessions vorgestellt und diskutiert:

Ungenaue und erfundene Antworten

Das vielleicht am weitesten verbreitete Problem: LLM-Tools liefern häufig falsche Informationen. Die Art der Ungenauigkeit variiert. In einigen Fällen geben diese Tools Antworten, die nur teilweise wahr sind. Beispielsweise machte Googles KI-Chatbot Bard kürzlich Schlagzeilen, weil er fälschlicherweise behauptete, dass James Webb Space Telescope habe die ersten Bilder von Exoplaneten aufgenommen.

Darüber hinaus werden LLMs nur mit Daten bis zu einem bestimmten Zeitpunkt trainiert (z. B. ChatGPT nur mit Daten bis 2021), sodass diese Tools zum Zeitpunkt der Erstellung dieses Dokuments nur eine begrenzte Aktualität aufweisen. Zukünftige LLMs werden wahrscheinlich mit aktuelleren Daten trainiert werden, aber sie werden immer noch informationelle Einschränkungen enthalten.

Neben Ungenauigkeiten sind LLM-Tools auch anfällig für „Halluzinationen“, einschließlich erfundener Antworten, die falsch sind, und nichtexistierender juristischer oder wissenschaftlicher Zitate. Dieses Problem ist weitgehend auf die Vorhersagetechnik des Modells und seine Unfähigkeit zurückzuführen, den Inhalt tatsächlich zu „verstehen“. Die aktualisierten Versionen des LLM scheinen jedoch rasch an Genauigkeit zu gewinnen. So soll GPT4 im Vergleich zur Vorgängerversion eine um 40 % höhere Wahrscheinlichkeit aufweisen, korrekte Antworten zu geben.

Um das Risiko von Ungenauigkeiten und des Vortäuschens falscher Tatsachen zu mindern, sollten Rechtsabteilungen Richtlinien erlassen, die von den Mitarbeitern verlangen, dass sie die Genauigkeit, Angemessenheit und tatsächliche Nützlichkeit aller von LLM-Tools erzeugten Ergebnisse überprüfen, bevor sie diese als genau oder wahr akzeptieren. Darüber hinaus sollten Mitarbeiter LLM-Tools nur als erste Entwürfe behandeln, wenn ihr Unternehmen deren Verwendung erlaubt. Auf diese Weise wird das Risiko von Ungenauigkeiten in den internen oder externen Kommunikationsmaterialien des Unternehmens verringert und gleichzeitig ein strenger Überprüfungsprozess geschaffen.

Verzerrung von Entscheidungswegen und Ergebnissen

LLM-Tools können voreingenommene Antworten („Bias“) liefern. Deshalb müssen Unternehmen, die ihre Verwendung gestatten, über Richtlinien oder Kontrollen verfügen, um voreingenommene Ergebnisse zu erkennen und sie im Einklang mit den Unternehmensrichtlinien und den geltenden rechtlichen Anforderungen zu behandeln. Google verwendet beispielsweise ein quelloffenes Anti-Voreingenommenheits-Tool, das eine kontrafaktische Analyse durchführt, um zu prüfen, ob ein maschineller Lernalgorithmus verschiedene mathematische Definitionen von Fairness erfüllt.

Auch OpenAI hat Probleme mit Voreingenommenheit eingeräumt: „In einigen Fällen lehnt ChatGPT Ausgaben ab, die es nicht ablehnen sollte, und in einigen Fällen lehnt es nicht ab, wenn es das sollte.“ Trotz der Bemühungen von OpenAI, Voreingenommenheit und Diskriminierung in ChatGPT zu minimieren, sind bekannte Fälle dieser Probleme bereits aufgetreten und werden wahrscheinlich trotz der laufenden aktiven Bemühungen von OpenAI und anderen, diese Risiken zu minimieren, fortbestehen.

Da eine vollständige Beseitigung von Voreingenommenheit in KI-generierten Ergebnissen wahrscheinlich unmöglich ist, sollten Führungskräfte aus den Bereichen Legal und Compliance mit Fachleuten zusammenarbeiten, um sicherzustellen, dass Mitarbeiter dieses Thema wenigstens kennen und beachten.

Datenschutz und Vertraulichkeit

Verantwortliche für Legal und Compliance sollten sich darüber im Klaren sein, dass alle Informationen, die in ein LLM-Tool eingegeben werden, zumindest in der öffentlichen Version, Teil des Schulungsdatensatzes werden können. Somit können alle sensiblen, geschützten oder vertraulichen Informationen, die in Eingabeaufforderungen verwendet werden, in die Antworten für Benutzer außerhalb des Unternehmens einfließen. Beispielsweise hat ChatGPT kürzlich die Telefonnummer eines Journalisten als Antwort auf die Frage eines Nutzers preisgegeben, ob das Tool mit Signal, einer Messaging-App, verwendet werden kann.

Abgesehen von der potenziellen Offenlegung von Eingabeaufforderungen in zukünftigen Ausgaben können LLM-Unternehmen wie OpenAI unter bestimmten Umständen persönliche Informationen von Nutzern ohne deren vorherige Ankündigung an nicht spezifizierte Dritte weitergeben.

Um die Datenschutz- und Vertraulichkeitsrisiken in Unternehmen zu adressieren, sollten Legal- und Compliance-Verantwortliche mindestens folgende Punkte beachten:

Schaffung eines Compliance-Rahmens für die Nutzung von LLM-Tools im Unternehmen: Amazon zum Beispiel hat seine Mitarbeiter davor gewarnt, vertrauliche Informationen in ChatGPT-Eingabeaufforderungen einzugeben.
Mitarbeitern durch klar formulierte Richtlinien verbieten, LLM-Tools Fragen zu stellen, die sensible organisatorische oder persönliche Informationen preisgeben. Beispielsweise sollten die Richtlinien es den Mitarbeitern verbieten, Unternehmensinhalte – einschließlich E-Mails, Berichte, Chat-Protokolle oder Kundendaten – sowie persönlich identifizierbare Daten wie die Identifikationsnummer eines Kunden / Mitarbeiters oder Kreditkartennummern in LLM-Abfragen einzugeben.
Verankern Sie die Einhaltung der Vorschriften durch die Anwendung von „Privacy by Design“-Prinzipien
Aktualisieren Sie die Richtlinien zur Reaktion auf Vorfälle, um Bestimmungen für Datenlecks von vertraulichen Informationen aufzunehmen. Zu den Bestimmungen sollte gehören, dass alle Ausgaben von LLM-Tools einer menschlichen Überprüfung unterzogen werden müssen. Zumindest sollten die Ergebnisse von LLM-Tools von einem Menschen gelesen werden, bevor sie nach außen gesendet werden, um sicherzustellen, dass keine kompromittierenden Daten weitergegeben werden.
Geben Sie Mitarbeitern eine Anleitung, wann kompromittierende Daten in einem LLM-Output enthalten sein könnten

Risiken in Bezug auf geistiges Eigentum und Urheberrecht

LLM-Tools werden auf einer großen Menge von Internetdaten trainiert, die urheberrechtlich geschütztes Material enthalten können. Infolgedessen können Ergebnisse gegen das Urheberrecht oder den Schutz des geistigen Eigentums verstoßen. Entsprechende Fragen werden derzeit in den USA vor Gericht verhandelt. Dieses Risiko kann nicht durch erhöhte Transparenz gemindert werden, da Tools wie ChatGPT heute keine Quellen angeben oder erklären, wie die Ergebnisse erzeugt wurden. Interessanterweise behauptet OpenAI, dass die Nutzer Eigentümer der mit ChatGPT erstellten Ergebnisse sind und die damit verbundene Haftung tragen. Rechts- und Compliance-Verantwortliche müssen von den Benutzern verlangen, dass sie ihre Ergebnisse vor der Weiterverwendung sorgfältig prüfen, um sicherzustellen, dass sie keine Urheberrechte oder Rechte an geistigem Eigentum verletzen.

Verbraucherschutz-Risiken

Unternehmen, die die Nutzung von LLM (z.B. in Form eines Chatbots für den Kundensupport), gegenüber Verbrauchern nicht offenlegen, laufen Gefahr, das Vertrauen ihrer Kunden zu verlieren und nach verschiedenen Gesetzen wegen unlauterer Praktiken angeklagt zu werden. Beispielsweise schreibt das kalifornische Chatbot-Gesetz vor, dass Unternehmen bei bestimmten Verbraucherinteraktionen deutlich darauf hinweisen müssen, dass ein Verbraucher mit einem Bot kommuniziert.

Darüber hinaus betont die U.S. Federal Trade Commission, dass der Einsatz von KI-Tools „transparent, rechenschaftspflichtig, fair und empirisch korrekt sein und gleichzeitig die Rechenschaftspflicht fördern sollte“. Daher müssen Führungskräfte aus den Bereichen Recht und Compliance sicherstellen, dass der Einsatz von LLM-Tools in ihrem Unternehmen im Einklang mit allen relevanten Vorschriften und Gesetzen steht und die Kunden entsprechend informiert werden. Beispiele für eine Offenlegung könnten wie folgt aussehen: „Der folgende Inhalt wurde vollständig von einem KI-basierten System auf der Grundlage spezifischer Anfragen an das KI-System erstellt.“ oder „Der folgende Inhalt wurde von mir mit Hilfe eines KI-basierten Systems zur Unterstützung meiner Arbeit erstellt.“

Risiken für Dritte

Führungskräfte müssen nicht nur die Verwendung von LLM-Tools im eigenen Unternehmen überwachen, sondern dies auch für Dritte tun, mit denen ihr Unternehmen zusammenarbeitet. Daten, die das Unternehmen an Dritte sendet, könnten bei der Nutzung von LLM-Tools durch Dritte verwendet werden. So sind beispielsweise sensible Kundendaten gefährdet, wenn das Unternehmen für den Kundenservice einen externen Anbieter von Chatbots einsetzt, der LLM-Tools verwendet. Diese Kundendaten könnten ohne Wissen des Unternehmens für die Schulung von LLM-Tools oder bei Datenverletzungen durch LLM-Tools verwendet werden.

Zu den weiteren Risiken für Dritte gehört auch das Nachhaltigkeitsrisiko, da generative KI-Tools einen hohen, oft undokumentierten Energieverbrauch in Form von Rechenleistung haben.

Haftung

Die Rechtsprechung zu LLM-Tools entwickelt sich allmählich, aber es gibt noch nicht viele Präzedenzfälle. Bis auf weiteres sollten die Nutzer von LLM-Plattformen die mit dem Output verbundene Haftung übernehmen.

Aufgrund dieser Ungewissheit sollte die Rechtsabteilung bei der Einbindung von LLM-Plattformen Vorsicht walten lassen, um zu verhindern, dass sich potenzielle Haftungsprobleme auf das Unternehmen auswirken.

Unternehmen haben aktuell in diesem Kontext z.B. folgende Möglichkeiten:

Offenlegung aller öffentlich zugänglichen Anwendungsfälle von LLM-generierten Inhalten oder Tools
Überprüfung und Aktualisierung von Verträgen mit Dritten, um Klauseln aufzunehmen, die klarstellen, dass die Organisation nicht Ergebnisse haftet, die mit LLM-Tools erzeugt wurden.
Entwicklung von Schulungen für diejenigen, die innerhalb der Organisation mit LLM-Tools interagieren und diese entwickeln, um eine verantwortungsvolle Nutzung zu gewährleisten.

Regulatorische Risiken

Für Unternehmen ist es derzeit schwierig, mit den aufkommenden Regulierungen Schritt zu halten. Vorgeschlagene Vorschriften wie das KI-Gesetz der EU, das kanadische Gesetz über künstliche Intelligenz und Daten sowie der chinesische Entwurf für generative KI stellen ein komplexes Geflecht potenzieller Vorschriften dar.

Während diese Vorschriften Gestalt annehmen, haben sie gemeinsame Grundsätze. Rechtsabteilungen sollten sich mit diesen Grundsätzen auseinandersetzen und die erforderlichen Schritte unternehmen, um sicherzustellen, dass sie als Rahmen für die Nutzung von LLM in ihrem Unternehmen dienen. Beispiele sind:

Rechenschaftspflicht und Datenschutz – Unternehmen sind für die Einhaltung der einschlägigen KI- und Datenschutzvorschriften verantwortlich.
Menschliche Aufsicht – Einzelpersonen müssen den Einsatz von KI beaufsichtigen.
Risikomanagement – Unternehmen müssen die mit dem Einsatz von KI verbundenen Risiken bewerten und mildern.
Transparenz – Jeder muss darüber informiert werden, dass er mit KI-Tools interagiert.

Empfehlung

Spätestens seit der Markteinführung von ChatGPT von OpenAI hat die LLM-Technologie, die ihr zugrunde liegt, für viel Wirbel gesorgt. Viele Menschen sind fasziniert von den Möglichkeiten dieser scheinbar intelligenten Konversationsplattform. LLM-Tools wie ChatGPT erwecken den Anschein, komplexe Aufgaben ausführen zu können, aber sie „denken“ oder „verstehen“ nicht. LLM funktioniert einfach durch die Vorhersage des nächsten wahrscheinlichen Wortes/der nächsten wahrscheinlichen Wörter in einer Sequenz, wodurch die Ausgabe eher probabilistisch als deterministisch ist. Infolgedessen ist die von dem Tool erzeugte Ausgabe anfällig für die zuvor aufgeführten Risiken.

Aufgrund des erheblichen Risikos sollten sich Unternehmen intensiv mit der rechtlichen Begleitung von IT-Projekten auseinandersetzen.

Michael Fieg
Geschäftsführer

Michael ist 1972 geboren, Informatiker, Ehemann und Vater von zwei Kindern. Er begeistert sich seit vielen Jahren für die Datenrevolution. Bei Parsionate liegen seine Schwerpunkte in der Außendarstellung hin zu Kunden und Partnern, im Vertrieb und im Marketing.

Zurück zum Magazin