Diskussionspapier des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit: Large Language Models und personenbezogene Daten
In diesem Diskussionspapier des Hamburgischen Beauftragten für Datenschutz und Informationsfreiheit (HmbBfDI vom 15.07.2024) wird der aktuelle Wissensstand zur Anwendbarkeit der Datenschutz-Grundverordnung (DSGVO) auf Large Language Models (LLMs) dargestellt. Das Papier soll als Impuls für Unternehmen und Behörden dienen, um datenschutzrechtliche Aspekte von LLMs besser einzuordnen. Technische Aspekte von LLMs werden erläutert, vor dem Hintergrund der Rechtsprechung des Europäischen Gerichtshofs (EuGH) bewertet und daraus resultierende Praxisfolgen aufgezeigt.
Wesentliche Thesen:
1. Speicherung von LLMs: Die bloße Speicherung eines LLMs stellt keine Verarbeitung im Sinne des Art. 4 Nr. 2 DSGVO dar, da keine personenbezogenen Daten gespeichert werden. Bei der Verarbeitung personenbezogener Daten durch ein LLM-gestütztes System müssen jedoch die DSGVO-Anforderungen erfüllt werden.
2. Betroffenenrechte: Da LLMs keine personenbezogenen Daten speichern, können Betroffenenrechte der DSGVO nicht auf das Modell selbst angewendet werden. Ansprüche auf Auskunft, Löschung oder Berichtigung können sich jedoch auf Input und Output des KI-Systems beziehen.
3. Training von LLMs: Das Training von LLMs mit personenbezogenen Daten muss datenschutzkonform erfolgen. Ein datenschutzwidriges Training beeinflusst jedoch nicht die Rechtmäßigkeit des Einsatzes des Modells in einem KI-System.
Technische Bewertung von LLMs:
LLMs verarbeiten Texte, die in Tokens zerlegt werden, um diese numerisch darzustellen und in Beziehungen zueinander zu setzen. Diese Tokens und ihre Beziehungen werden als Embeddings gespeichert. Die Speicherung erfolgt dabei in einer abstrahierten Form, ohne konkrete personenbezogene Daten beizubehalten. Diese mathematischen Repräsentationen ermöglichen es dem Modell, kontextabhängige Texte zu generieren, ohne die ursprünglichen Trainingsdaten zu speichern.
Speicherung personenbezogener Daten in LLMs:
Laut EuGH-Rechtsprechung setzt der Begriff des personenbezogenen Datums voraus, dass ein Datum Informationen über eine identifizierte oder identifizierbare Person enthält. Einzelne Tokens in einem LLM haben jedoch keinen individuellen Informationsgehalt und fungieren nicht als Platzhalter für personenbezogene Daten. Auch die Embeddings, die Beziehungen zwischen Tokens darstellen, enthalten keine spezifischen Informationen über natürliche Personen.
Privacy Attacks und PII Extraction:
Obwohl Fine-Tuning von LLMs unter bestimmten Umständen zur Wiedergabe von Trainingsdaten führen kann, bedeutet dies nicht zwangsläufig, dass personenbezogene Daten gespeichert sind. Die Durchführung solcher Attacken erfordert erhebliche technische Expertise und Ressourcen. Da Trainingsdatensätze in der Regel nicht vollständig öffentlich zugänglich sind, stellt dies einen praktisch unverhältnismäßigen Aufwand dar, der nach EuGH-Rechtsprechung nicht zu einer Einstufung als personenbezogene Daten führt.
Schlussfolgerung:
LLMs speichern keine personenbezogenen Daten im Sinne der DSGVO. Die mathematischen Repräsentationen und die generierten Texte basieren auf abstrahierten und aggregierten Datenpunkten, ohne konkrete Bezüge zu natürlichen Personen. Unternehmen und Behörden sollten dennoch sicherstellen, dass das Training von LLMs datenschutzkonform erfolgt und die Rechte der Betroffenen berücksichtigt werden.
Rufen Sie uns doch einfach unter 09122 6937302 an! Oder senden Sie uns Ihre Nachricht. Wir laden Sie sehr gern zu einem persönlichen Austausch ein!
Ihr Team von Datenschutz Prinz
Hier haben Sie die Möglichkeit, für alle Blog-Beiträge, die wir auf unserer Webseite veröffentlichen, Updates zu erhalten.
Damit verpassen Sie keine Neuigkeiten mehr in Sachen Datenschutz!
Um hier diese Inhalte zu sehen, stimmen Sie bitte zu, dass diese in die Webseite von https://www.datenschutz-prinz.de/ geladen werden.