
Sie wollen KI im Unternehmen nutzen, aber ohne später beim Datenschutz „auf Sicht zu fahren“. Genau darum geht in der Handreichung „KI in Behörden – Datenschutz von Anfang an mitdenken“ vom 22.12.2025 von der Bundesbeauftragten für Datenschutz und die Informationsfreiheit: Wie Sie KI so einsetzen, dass Sie die wichtigsten Datenschutz-Grundprinzipien von der Planung über den Betrieb bis zur laufenden Kontrolle im Griff haben.
Der entscheidende Gedanke aus der Handreichung, die auch auf den Unternehmensalltag übertragbar ist: Bei KI entstehen personenbezogene Daten nicht nur dann, wenn jemand bewusst Namen und Details in ein Prompt schreibt. Personenbezug kann in Trainingsdaten stecken, in Ein- und Ausgaben auftauchen, durch Rückschlüsse (Inferenz) entstehen – und unter Umständen sogar im Modell selbst, wenn Inhalte „memorisiert“ werden. Wenn Sie diese Stellen einmal sauber identifizieren, wird vieles einfacher: Sie können Zuständigkeiten klären, eine passende Rechtsgrundlage wählen, Betroffenenrechte technisch und organisatorisch absichern und typische KI-Risiken wie Halluzinationen oder Verzerrungen (Bias) beherrschbar machen.
- Wo in KI-Systemen personenbezogene Daten auftauchen können – und warum das für den Datenschutz entscheidend ist
- Wer ist verantwortlich – Sie, Ihr Anbieter, oder beide?
- Zweck festlegen und dokumentieren – ohne sich in KI-Begriffen zu verheddern
- Rechtsgrundlage: ohne geht es nicht – und die Eingriffstiefe zählt
- Besondere Kategorien (Art. 9 DSGVO): Training ist nicht gleich Betrieb
- Datenminimierung und Speicherbegrenzung: nicht „wenig Daten“, sondern „notwendige Daten“
- Menschliche Aufsicht und Art. 22 DSGVO: wann „KI unterstützt“ zu „KI entscheidet“ wird
- Datenschutz-Folgenabschätzung: früh dran sein und den ganzen Lebenszyklus anschauen
- Transparenz und Betroffenenrechte: KI ist kein „Transparenz-Freifahrtschein“
- Berichtigung und Löschung: Betroffenenrechte gelten auch für KI – aber die Umsetzung ist speziell
- Datenrichtigkeit und Halluzinationen: die Pflicht bleibt bei Ihnen
- Fairness und Bias: nicht nur ein Ethik-Thema, sondern Datenschutz-Grundsatz
- Rechenschaft, Monitoring und Dienstleister: KI ist nichts, was man einmal „abnimmt“ und dann vergisst
- Ein kleiner, alltagstauglicher Fahrplan
- Fazit
Wenn in einem Unternehmen über KI gesprochen wird, ist meistens etwas wie ein Chatbot gemeint: ein großes Sprachmodell (LLM), das Texte zusammenfasst, Mails entwirft, Fragen beantwortet oder Dokumente durchsucht. Genau auf solche LLM-basierten KI-Systeme richtet sich die Handreichung der BfDI. Sie wurde zwar für Behörden geschrieben, aber die datenschutzrechtlichen Grundfragen dahinter sind für Unternehmen genauso relevant: Wo stecken personenbezogene Daten, wer ist wofür verantwortlich, wie bleibe ich transparent, und wie gehe ich mit Löschung, Halluzinationen und Bias um?
Der wichtigste Perspektivwechsel, den die Handreichung gleich am Anfang nahelegt, ist dieser: Bei KI ist „personenbezogene Daten verarbeiten“ nicht nur das, was Sie bewusst in ein Prompt tippen. Personenbezug kann in mehreren Schichten entstehen – im Training, im Modell selbst und in Ein- und Ausgaben. Wenn Sie das einmal sauber auseinanderziehen, werden viele Diskussionen plötzlich viel klarer.
Wo in KI-Systemen personenbezogene Daten auftauchen können – und warum das für den Datenschutz entscheidend ist
In der Praxis passiert es schnell, dass man KI wie ein normales Software-Tool behandelt: Eingabe rein, Ausgabe raus, fertig. Die Handreichung macht aber deutlich, dass LLMs in mehreren Lebenszyklusphasen betrachtet werden müssen – Planung, Entwicklung, Implementierung, Betrieb und laufende Validierung. In jeder Phase können andere datenschutzrechtliche Anforderungen ausgelöst werden.
Personenbezug kann dabei schon bei den Trainingsdaten anfangen: Gerade wenn Trainingsdaten per Web Scraping gesammelt werden, enthalten sie in der Regel personenbezogene Daten – und selbst nach Aufbereitung und Filterung ist eine vollständige Anonymisierung oft praktisch kaum erreichbar.
Und jetzt kommt der Punkt, der viele überrascht: Die Handreichung beschreibt, dass personenbezogene Trainingsdaten „auf abstrakte Weise“ in Modellgewichten/Parametern landen können und unter bestimmten Bedingungen wieder reproduziert werden können (Memorisierung). Das bedeutet: Nicht nur Datenbank und Logfiles können personenbezogen sein, sondern unter Umständen auch das Modell selbst.
Dazu kommt ein zweites KI-spezifisches Thema: Inferenz. Ein LLM kann aus vermeintlich harmlosen Eingaben Rückschlüsse ziehen – zum Beispiel auf Herkunft oder Wohnort. Die Handreichung nennt als Beispiel, dass das Wort „Kiez“ über Kontextwissen auf Berlin als wahrscheinlichen Ort der sprachlichen Sozialisation hinweisen kann. Das ist wichtig, weil es zeigt: Selbst wenn Sie keine „klassischen“ personenbezogenen Angaben eintippen, kann in einem Prompt Personenbezug entstehen.
Und schließlich können auch Ausgaben personenbezogen sein: weil sie Daten aus der Eingabe wiederholen, weil sie aus verbundenen Quellen stammen, weil sie aus dem Modell reproduziert werden oder weil sie sogar personenbezogene Daten halluzinieren.
Wenn Sie also Datenschutz für KI sauber aufsetzen wollen, ist der erste Schritt eigentlich immer derselbe: Sie identifizieren konkret, welche Verarbeitungsvorgänge in Ihrem Setup stattfinden, also in welcher Lebenszyklusphase und an welcher Stelle personenbezogene Daten vorkommen können.
Wer ist verantwortlich – Sie, Ihr Anbieter, oder beide?
Ein zweiter Klassiker in Unternehmen: „Wir nutzen doch nur ein Tool – der Anbieter ist verantwortlich.“ Die Handreichung rät hier zu einer differenzierten Betrachtung, weil Verantwortlichkeit (Art. 4 Nr. 7 DSGVO) von Zwecken und Mitteln abhängt und je Verarbeitungsvorgang getrennt geprüft werden muss.
Gerade bei LLMs macht die technische Architektur einen großen Unterschied. Die Handreichung skizziert typische Konstellationen:
Wenn ein Dritter im Wesentlichen nur Infrastruktur bereitstellt (zum Beispiel Cloud-Rechenleistung) und Sie betreiben dort ein Modell, wählen es aus, speichern es, haben direkten Zugriff auf die Modellinstanz und nutzen es für eigene Zwecke, dann sind sie für die Verarbeitung verantwortlich – der Dritte handelt typischerweise als Auftragsverarbeiter.
Wenn Sie dagegen ein „geschlossenes“ Modell über eine Schnittstelle nutzen, bei dem der Anbieter die alleinige Kontrolle über die Parameter behält und Sie nicht auf das Modell einwirken können (kein Löschen der Modellinstanz, keine Anpassung), dann sind Sie nach der Handreichung in der Regel nicht für die Verarbeitung personenbezogener Daten im LLM selbst verantwortlich, wobei Sie natürlich weiterhin verantwortlich sind für das, was Sie an personenbezogenen Daten in Eingaben verarbeiten.
Und wenn Sie ein Basismodell auswählen und eine eigene Instanz bekommen, die Sie per Fine-Tuning oder weiterem Training anpassen können, dann sind Sie nach der Handreichung für memorisierte Daten in dieser Instanz verantwortlich, soweit und solange Sie erheblichen Einfluss nehmen können und z. B. die Löschung der Instanz veranlassen können, auch wenn Sie keinen „Klartext-Zugriff“ auf memorisierte Inhalte haben.
Für die Unternehmenspraxis heißt das: „KI aus der Cloud“ ist nicht automatisch „Datenschutz outgesourced“. Sie müssen Ihre Rolle pro Szenario sauber festlegen, und wenn ein Dienstleister Daten in Ihrem Auftrag verarbeitet, die passenden Verträge nach Art. 28 DSGVO aufsetzen.
Zweck festlegen und dokumentieren – ohne sich in KI-Begriffen zu verheddern
Beim Datenschutz ist der Zweck kein Formalismus, sondern der Anker. Die Handreichung betont, dass die Zweckbestimmung dokumentiert werden muss, unter anderem im Verzeichnis der Verarbeitungstätigkeiten (Art. 30 DSGVO).
Pragmatisch wichtig: Für den Einsatz von KI ist es nicht erforderlich, die Technologie ausdrücklich in der Zweckfestlegung zu benennen. Es genügt, wenn der konkrete Zweck technologieneutral beschrieben wird. In der Handreichung wird das am Beispiel der automatisierten Zuordnung eingehender E-Mails erläutert: Der Zweck ist die Bearbeitung/Zuordnung von E-Mail-Eingängen; KI ist „nur“ das technische Mittel.
Außerdem weist die Handreichung darauf hin, dass es im Rahmen der KI-Entwicklung zusätzliche Zwecke geben kann, etwa das Vorhalten von Datensätzen für Fortentwicklung oder zur Erfüllung von Betroffenenrechten, und dass das wiederum mit Datenminimierung und Speicherbegrenzung zusammengedacht werden muss.
Rechtsgrundlage: ohne geht es nicht – und die Eingriffstiefe zählt
Die Handreichung stellt klar: Für Verarbeitungen im KI-Kontext braucht es eine Rechtsgrundlage. Gleichzeitig gilt die Technologieneutralität der DSGVO: eine Verarbeitung „mit KI“ ist nicht automatisch anders zu bewerten als herkömmliche technische Verfahren.
Sie arbeitet im Behördenkontext mit dem Gedanken der „Eingriffstiefe“ und der Frage, wann ein schwerwiegender Eingriff vorliegt und ggf. eine spezifische Rechtsgrundlage nötig ist. Dabei nennt sie als Faktoren unter anderem, ob eine automatisierte Entscheidung im Sinne von Art. 22 DSGVO vorliegt oder ob sensible Daten bzw. besonders viele Daten verarbeitet werden, um neues personenrelevantes Wissen zu erzeugen.
Für Unternehmen ist die konkrete Auswahl der Rechtsgrundlage je nach Use Case zu prüfen. Der Punkt aus der Handreichung, den den Sie mitnehmen sollten, ist vor allem: Sie müssen die Rechtmäßigkeit Ihrer Verarbeitungsvorgänge sauber begründen können, und die tatsächlichen Risiken/Eingriffe hängen stark davon ab, wie Sie das System einsetzen und absichern.
Besondere Kategorien (Art. 9 DSGVO): Training ist nicht gleich Betrieb
Sobald sensible Daten im Spiel sind – etwa Gesundheitsdaten oder biometrische Daten – wird es deutlich anspruchsvoller: Art. 9 DSGVO enthält ein grundsätzliches Verbot mit eng begrenzten Ausnahmen.
Die Handreichung macht hier eine Differenzierung auf, die für die Praxis extrem wichtig ist: In der Entwicklungsphase leistungsfähiger Modelle sind riesige, unstrukturierte Datenmengen üblich, und es ist oft nicht praktikabel, besondere Kategorien vorab vollständig herauszufiltern. Um Betroffene zu schützen und Entwicklung dennoch zu ermöglichen, hält die Handreichung es für zulässig und geboten, zwischen zielgerichteter und nicht-zielgerichteter Verarbeitung zu unterscheiden. Zielgerichtet ist eine Verarbeitung, wenn sie darauf abzielt, die sensiblen Merkmale einer bestimmten Person zuordenbar auszuwerten; nicht-zielgerichtet ist sie, wenn sensible Daten nur verarbeitet werden, um allgemeine Muster zu lernen, ohne diese Eigenschaften einer Person zuzuordnen.
Damit diese Einordnung nicht nur Theorie bleibt, nennt die Handreichung Indizien und risikomindernde Maßnahmen, die für eine nicht-zielgerichtete Verarbeitung sprechen können: Zum Beispiel Bereinigung der Trainingsdaten um identifizierende Angaben, Deduplikation zur Vermeidung von Overfitting, Fine-Tuning mit dem Ziel, keine personenbezogenen Daten auszugeben, oder das meiden von Quellen, die besonders wahrscheinlich sensible Daten enthalten.
Ganz wichtig ist aber auch der zweite Teil der Aussage: Im Produktivbetrieb sind die Anforderungen des Art. 9 Abs. 2 DSGVO „vollumfänglich“ einzuhalten – insbesondere bei Eingaben und Ausgaben. Und sogar der Betrieb eines Modells kann eine Verarbeitung sensibler Daten darstellen, wenn besondere Kategorien im Modell abstrakt enthalten sind und reproduziert werden könnten; dann braucht es neben einer Rechtsgrundlage auch einen Ausnahmetatbestand nach Art. 9 Abs. 2 DSGVO.
Die Handreichung nennt außerdem Indizien, wie man im Betrieb eine nicht-zielgerichtete Verarbeitung sensibler Daten stützen kann – etwa systemweite Input-/Output-Filter, ein System-Prompt, der sensible Ausgaben verbietet, eine RAG-Architektur, die Antworten auf eine Vektordatenbank stützt statt auf „gelerntes Modellwissen“, und klare Richtlinien für Nutzer, die Extraktion untersagen und Meldewege definieren.
Datenminimierung und Speicherbegrenzung: nicht „wenig Daten“, sondern „notwendige Daten“
Die Handreichung formuliert sehr praxisnah: Große Datenmengen sind für die Entwicklung von LLMs häufig notwendig, und das ist nicht per se unvereinbar mit Datenminimierung. Datenminimierung heißt nicht zwingend „absolute Reduzierung“, sondern: Der Verantwortliche muss sicherstellen und dokumentieren, dass die Verarbeitung angemessen und auf das notwendige Maß beschränkt ist – und dass der Zweck nicht in zumutbarer Weise mit weniger personenbezogenen Daten erreichbar wäre. Die Erforderlichkeit ist dabei nicht für jedes einzelne Datum zu prüfen, sondern bezogen auf den Gesamtumfang der verwendeten Daten.
Als praktische Wege nennt die Handreichung, synthetische Daten zu erwägen, Trainings-/Testdaten zu anonymisieren oder zumindest zu pseudonymisieren (wobei auch diese Schritte wiederum eine Rechtsgrundlage brauchen) und in der Planungsphase darauf hinzuwirken, dass im Produktivbetrieb möglichst wenig personenbezogene Daten in Eingaben verarbeitet werden – zum Beispiel durch Eingabefilter oder standardisierte Prompts.
Besonders relevant für Unternehmen: Viele KI-Tools speichern Prompts und Ausgaben gerne „zur Qualitätsverbesserung“ oder „Analyse“. Die Handreichung ist hier klar: Eine Speicherung personenbezogener Prompts und Ausgaben zu Analysezwecken ist nur bei klarer Zweckbindung und angemessener Aufbewahrungsfrist zulässig. Wenn sie nicht erforderlich ist, empfiehlt sie standardisierte Löschroutinen, etwa nach Abschluss jeder Verwendung.
Menschliche Aufsicht und Art. 22 DSGVO: wann „KI unterstützt“ zu „KI entscheidet“ wird
KI kann Entscheidungsprozesse stark automatisieren. Die Handreichung erinnert daran, dass bei automatisierten Entscheidungen, die gegenüber Betroffenen rechtliche Wirkung entfalten oder ähnlich erheblich beeinträchtigen, Vorsicht geboten ist. Gleichzeitig macht sie deutlich: Wenn ein Mensch wirklich in den Prozess eingebunden ist, das Ergebnis eigenständig bewertet und nicht „maßgeblich geleitet“ wird, dann ist das Verbot des Art. 22 Abs. 1 DSGVO nicht einschlägig. Voraussetzung ist aber echte Entscheidungsbefugnis und passende Kompetenz.
Für Unternehmen ist das praktisch ein Governance-Thema: Sie brauchen Prozesse, in denen klar ist, wann KI nur vorbereitet und wann KI faktisch entscheidet und Sie müssen sicherstellen, dass der menschliche Entscheider nicht nur pro forma unterschreibt.
Datenschutz-Folgenabschätzung: früh dran sein und den ganzen Lebenszyklus anschauen
Die Handreichung betont bei der Datenschutz-Folgenabschätzung (DSFA) zwei Dinge, die im Alltag gerne schiefgehen: Erstens muss sie „vorab“ erfolgen, also vor Beginn der Verarbeitung. Zweitens sollte sie Trainings-, Test-, Implementierungs- und Nutzungsphase erfassen – nicht nur den Go-live. Außerdem soll der Datenschutzbeauftragte frühzeitig eingebunden werden, und je nach Fall kann auch eine Konsultation der betroffenen Öffentlichkeit relevant sein.
Wenn Sie KI im Unternehmen einführen, ist das ein guter Reality-Check: Die DSFA zwingt Sie, nicht nur auf das Tool zu schauen, sondern auf das Gesamtsystem, den Zweck, die Datenflüsse, die Risiken und die Maßnahmen.
Transparenz und Betroffenenrechte: KI ist kein „Transparenz-Freifahrtschein“
Transparenz ist in der DSGVO Grundprinzip (Art. 5 Abs. 1 lit. a) und wird durch Informationspflichten (Art. 13/14) und Auskunft (Art. 15) konkretisiert. Die Handreichung sagt gleichzeitig etwas, das viele überrascht: Eine allgemeine Pflicht, über den Einsatz von KI „als solchen“ zu informieren, lässt sich aus der DSGVO nicht herleiten. Informiert werden muss vor allem darüber, wer verarbeitet, zu welchem Zweck und auf welcher Rechtsgrundlage. Bei automatisierten Entscheidungen im Sinne von Art. 22 gibt es allerdings besondere Transparenzanforderungen, inklusive „aussagekräftiger Informationen über die involvierte Logik“ sowie Tragweite und angestrebte Auswirkungen.
Spannend wird es bei Art. 15 Abs. 1 lit. h) DSGVO: Die Handreichung greift die Auffassung des EuGH auf, dass Betroffene ein echtes Recht auf Erläuterung der Funktionsweise des Mechanismus der automatisierten Entscheidungsfindung und des Ergebnisses haben. Praktisch heißt das: Sie müssen in der Lage sein zu erklären, welche personenbezogenen Daten wie verwendet wurden.
Weil LLMs probabilistisch arbeiten, nennt die Handreichung sogar eine praktische Vorgehensweise für Auskunft: Es kann notwendig sein, das Modell auf Grundlage vorhandener Daten mehrfach mit variierenden Prompts nach der betroffenen Person zu fragen und die Ausgaben zu prüfen, ob sie personenbezogene Daten enthalten, die über die Eingabe hinausgehen – und dabei ist sicherzustellen, dass diese Eingaben nicht anderweitig (z. B. zum Training) verwendet werden.
Berichtigung und Löschung: Betroffenenrechte gelten auch für KI – aber die Umsetzung ist speziell
Die Handreichung ist hier sehr deutlich: Gegenstand von Berichtigung/Löschung können grundsätzlich alle personenbezogenen Daten sein – in Trainingsdaten, in Ein- und Ausgaben und im KI-Modell selbst. Deshalb sollten Verantwortliche im Vorhinein Abläufe festlegen, wie mit entsprechenden Anträgen umzugehen ist.
Bei der Löschung (Art. 17 DSGVO) wird es technisch besonders knifflig. Besteht ein Löschanspruch, muss die Löschung im Ergebnis dazu führen, dass die Daten irreversibel so unkenntlich gemacht werden, dass sie nicht bzw. nicht mit vertretbarem Aufwand weiterverarbeitet werden können. Als „sicherste Lösung“ nennt die Handreichung das regelmäßige Ersetzen des KI-Modells durch ein neues Modell, das ohne die zu löschenden Trainingsdaten trainiert wurde. Alternativ kommen Machine-Unlearning-Methoden in Betracht; außerdem sollen Daten auch aus Trainingsdaten für zukünftige Updates entfernt werden.
Gleichzeitig sagt die Handreichung: Ein- und Ausgabefilter können als Übergangslösung sinnvoll sein, gelten nach Auffassung der DSK aber an sich nicht als Löschung.
Und wenn Sie sich fragen „Was ist Machine Unlearning eigentlich in der Realität?“: Die Handreichung ordnet das ein als sehr neues Forschungsfeld. Methoden seien meist noch nicht effektiv bzw. ressourcenintensiv und könnten Einbußen bei der Genauigkeit mit sich bringen.
Datenrichtigkeit und Halluzinationen: die Pflicht bleibt bei Ihnen
Ein weiterer sehr praktischer Abschnitt der Handreichung dreht sich um Datenrichtigkeit (Art. 5 Abs. 1 lit. d) DSGVO). Personenbezogene Ausgaben müssen richtig sein, und die Richtigkeit ist unabhängig davon zu gewährleisten, ob jemand aktiv eine Berichtigung verlangt. Unrichtigkeit kann aus fehlerhaften oder veralteten Trainingsdaten entstehen oder aus Halluzinationen, also Ausgaben, die formal berechnet wurden, aber nicht inhaltlich durch Trainingsdaten gedeckt sind. Für den Grundsatz der Datenrichtigkeit ist es unerheblich, aus welchem dieser Gründe die Ausgabe unrichtig ist.
Sehr hilfreich ist der praktische Maßstab, den die Handreichung nennt: Ob personenbezogene Ausgabedaten „unrichtig“ sind, ist unter Berücksichtigung der Erwartungshaltung des Durchschnittsnutzers im konkreten Kontext zu ermitteln. Und es macht einen Unterschied, ob eine Ausgabe als Tatsache dargestellt wird oder ob sie durch einen deutlichen Hinweis als Ergebnis einer Wahrscheinlichkeitsberechnung gekennzeichnet wird, das vor weiterer Verwendung zu überprüfen ist. Ein solcher Hinweis kann im Einzelfall bereits eine „angemessene“ Abhilfemaßnahme sein.
Für Unternehmen heißt das ganz bodenständig: Wenn KI Texte erstellt, Empfehlungen gibt oder Inhalte zusammenfasst, brauchen Sie Leitplanken, damit niemand Halluzinationen als Fakten übernimmt.
Fairness und Bias: nicht nur ein Ethik-Thema, sondern Datenschutz-Grundsatz
Die Handreichung verankert Bias/Fairness im Datenschutz-Grundsatz von Treu und Glauben (Art. 5 Abs. 1 lit. a): Unfaire Verarbeitung kann vorliegen, wenn Betroffene ungerechtfertigt diskriminiert werden. Bei KI können Biases schwerwiegende Auswirkungen haben, weil Trainingsdaten gesellschaftliche Verzerrungen enthalten oder bestimmte Gruppen unterrepräsentiert sind.
Für die Praxis gibt die Handreichung zwei sehr handfeste Hebel mit:
Erstens kann man ein LLM auf Bias in den Ausgaben prüfen, indem man deckungsgleiche Anfragen stellt, die sich nur in einzelnen personenbezogenen Merkmalen unterscheiden (zum Beispiel ein Name, der Rückschlüsse auf Geschlecht oder Ethnie erlaubt) und beobachtet, ob die Ausgaben ohne sachlichen Grund unterschiedlich ausfallen. Wenn das passiert, sollte der Einsatz überdacht werden.
Zweitens kann man organisatorisch gegensteuern: Nutzer sollten über mögliche Verzerrungen informiert sein und wissen, wie sie mit verzerrten Ausgaben umgehen sollen, in dem sie zum Beispiel Ausgaben nicht weiterverwenden und Eingaben erneut ohne Personenbezug durchführen.
Rechenschaft, Monitoring und Dienstleister: KI ist nichts, was man einmal „abnimmt“ und dann vergisst
Ein Punkt, der für Unternehmen besonders relevant ist, steht in der Handreichung sehr klar: Die gesetzlichen Anforderungen müssen fortlaufend während des gesamten Betriebs eingehalten werden. Technische oder rechtliche Entwicklungen können Änderungen am System, am Modell oder an internen Regelwerken erforderlich machen. Deshalb ist fortlaufendes Monitoring „unabdingbar“, um Auswirkungen im Einsatz zu bewerten, neue Risiken festzustellen und Maßnahmen anzupassen.
Und jetzt zur oft heiklen Anbieterfrage. Wenn Sie ein Modell eines anderen Herstellers als Verantwortlicher einsetzt und dieses Modell personenbezogene Trainingsdaten memorisiert hat, müssen Sie im Rahmen der Rechenschaftspflicht darlegen, dass Sie für Ihre eigenen Verarbeitungen (auch der memorisierten Daten) eine Rechtsgrundlage haben. Gleichzeitig sagt die Handreichung ausdrücklich: Man kann nicht pauschal davon ausgehen, dass ein rechtswidrig entwickeltes KI-Modell nie rechtmäßig eingesetzt werden kann. Entscheidend ist, dass Sie die Rechtmäßigkeit Ihrer Verarbeitungen gewährleisten und nachweisen können und dass Sie sich in geeigneter Weise vergewissern, dass die Entwicklung rechtmäßig war. Dafür beschreibt sie eine abgestufte Nachforschungspflicht, deren Umfang vom konkreten Risiko für Betroffene abhängt.
Sie gibt sogar ein Beispiel, wann eine Nachweispflicht bei einfachen Verarbeitungen (wie Zusammenfassen von Eingabetexten) erfüllt sein kann: etwa wenn der Hersteller die DSGVO-Konformität des Trainings vertraglich zusichert und/oder entsprechend darstellt und keine gerichtlichen oder behördlichen Entscheidungen die DSGVO-Widrigkeit festgestellt haben.
Ganz pragmatisch – und für viele Unternehmen ein Muss – ist auch der Abschnitt zum Training mit Ihren Eingaben. Gerade bei AI-as-a-Service behalten sich manche Anbieter vor, Eingaben und Ausgaben der Benutzer für weiteres Training zu verwenden. Die Handreichung sagt: Aufgrund der Möglichkeit der Memorisierung und der potenziell sensiblen bzw. personenbezogenen Inhalte, die Mitarbeiter eingeben (interne Dokumente, Bewerbungsunterlagen, Gesundheitsnachweise usw.), muss vertraglich ausgeschlossen werden, dass der Anbieter Ein- und Ausgaben für weiteres Training nutzt.
Und noch ein Aspekt, der im Einkauf oft zu kurz kommt: LLMs werden häufig in Drittländern oder durch Unternehmen aus Drittländern gehostet; das birgt Risiken staatlicher Zugriffe oder sogar gerichtlicher Untersagungen von Löschungen. Bei Drittlandübermittlungen sind die Voraussetzungen der DSGVO einzuhalten.
Ein kleiner, alltagstauglicher Fahrplan
Wenn Sie das alles auf einen „Was tun wir jetzt konkret?“-Weg runterbrechen, läuft es in der Logik der Handreichung meistens so: Sie kartieren Daten und Verarbeitungsvorgänge über den Lebenszyklus, klären Rollen und Verträge, definieren Zwecke und Rechtsgrundlagen, bauen technische und organisatorische Schutzmaßnahmen ein (Filter, System-Prompts, RAG, Zugriffskonzepte, Löschroutinen), regeln Transparenz und Betroffenenprozesse, und betreiben das Ganze mit Monitoring und Schulungen weiter, statt es einmal abzuhaken.
Fazit
Wenn Sie KI im Unternehmen einsetzen wollen, lohnt es sich, das Thema Datenschutz nicht als „Extra-Schleife“ zu sehen, sondern als Teil des Projekts von Anfang an. Die Handreichung zeigt ziemlich klar: Bei LLMs entsteht Personenbezug nicht nur durch offensichtliche Eingaben wie Namen oder Kundendaten. Er kann in Trainingsdaten stecken, durch Rückschlüsse entstehen, in Prompts und Ausgaben auftauchen und je nach System und Einflussmöglichkeiten sogar das Modell selbst betreffen. Genau deshalb bringt es wenig, Datenschutz nur auf „Wir geben nichts Persönliches ein“ zu reduzieren.
Für die Praxis bedeutet das: Sie brauchen Klarheit über Ihren konkreten Use Case und Ihre Datenflüsse, Sie müssen Verantwortlichkeiten und Verträge sauber einordnen und Sie sollten technische und organisatorische Schutzmaßnahmen so bauen, dass Betroffenenrechte, Löschung, Transparenz und Datenrichtigkeit auch wirklich funktionieren. Halluzinationen und Bias sind dabei keine Randthemen, sondern berühren direkt Grundprinzipien wie Richtigkeit und Fairness.
Und ganz ehrlich: Der wichtigste Gedanke am Ende ist wahrscheinlich, dass KI kein System ist, das man einmal freigibt und dann vergisst. Die Handreichung legt viel Wert auf laufendes Monitoring, weil Modelle, Einsatzkontexte und Risiken sich ändern. Wenn Sie das als festen Bestandteil Ihrer Governance akzeptiern, können Sie KI sinnvoll nutzen und behalten gleichzeitig den Datenschutz so im Griff, dass Sie ihn gegenüber Geschäftsführung, Mitarbeitern und Betroffenen auch überzeugend erklären können.

Worum geht es in der Handreichung überhaupt?
Die Handreichung fokussiert auf große Sprachmodelle (LLMs) und LLM-basierte KI-Systeme, also KI, die Texte erzeugt, zusammenfasst oder Fragen beantwortet. Im Kern geht es darum, wie man die datenschutzrechtlichen Anforderungen über den gesamten Lebenszyklus hinweg mitdenkt: von der Planung über Implementierung und Betrieb bis zur laufenden Überprüfung.
Warum ist Datenschutz bei KI nicht einfach „wie bei jeder anderen Software“?
Weil personenbezogene Daten bei LLMs an mehr Stellen auftauchen können, als man intuitiv denkt. Es geht nicht nur um das, was Sie in einen Prompt schreiben, sondern auch um Trainingsdaten, mögliche Rückschlüsse aus scheinbar harmlosen Eingaben (Inferenz) und unter bestimmten Bedingungen sogar um das Modell selbst, wenn es Inhalte memorisiert.
Was bedeutet „Inferenz“ in diesem Kontext?
Inferenz meint: Das System kann aus Informationen, die für sich genommen nicht eindeutig personenbezogen wirken, Rückschlüsse ziehen, die dann Personenbezug herstellen oder sensible Merkmale nahelegen. Wichtig ist die praktische Konsequenz: Auch wenn Sie keine personenbezogenen Daten eingeben, kann der Kontext dennoch personenbezogene Aussagen ermöglichen.
Was ist mit „Memorisierung“ gemeint – und warum ist das heikel?
Die Handreichung beschreibt, dass Trainingsdaten „auf abstrakte Weise“ in Modellparametern repräsentiert sein können und unter Umständen wieder reproduzierbar werden. Dadurch kann ein Modell selbst personenbezogene Daten enthalten bzw. personenbezogene Ausgaben erzeugen, obwohl niemand diese Daten im Prompt eingegeben hat. Genau deshalb ist die Frage „Welche Daten stecken im Modell?“ nicht nur theoretisch.
Sind Prompts und KI-Ausgaben personenbezogene Daten?
Sie können es sein – sehr häufig sogar. Sobald im Prompt oder in der Ausgabe Informationen über eine identifizierte oder identifizierbare Person stehen, sind Sie im Datenschutzregime. Zusätzlich kann Personenbezug auch entstehen, wenn die KI aus Kontext und Zusatzwissen Rückschlüsse zieht.
Wer ist datenschutzrechtlich verantwortlich: wir oder der KI-Anbieter?
Das hängt laut Handreichung stark davon ab, wer über Zwecke und Mittel der Verarbeitung entscheidet und wie die technische Einbindung aussieht. Es macht einen Unterschied, ob Sie eine eigene Modellinstanz kontrollieren (inklusive Möglichkeit, sie zu löschen oder anzupassen), oder ob Sie ein „geschlossenes“ Modell nur über eine Schnittstelle nutzen, ohne nennenswerten Einfluss auf das Modell selbst. Und unabhängig davon bleibt die Verantwortung für das, was Sie in Ihrem Unternehmen als Eingaben verarbeiten, ein zentraler Punkt.
Brauche ich einen Auftragsverarbeitungsvertrag (Art. 28 DSGVO)?
Wenn ein Dienstleister personenbezogene Daten in Ihrem Auftrag verarbeitet, ist das Thema Auftragsverarbeitung naheliegend und muss sauber eingeordnet werden. Die Handreichung macht deutlich: Das muss pro Verarbeitungsvorgang geprüft werden, nicht pauschal „für das ganze KI-Projekt“.
Muss ich den Einsatz von KI als solchen als Zweck nennen?
Die Handreichung sagt klar: Dafür ist es nicht erforderlich, KI ausdrücklich in der Zweckfestlegung zu benennen. Der Zweck soll technologieneutral beschrieben werden. KI ist dann das Mittel, nicht der Zweck.
Brauche ich für KI immer eine besondere Rechtsgrundlage?
Die Handreichung betont die Technologieneutralität der DSGVO: KI ist nicht automatisch „rechtsgrundlagenpflichtiger“ als andere Technik, aber jede Verarbeitung braucht eine Rechtsgrundlage. Gleichzeitig weist sie darauf hin, dass die Eingriffstiefe zählt – zum Beispiel wenn automatisierte Entscheidungen im Sinne von Art. 22 DSGVO im Spiel sind oder wenn sensible Daten bzw. besonders viele Daten verarbeitet werden, um neues personenrelevantes Wissen zu erzeugen.
Wann wird Art. 22 DSGVO relevant und was bedeutet „menschliche Aufsicht“ wirklich?
Wenn ein System zu einer automatisierten Entscheidung führt, die rechtliche Wirkung entfaltet oder ähnlich erheblich beeinträchtigt, ist das ein besonders sensibler Bereich. Die Handreichung hebt hervor: Art. 22 ist nicht einschlägig, wenn ein Mensch tatsächlich entscheidet – aber nur, wenn der Mensch nicht „maßgeblich geleitet“ wird, echte Befugnisse hat und fachlich in der Lage ist, die KI-Ausgabe kritisch zu prüfen.
Wann brauche ich eine Datenschutz-Folgenabschätzung (DSFA) – und was muss da rein?
Wenn voraussichtlich ein hohes Risiko für Rechte und Freiheiten besteht, ist die DSFA das zentrale Instrument. Die Handreichung sagt dabei sehr praktisch: Die DSFA muss „vorab“ erfolgen, also vor Beginn der Verarbeitung, und sie sollte den Lebenszyklusbezug ernst nehmen, also Trainings-, Test-, Implementierungs- und Nutzungsphase erfassen. Sie soll nicht nachgelagert „drangeschraubt“ werden, sondern integraler Teil von Beschaffung und Entwicklung sein.
Wie gehe ich mit sensiblen Daten nach Art. 9 DSGVO um?
Die Handreichung unterscheidet hier wichtig zwischen Entwicklungs-/Trainingsphase und Produktivbetrieb. Für die Entwicklung kann eine Differenzierung zwischen zielgerichteter und nicht-zielgerichteter Verarbeitung relevant sein, verbunden mit klaren risikomindernden Maßnahmen. Im Produktivbetrieb müssen die Anforderungen von Art. 9 Abs. 2 DSGVO „vollumfänglich“ eingehalten werden, insbesondere bei Eingaben und Ausgaben – und das Thema kann sogar dann berührt sein, wenn ein Modell sensible Inhalte memorisiert und reproduzieren könnte.
Was heißt Datenminimierung bei KI, wenn große Datenmengen typisch sind?
Die Handreichung formuliert Datenminimierung nicht als „so wenig wie möglich“, sondern als „angemessen und auf das notwendige Maß beschränkt“. Die Erforderlichkeit soll nicht für jedes einzelne Datum geprüft werden, sondern für den Gesamtumfang. Als praktische Hebel nennt sie unter anderem synthetische Daten, Anonymisierung oder Pseudonymisierung (jeweils selbst wieder rechtlich einzuordnen) und Maßnahmen, die personenbezogene Eingaben im Betrieb möglichst reduzieren.
Dürfen Prompts und Ausgaben zu Analysezwecken gespeichert werden?
Die Handreichung sagt: Das ist nur bei klarer Zweckbindung und angemessener Aufbewahrungsfrist zulässig. Wenn die Speicherung nicht erforderlich ist, sind standardisierte Löschroutinen sinnvoll, zum Beispiel nach Abschluss jeder Verwendung. In der Praxis ist das ein Punkt, den man in Tool-Konfigurationen, Logging und internen Prozessen sehr bewusst gestalten sollte.
Muss ich Betroffene darüber informieren, dass KI eingesetzt wird?
Hier ist die Handreichung ziemlich deutlich: Eine allgemeine Pflicht, über den Einsatz von KI „als solchen“ zu informieren, lässt sich aus der DSGVO nicht herleiten. Informationspflichten drehen sich vor allem um das „Wer, wozu, auf welcher Rechtsgrundlage“. Zusätzliche Transparenzanforderungen gelten aber bei automatisierten Entscheidungen im Sinne von Art. 22 DSGVO, inklusive „aussagekräftiger Informationen über die involvierte Logik“ sowie Tragweite und angestrebte Auswirkungen.
Was bedeutet „Recht auf Erläuterung“ bei Auskunft (Art. 15 DSGVO)?
Die Handreichung greift die EuGH-Linie auf: Betroffene sollen ein echtes Recht auf Erläuterung der Funktionsweise des Mechanismus der automatisierten Entscheidungsfindung und des Ergebnisses haben. Praktisch heißt das: Sie sollten in der Lage sein zu erklären, wie personenbezogene Daten in die Entscheidung eingeflossen sind. Bei LLMs kann es laut Handreichung wegen der probabilistischen Ausgaben nötig sein, das Modell auf Basis vorhandener Daten mehrfach mit variierenden Prompts abzufragen und die Ausgaben darauf zu prüfen, ob sie personenbezogene Daten über die Person enthalten.
Wie setze ich Berichtigung und Löschung bei KI um?
Die Handreichung sagt: Berichtigung/Löschung kann Trainingsdaten, Ein- und Ausgaben und auch das Modell selbst betreffen. Bei Löschung muss das Ergebnis irreversibel sein, also Daten dürfen nicht weiterverarbeitbar sein bzw. nicht mit vertretbarem Aufwand. Als sicherste Lösung nennt sie das Ersetzen des Modells durch ein neu trainiertes Modell ohne die zu löschenden Trainingsdaten; als Alternative kommen Machine-Unlearning-Methoden in Betracht. Filter können als Übergangslösung helfen, gelten nach Auffassung der DSK aber an sich nicht als Löschung.
Was mache ich mit Halluzinationen – ist das „nur ein Qualitätsproblem“?
Die Handreichung ordnet das klar dem Grundsatz der Datenrichtigkeit zu. Wenn eine KI personenbezogene Aussagen ausgibt, müssen diese richtig sein – und es ist unerheblich, ob Unrichtigkeit aus Trainingsdaten oder aus Halluzinationen stammt. Ob eine Ausgabe „unrichtig“ ist, soll unter Berücksichtigung der Erwartungshaltung des Durchschnittsnutzers im konkreten Kontext bewertet werden. Ein deutlicher Hinweis auf die probabilistische Natur der Ausgaben kann im Einzelfall eine angemessene Abhilfemaßnahme sein.
Und Bias – warum ist das aus Datenschutzsicht relevant?
Die Handreichung verbindet Bias mit Fairness und dem Grundsatz von Treu und Glauben: Unfaire Verarbeitung kann vorliegen, wenn ungerechtfertigt diskriminiert wird. Sie beschreibt als praktikable Prüfrichtung, Anfragen zu variieren, die sich nur in bestimmten personenbezogenen Merkmalen unterscheiden, und zu prüfen, ob Ausgaben ohne sachlichen Grund unterschiedlich ausfallen. Wenn das passiert, sollte der Einsatz überdacht werden.
Wie viel „laufende Arbeit“ ist KI-Datenschutz nach dem Go-live?
Mehr, als viele erwarten. Die Handreichung sagt ausdrücklich: Fortlaufendes Monitoring ist unabdingbar, weil technische und rechtliche Entwicklungen Änderungen am System, am Modell oder an internen Regelwerken erforderlich machen können. KI ist damit kein Projekt, das man einmal abnimmt und dann abhakt.
Was muss ich bei der Auswahl eines externen Modells beachten, wenn ich nicht weiß, wie es trainiert wurde?
Die Handreichung sagt zwei Dinge gleichzeitig: Eine frühere Rechtswidrigkeit strahlt nicht automatisch auf spätere Verarbeitungen aus, und ein rechtswidrig trainiertes Modell kann unter Umständen rechtmäßig eingesetzt werden. Aber: Sie müssen die Rechtmäßigkeit Ihrer eigenen Verarbeitungen gewährleisten und nachweisen und sich „in geeigneter Weise“ vergewissern, dass die Entwicklung rechtmäßig war. Dafür beschreibt sie eine abgestufte Nachforschungspflicht, deren Umfang vom konkreten Risiko für Betroffene abhängt.
Darf der Anbieter unsere Eingaben und Ausgaben zum Training verwenden?
Die Handreichung empfiehlt, das auszuschließen: Gerade wegen Memorisierung und der Art von Daten, die im Alltag in Prompts landen können (auch interne Dokumente), soll vertraglich ausgeschlossen werden, dass Ein- und Ausgaben für weiteres Training genutzt werden. Das ist ein klassischer Vertragspunkt, den man nicht „nebenbei“ behandeln sollte.
Was ist mit Hosting in Drittländern oder Anbietern aus Drittländern?
Die Handreichung weist darauf hin, dass LLMs oft in Drittländern oder durch Unternehmen aus Drittländern gehostet werden und das Risiken mit sich bringen kann, etwa staatliche Zugriffe oder gerichtliche Untersagungen von Löschungen. Sobald Datenübermittlungen an Drittstaaten stattfinden, müssen die Voraussetzungen der DSGVO eingehalten werden.
