Datenschutzrechtliche Besonderheiten bei der Sammlung von KI-Trainingsdaten

PrintMailRate-it
​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​veröffentlicht am 24​. April 2025 | Lesedauer ca. 3 Minuten
 

Die Entwicklung leistungsfähiger Künstlicher Intelligenz (KI) basiert maßgeblich auf der Verfügbarkeit großer Mengen an Trainingsdaten. Insbesondere das automatisierte Sammeln von Daten durch Scraping und Crawling stellt für viele Unternehmen eine zentrale Methode dar, um ihre KI-Modelle mit umfangreichem Input zu versorgen. Neben den datenschutzrechtlichen Fragestellungen, die sich bei der Implementierung und Nutzung von KI-Systemen in einem Unternehmen ergeben, ist bereits das Sammeln von Trainingsdaten für die Entwicklung eines KI-Systems rechtlich zu bewerten und entsprechende Maßnahmen für eine (datenschutz-)rechtliche Compliance zu ergreifen.

 

 

Was versteht man unter Trainingsdaten?​

Nach Art. 3 Nr. 29 KI-VO werden Trainingsdaten „zum Trainieren eines KISystems verwendet, wobei dessen lernbare Parameter angepasst werden“. Trainingsdaten sind also sozusagen der „Lehrstoff“ eines KI-Systems und haben den Zweck das KI-System zu einem intelligenten System zu entwickeln. ​

Technische Vorbereitung: Sammlung von Trainingsdaten

Vor dem eigentlichen Training einer KI ist jedoch zunächst die Sammlung von entsprechenden Datensätzen erforderlich. Die Sammlung solcher Trainingsdaten erfolgt üblicherweise über das Internet. Hierbei werden Datensätze von Webseiten extrahiert und für das zu trainierende KI-System aufbereitet. Dies erfolgt in technischer Hinsicht über das sog. Scraping oder Crawling von Webseiten. 

Beim Crawling ruft ein Computer-Programm automatisiert Webseiten auf, analysiert die Inhalte und speichert diese dann in einem Index ab. Dies erfolgt oftmals nur durch Verweise auf die Informationen. Im Gegensatz dazu werden beim Scraping konkrete Inhalte von den Webseiten extrahiert und in einem strukturierten Format (z.B. in einer Datenbank) abgespeichert. Für die Sammlung von Trainingsdaten werden oftmals beide Technologien eingesetzt. Crawling für das Auffinden von Webseiten und Scraping für die Extrahierung der Informationen.

Personenbezug und Anwendungsbereich der DSGVO

Im Rahmen der Datensammlung lässt es sich kaum vermeiden, dass auch personenbezogene Daten gesammelt und verarbeitet werden. Die durch Scraping und Crawling gesammelte Datenmenge ist oftmals riesig und es ist bislang nicht möglich die Verarbeitung von personenbezogen Daten technisch komplett auszuschließen. Aufgrund der engen Verknüpfung von personenbezogenen Daten und KI-Systemen nehmen die datenschutzrechtlichen Anforderungen bei der Sammlung von Trainingsdaten daher regelmäßig einen zentralen Stellenwert ein.​

Rechtsgrundlage

Es kommt also zunächst darauf an, dass man die mit der Sammlung von Trainingsdaten verbundene Verarbeitung personenbezogener Daten auf eine Rechtsgrundlage stützen kann. 

Denkbar wäre hier zunächst die Erteilung der Einwilligung der betroffenen Person, Art. 6 Abs. 1 lit. a DS-GVO. Gemäß Art. 4 Nr. 11 und Art. 7 DS-GVO müsste eine solche Einwilligung freiwillig für den bestimmten Fall, in informierter Weise und unmissverständlich abgegeben werden. Bei genauer Betrachtung wird man jedoch feststellen, dass es kaum möglich sein wird, bei einer automatisierten Datensammlung im Internet vorab die Einwilligung von einem jeden Betroffenen einzuholen. Es lassen sich weder der Personenkreis noch die konkreten Datensätze vorab entsprechend feststellen. 

Relevant als Rechtsgrundlage dürfte daher häufig das berechtigte Interesse des Verantwortlichen i.S.d. Art. 6 Abs. 1 lit. f DS-GVO sein. Danach ist die Datennutzung rechtmäßig, wenn sie zur Wahrung berechtigter Interessen des KI-Entwicklers erforderlich ist und keine Interessen oder Grundrechte und Grundfreiheiten der betroffenen Person überwiegen. Für die rechtmäßige Sammlung von Trainingsdaten auf Grundlage eines berechtigten Interesses müssen also folgende Voraussetzungen erfüllt sein:
  • Berechtigtes Interesse: Das berechtigte Interesse wird bei Unternehmen regelmäßig darin bestehen, dass ein KI-System entwickelt werden soll, um z.B. bessere Produkte anbieten oder Prozesse verbessern zu können.
  • Erforderlichkeit: Scraping und Crawling sind die effektivsten technischen Verfahren zur Sammlung von Datensätzen. Regelmäßig gibt es keine anderen gleich geeigneten milderen Mittel. Im Einzelfall könnte es aber auch ausreichend sein, die KI mit anonymisierten Daten zu trainieren.
  • Überwiegen des Interesses des Verantwortlichen: Im Rahmen einer Interessenabwägung muss das Interesse des KI-Entwicklers an der Datennutzung das Interesse des Betroffenen an der Privatheit seiner Daten überwiegen. Maßgeblich sind für die Abwägung insbesondere folgende Kriterien:​​
    • die Art der personenbezogenen Daten (Datenkategorie)
    • die Grundsätze der Verarbeitung i.S.d. Art. 5 DS-GVO) (insb.  der Grundsatz der Datenminimierung)
    • Detailliertheit und Umfang der Trainingsdaten
    • Auswirkung der Verarbeitung auf die betroffenen Personen
    • Erwartungshaltung der betroffenen Personen hinsichtlich einer Verarbeitung ihrer im Internet frei zugänglich veröffentlichten Daten zu anderen Zwecken
    • Implementierung weiterer technischen und organisatorischen Maßnahmen 

Letztendlich kommt es im Rahmen der Interessenabwägung aber stets auf den Einzelfall an. Sollte das Interesse des Verantwortlichen überwiegen, kann die Sammlung von Trainingsdaten nach Art. 6 Abs, 1 lit. f DS-GVO gerechtfertigt sein.

Transparenz- und Informationspflichten

Neben dem Vorliegen einer Rechtsgrundlage müssen auch die Informationspflichten i.S.d. Art. 14 Abs. 1 DS-GVO beachtet werden, da beim Scraping und Crawling personenbezogene Daten bei Dritten erhoben werden. Dies ist regelmäßig kaum zu bewerkstelligen, insbesondere wenn Daten aus öffentlich zugänglichen Quellen stammen und die Identität der Betroffenen nicht bekannt ist. Daher sollte geprüft werden, ob der in Art. 14 Abs. 5 DS-GVO verankerte Ausnahmetatbestand einschlägig ist. Danach ist der Verantwortliche von der Informationspflicht befreit, wenn ihm diese Information unmöglich ist oder einen unverhältnismäßigen Aufwand bedeuten würde. 

Weitere datenschutzrechtliche Anforderungen

Neben einer bestehenden Rechtgrundlage gemäß Art. 6 DS-GVO und der Berücksichtigung der Informationspflicht gemäß Art. 14 DS-GVO sind aber auch noch folgende Aspekte bei der Sammlung und Verarbeitung von Trainingsdaten zu berücksichtigen:
 
  • Einhaltung der Datenschutzgrundsätze, insbesondere Zweckbindung und Datenminimierung:
    Die Grundsätze der Zweckbindung (Art. 5 Abs. 1 lit. b DS-GVO) und Datenminimierung (Art. 5 Abs. 1 lit. c DS-GVO) verlangen, dass nur solche Daten erhoben werden, die für das Training der KI erforderlich sind. Eine pauschale, massenhafte Datensammlung ist datenschutzrechtlich problematisch. Es empfiehlt sich, frühzeitig zu definieren, welche Datenkategorien für das Training tatsächlich benötigt werden und ob bzw. wie ggf. eine Anonymisierung oder Pseudonymisierung umgesetzt werden kann.
  • Berücksichtigung der Betroffenenrechte nach Art. 12 ff. DS-GVO
    Auch bei der Nutzung von Trainingsdaten für KI-Entwicklung sind die Rechte der betroffenen Personen – etwa auf Auskunft, Berichtigung, Löschung und Widerspruch – zu gewährleisten. Prozesse zur Wahrung dieser Rechte müssen bereits im Entwicklungsprozess vorgesehen und technisch umgesetzt werden.
  • Technische und organisatorische Maßnahmen
    Zudem sind geeignete technische und organisatorische Maßnahmen zu ergreifen, um die Sicherheit der Daten zu gewährleisten und Risiken für die Rechte und Freiheiten der Betroffenen zu minimieren. Dazu zählen unter anderem Zugriffsbeschränkungen, Verschlüsselung, regelmäßige Überprüfung der Datensicherheit sowie die Schulung von Mitarbeitenden im Umgang mit KI-Systemen und personenbezogenen Daten. 
  • Durchführung einer Datenschutz-Folgenabschätzung (DSFA)
    Gerade bei groß angelegten Scraping-Projekten kann zudem eine Datenschutz-Folgenabschätzung (Art. 35 DS-GVO) erforderlich werden. Im Rahmen der DSFA sind die geplanten Verarbeitungsvorgänge, die Risiken sowie die vorgesehenen Maßnahmen zur Risikominderung detailliert zu dokumentieren und zu bewerten.​

Fazit

Trainingsdaten sind essenziell für eine funktionierende KI und nehmen eine zentrale Rolle bei deren Entwicklung ein. Durch den Einsatz von technischen Verfahren wie Crawling und Scaping zur Gewinnung der Datensätze lässt sich die Verarbeitung von personenbezogenen Daten jedoch oftmals nicht vollständig vermeiden. Daher sind bereits bei der Trainingsdatensammlung die Anforderungen der DS-GVO zu beachten und im Unternehmen umzusetzen. Auch wenn die Sammlung von Trainingsdaten für KI-Systeme grundsätzlich datenschutzkonform erfolgen könnte, sind viele Aspekte noch nicht gerichtlich entschieden, sodass eine gewisse Rechtsunsicherheit besteht und die Entwicklungen am Markt und in der Rechtsprechung stetig im Auge behalten werden müssen.

Kontakt

Contact Person Picture

Anna-Katharina Hillman

Rechtsanwältin

Senior Associate

+49 521 2607 4844

Anfrage senden

Profil

Contact Person Picture

Sabine Schmitt

Rechtsanwältin

Manager

+49 911 9193 3710

Anfrage senden

Profil

Wir beraten Sie gern!

Mehr lesen?

​​
Befehle des Menübands überspringen
Zum Hauptinhalt wechseln
Deutschland Weltweit Search Menu