Generative künstliche Intelligenz und Web-Scraping: die Hinweise der italienischen Datenschutzbehörde „Garante“

PrintMailRate-it

​​​​​​​​​​veröffentlicht am 24. Juni 2024 | Lesedauer ca. 3 Minuten


Die italienische Datenschutzbehörde „Garante“ hat vor kurzem einen Informationsvermerk über Web-Scraping zum Training generativer Modelle der künstlichen Intelligenz herausgegeben.

 
  
Web-Scraping bedeutet die umfassende und wahllose Sammlung von Daten, einschließlich personenbezogener Daten, unter Zuhilfenahme verschiedener Techniken wie z.B. Web-Crawling1. Dieser Vorgang geht mit der Speicherung und Aufbewahrung von Daten einher, die von Web-Robotern (Bots) für die spätere Analyse, Verarbeitung und gezielte Nutzung gesammelt werden. 

In den letzten Jahren hat diese Technik aufgrund der Weiterentwicklung und Optimierung von generativen Systemen der künstlichen Intelligenz, die anhand von Daten aus dem Internet optimiert wurden, an Bedeutung gewonnen. Hinsichtlich der personenbezogenen Daten, die bei diesem Vorgang gesammelt werden, rechtfertigen zahlreiche in diesem Sektor tätige Unternehmen ihre Datenverarbeitung mit einem legitimen Interesse als Rechtsgrundlage.

Während die „Garante“ weiterhin die Rechtmäßigkeit dieser Rechtsgrundlage für eine solche Verarbeitung untersucht, insbesondere im Hinblick auf OpenAI sowie die Rechtsgrundlage für das Training ihrer Modelle, nutzen einige Plattformen diese Rechtsgrundlage bereits aus. Daher hat die Behörde in ihrer Anordnung vom 20. Mai 2024 die Information herausgegeben, die Verantwortliche, die personenbezogene Daten öffentlich zugänglich machen und sie damit dem potenziellen Web-Scraping durch Dritte aussetzen, eine Leitlinie bietet.

Die erste Empfehlung der Behörde ist die Einrichtung von Nutzerbereichen, die nur nach einer Registrierung zugänglich sind und in denen Daten nicht für die Öffentlichkeit einsehbar sind. Diese Maßnahme sollte in jedem Fall dem Grundsatz der Datenminimierung (Artikel 5 DSGVO) entsprechen: Die (für die Verarbeitung) Verantwortlichen sollten nicht über das, für die Zwecke der Verarbeitung personenbezogener Daten notwendige Maß, hinausgehen (z. B. in Fällen, in denen vor Abschluss eines Online-Kaufs eine Registrierung erforderlich ist: Solche Maßnahmen wurden von einigen Behörden als rechtswidrig angesehen2​​).

Die zweite mögliche Maßnahme könnte darin bestehen, die Allgemeinen Geschäftsbedingungen von Websites oder Online-Plattformen durch spezielle Klauseln zu ergänzen, die die Verwendung von Web-Scraping verbieten. Diese Maßnahme könnte als nachträgliche Durchsetzung dienen und es denen, die für die Datenverarbeitung verantwortlich sind, ermöglichen, im Falle eines Verstoßes gegen die Klausel einen Vertragsbruch geltend zu machen.

Die dritte Empfehlung betrifft die Überwachung der von einer Website oder Online-Plattform empfangenen HTTP-Aufrufe, die es ihnen ermöglicht, Unregelmäßigkeiten in den eingehenden und ausgehenden Datenströmen zu erkennen.

Eine vierte Maßnahme ist das Eindämmen von Bots, z.B. durch folgende Maßnahmen:
  • CAPTCHA-Kontrollen;
  • die wiederholte Änderung von HTML-Markups;
  • die Verschlüsselung von Daten in Multimedia-Elemente (z. B. Bilder);
  • Aktionen in robot.txt-Dateien.

Diese von der Behörde empfohlenen Maßnahmen sind nicht zwingend vorgeschrieben und ihre Einführung sollte von Fall zu Fall beurteilt werden, wobei auch die Verfügbarkeit von Technologien, Budgets und Ressourcen der Unternehmen berücksichtigt werden sollte.

Darüber hinaus sollten solche Maßnahmen nicht gegen den Grundsatz der Datenminimierung verstoßen, d.h. der für die Verarbeitung Verantwortliche sollte stets die Notwendigkeit der Verarbeitung personenbezogener Daten im Verhältnis zu ihrem Zweck angemessen bewerten.​


[1] D.h. die Verwendung von Programmen, die das Web systematisch scannen, um die in den Webseiten enthaltenen Daten zu sammeln und sie zu indexieren, um das ordnungsgemäße Funktionieren von Suchmaschinen zu gewährleisten.
[2] Siehe auch die ​diesbezügliche finnische Maßnahme​.​​

Befehle des Menübands überspringen
Zum Hauptinhalt wechseln
Deutschland Weltweit Search Menu