Startseite / Technologie / Darf KI Mit Geschützten Bildern Trainiert Werden?

Darf KI Mit Geschützten Bildern Trainiert Werden?

Mai 20, 2026

Megan ClairmontExperte für IT-Sicherheit

Die rasante Entwicklung generativer Systeme hat eine Debatte entfacht, welche die Grundpfeiler des geistigen Eigentums erschüttert und die Frage aufwirft, wem die visuelle Kultur der digitalen Ära eigentlich gehört. Der Bundesgerichtshof sieht sich nun mit der Aufgabe konfrontiert, ein Urteil zu fällen, das weit über den Einzelfall hinausreicht und die ökonomische Zukunft ganzer Branchen maßgeblich beeinflussen wird. Im Kern geht es darum, ob die automatisierte Analyse und Verarbeitung von urheberrechtlich geschützten Fotografien zum Zwecke des maschinellen Lernens eine zulässige Nutzung darstellt oder ob hier eine systematische Enteignung kreativer Leistungen stattfindet. Da moderne Algorithmen für ihre Leistungsfähigkeit auf Milliarden von Datensätzen angewiesen sind, steht der Schutz des Urhebers in direkter Konkurrenz zur Innovationskraft der Technologieindustrie. Dieses Verfahren markiert den ersten Moment, in dem das höchste deutsche Zivilgericht diese komplexe Materie durchdringt und damit die rechtlichen Rahmenbedingungen für die Interaktion zwischen Mensch und Maschine im virtuellen Raum neu definiert.

Der Konkrete Rechtsstreit: Technische Umsetzung

Methodik der Datensatz-Erstellung: Einblick in die Verfahren

Der Ursprung dieser juristischen Auseinandersetzung liegt in der Tätigkeit eines gemeinnützigen Vereins, der es sich zur Aufgabe gemacht hat, gigantische Mengen an Bildmaterial für die Forschung zu strukturieren. Dieser Verein entwickelte einen Datensatz, der mehr als fünf Milliarden Verknüpfungen zwischen Bildern und beschreibenden Texten umfasst, was eine wesentliche Grundlage für die Ausbildung moderner Bild-KIs darstellt. Technisch gesehen verfolgte die Organisation einen Ansatz, bei dem die eigentlichen Bilddateien nicht dauerhaft auf eigenen Systemen gespeichert wurden. Stattdessen suchte ein spezialisierter Crawler gezielt Webadressen auf, um die dort befindlichen Grafiken kurzzeitig in den Arbeitsspeicher zu laden. In diesem flüchtigen Moment erfolgte ein automatisierter Abgleich, um sicherzustellen, dass der visuelle Inhalt tatsächlich mit der hinterlegten Beschreibung korrespondiert. Sobald dieser Verifizierungsprozess abgeschlossen war und die Metadaten in den Index aufgenommen wurden, erfolgte die sofortige Löschung der Bilddaten vom Server des Vereins.

Trotz der Flüchtigkeit dieses Vorgangs geriet ein professioneller Fotograf in den Fokus, dessen geschütztes Werk im Rahmen dieses massenhaften Abgleichs erfasst wurde. Der Kläger argumentiert, dass selbst diese temporäre Vervielfältigung einen unzulässigen Eingriff in seine Exklusivrechte darstellt, da sein Einverständnis niemals eingeholt wurde. Besonders brisant ist hierbei der Umstand, dass die betreffende Bildagentur, über welche die Fotografie vertrieben wurde, auf ihrer Webseite explizit darauf hinwies, dass automatisierte Downloads und Datenauswertungen untersagt sind. Dieser Konflikt verdeutlicht die technische Realität der Datenökonomie, in der Algorithmen Milliarden von Quellen in Bruchteilen von Sekunden scannen. Der Fall wirft die grundlegende Frage auf, ob die traditionelle Vorstellung von einer Kopie im digitalen Zeitalter noch zeitgemäß ist oder ob flüchtige technische Zwischenschritte eine neue rechtliche Kategorie erfordern, die den Anforderungen der modernen Softwareentwicklung gerecht wird.

Die Form des Widerspruchs: Maschinenlesbarkeit als Barriere

Ein zentraler Diskussionspunkt innerhalb des Verfahrens ist die Effektivität und Form des Widerspruchs, den ein Urheber gegen die Nutzung seiner Werke einlegen kann. Der betroffene Fotograf konnte zwar auf eine klare Verbotsformulierung in natürlicher Sprache auf der Webseite verweisen, doch im digitalen Kontext stellt sich die Frage, ob dies für automatisierte Systeme ausreichend erkennbar ist. Das aktuelle Urheberrecht sieht vor, dass bei online frei zugänglichen Werken ein Nutzungsvorbehalt in einer maschinenlesbaren Form vorliegen muss, um rechtlich bindend zu sein. Hierunter fallen technische Lösungen wie Einträge in der robots.txt-Datei, spezifische Metadaten im HTML-Code oder standardisierte Protokolle, die von Crawlern direkt ausgelesen werden können. Die Verteidigung des Vereins stützt sich darauf, dass ihre Software lediglich auf diese technischen Signale reagiert und rein textliche Hinweise auf Unterseiten für einen automatisierten Prozess schlicht nicht erfassbar sind.

Diese Problematik führt zu einer tiefgreifenden Debatte über die Verantwortlichkeiten im Internet, da viele Urheber nicht über das technische Wissen verfügen, um solche komplexen maschinenlesbaren Barrieren selbst zu implementieren. Falls der Bundesgerichtshof die Anforderung der Maschinenlesbarkeit streng auslegt, müssten Kreative künftig deutlich höhere technische Hürden nehmen, um ihre Rechte wirksam zu verteidigen. Andererseits argumentiert die Technikseite, dass ein reibungsloser Datenverkehr im Netz unmöglich wäre, wenn jeder Crawler erst komplexe rechtliche Texte in menschlicher Sprache analysieren und interpretieren müsste. Die Entscheidung wird somit klären, ob die Beweislast für den Schutz der Inhalte beim Urheber liegt, der seine Werke technisch verriegeln muss, oder ob die Entwickler von KI-Systemen in der Pflicht stehen, auch nicht-technische Verbote aktiv zu respektieren. Damit entscheidet sich, wie zugänglich das freie Internet für die Ausbildung künstlicher Intelligenzen in den kommenden Jahren bleibt.

Rechtliche Einordnung: Text and Data Mining

Schrankenbestimmungen: Analyse versus Vervielfältigung

In der juristischen Bewertung steht die Auslegung des Paragraphen 44b des Urheberrechtsgesetzes im Mittelpunkt, welcher das sogenannte Text and Data Mining regelt. Diese Schranke erlaubt es grundsätzlich, automatisierte Analysen von Werken durchzuführen, um Informationen über Muster, Trends oder Korrelationen zu gewinnen. Der Gesetzgeber wollte hiermit den Standort für Innovationen stärken, indem er die rein informative Auswertung von Datenmengen von der strengen Erlaubnispflicht ausnimmt. Im vorliegenden Fall muss das Gericht jedoch abwägen, ob das Training einer generativen KI noch unter diesen Begriff der Informationsgewinnung fällt oder ob es sich bereits um eine Vorstufe zur Erstellung von Substitutionsprodukten handelt. Kritiker weisen darauf hin, dass die Grenze dort überschritten ist, wo die Maschine nicht mehr nur über die Bilder lernt, sondern die ästhetischen Merkmale so tiefgreifend extrahiert, dass sie später neue Bilder im Stil des Urhebers generieren kann.

Zusätzlich stellt sich die Frage, ob die kurzzeitige Speicherung während des Crawler-Vorgangs eine relevante Vervielfältigung im Sinne des Gesetzes darstellt oder lediglich einen notwendigen technischen Hilfsprozess. Die juristische Herausforderung besteht darin, dass das Urheberrecht ursprünglich für physische Kopien oder dauerhafte digitale Speicherung konzipiert wurde und nicht für die flüchtigen Datenströme moderner Analyse-Algorithmen. Wenn der Bundesgerichtshof entscheidet, dass diese Form der Verarbeitung privilegiert ist, würde dies den Weg für eine großflächige Nutzung öffentlicher Daten ebnen, ohne dass die Ersteller der Inhalte direkt davon profitieren. Sollte das Gericht jedoch eine engere Auslegung wählen, könnten weite Teile des bisherigen KI-Trainings rückwirkend als rechtswidrig eingestuft werden. Dies verdeutlicht die gewaltige Tragweite der Entscheidung, da sie die rechtliche Definition von digitalem „Lernen“ festlegt und bestimmt, welche wirtschaftlichen Verwertungsrechte dem Urheber gegenüber automatisierten Systemen verbleiben.

Das Forschungsprivileg: Wissenschaft als Schutzraum

Ein weiterer entscheidender Faktor in der Argumentation der KI-Entwickler ist die Ausnahme für die wissenschaftliche Forschung gemäß Paragraph 60d des Urheberrechtsgesetzes. Dieser erlaubt es Forschungsorganisationen, Vervielfältigungen für nicht-kommerzielle Zwecke vorzunehmen, was dem beklagten Verein als gemeinnützige Institution theoretisch zugutekommt. Die Kernfrage lautet hierbei, inwiefern die Erstellung eines Datensatzes als rein wissenschaftlicher Akt gewertet werden kann, wenn die daraus resultierenden Ergebnisse unmittelbar in die kommerzielle Verwertung durch globale Technologiekonzerne einfließen. In der Praxis werden solche Open-Source-Datensätze oft von akademischen Gruppen erstellt und anschließend von Unternehmen genutzt, um marktfähige Produkte wie Stable Diffusion oder ähnliche Modelle zu entwickeln. Die Trennung zwischen idealistischer Forschung und knallharter wirtschaftlicher Nutzung ist im Bereich der künstlichen Intelligenz daher oft kaum noch auszumachen.

Die Richter müssen nun beurteilen, ob der Status des Vereins als Forschungsorganisation ausreicht, um die massenhafte Verarbeitung geschützter Werke zu rechtfertigen, selbst wenn der indirekte Nutzen für die Industrie offensichtlich ist. Befürworter einer weiten Auslegung betonen, dass der wissenschaftliche Fortschritt behindert würde, wenn Forscher für jedes einzelne Bild im Datensatz eine individuelle Lizenz aushandeln müssten. Die Gegenseite warnt jedoch davor, dass das Forschungsprivileg als rechtliches Schlupfloch missbraucht werden könnte, um Urheberrechte systematisch zu umgehen und kommerzielle Modelle auf Kosten der Kreativwirtschaft zu trainieren. Die Entscheidung des Gerichts wird zeigen, ob die Wissenschaft als neutraler Raum erhalten bleibt oder ob strengere Kontrollmechanismen eingeführt werden müssen, um sicherzustellen, dass privilegierte Daten nicht ungefiltert in den kommerziellen Kreislauf gelangen. Dies betrifft die fundamentale Zusammenarbeit zwischen Universitäten, gemeinnützigen Vereinen und der freien Wirtschaft im globalen Wettbewerb.

Auswirkungen: Die Zukunft Der Kreativwirtschaft

Rechtstrends: Technologiefreundlichkeit versus Urheberschutz

Die bisherigen Urteile der Vorinstanzen in Hamburg ließen eine deutliche Tendenz erkennen, den technologischen Wandel rechtlich zu unterstützen und die Hürden für das KI-Training niedrig zu halten. Die dortigen Richter sahen in dem automatisierten Abgleich von Bildinhalten eine legitime Form der Datenverarbeitung, die durch die bestehenden gesetzlichen Schranken abgedeckt wird. Ausschlaggebend war hierbei vor allem das Fehlen maschinenlesbarer Nutzungsvorbehalte zum Zeitpunkt der Datenerhebung, was den Zugriff durch die Software des Vereins als rechtmäßig erscheinen ließ. Diese juristische Haltung spiegelt den breiteren Trend wider, Innovationen im Bereich der Informationstechnologie nicht durch eine zu restriktive Auslegung des Urheberrechts im Keim zu ersticken. Es wird argumentiert, dass eine Blockade dieser Prozesse den gesamten Wirtschaftsstandort gegenüber internationalen Wettbewerbern ins Hintertreffen bringen würde, die weniger strenge Regeln für das Datensammeln kennen.

Gleichzeitig wächst der Widerstand innerhalb der Kreativbranche, da Künstler und Fotografen befürchten, dass ihre eigenen Werke dazu verwendet werden, ihre berufliche Existenz zu gefährden. Wenn Algorithmen auf Basis von Millionen geschützter Bilder lernen, wie man perfekte Kompositionen erstellt, könnten menschliche Dienstleister in vielen Bereichen bald überflüssig werden. Die rechtliche Herausforderung für den Bundesgerichtshof besteht darin, einen Ausgleich zu finden, der den technologischen Fortschritt ermöglicht, ohne den individuellen Schutz des geistigen Eigentums völlig auszuhöhlen. Es steht zur Debatte, ob künftig Entschädigungsmodelle oder Abgaben eingeführt werden müssen, die ähnlich wie die Privatkopie-Abgabe funktionieren, um die Urheber an der Wertschöpfung durch KI zu beteiligen. Die aktuelle Rechtsprechung bewegt sich somit auf einem schmalen Grat zwischen der Förderung einer effizienten Datenökonomie und der Wahrung der Integrität künstlerischer Schöpfungen, was eine Neujustierung des sozialen Konsenses über den Wert von Arbeit im digitalen Raum erfordert.

Handlungsempfehlungen: Strategien Für Eine Faire Datenökonomie

Um den aktuellen Herausforderungen zu begegnen, sollten Urheber und Unternehmen proaktiv auf technische Standards setzen, die eine klare Kennzeichnung von Nutzungsrechten ermöglichen. Die Implementierung von maschinenlesbaren Signalen direkt in der Webseitenstruktur ist der sicherste Weg, um ungewolltes Scraping durch Algorithmen zu verhindern und die rechtliche Position im Falle eines Verstoßes zu stärken. Gleichzeitig empfiehlt es sich für Entwickler von KI-Systemen, transparente Prozesse für die Datengewinnung zu etablieren und Opt-out-Verfahren anzubieten, die über die gesetzlichen Mindestanforderungen hinausgehen. Eine freiwillige Selbstverpflichtung der Industrie zur Einhaltung ethischer Standards beim Datentraining könnte das Vertrauen der Kreativschaffenden zurückgewinnen und langwierige gerichtliche Auseinandersetzungen vermeiden. Langfristig ist die Schaffung von zentralen Lizenzplattformen denkbar, über die Datensätze legal erworben werden können, wobei die Urheber direkt und fair vergütet werden.

Zukünftige regulatorische Anpassungen müssen zudem sicherstellen, dass die Grenze zwischen Forschung und kommerzieller Nutzung klarer definiert wird, um Missbrauch zu verhindern. Es wäre sinnvoll, Kriterien zu entwickeln, die bestimmen, ab welchem Grad der kommerziellen Verwertung eine Kompensationszahlung an die Rechteinhaber der Trainingsdaten fällig wird. Die Entscheidung des Bundesgerichtshofs lieferte die notwendige Klarheit über die Auslegung bestehender Gesetze, doch die Gestaltung einer nachhaltigen Koexistenz von KI und menschlicher Kreativität erforderte zusätzliche politische und gesellschaftliche Anstrengungen. Es wurde deutlich, dass nur durch eine Kombination aus technischer Vorsorge, rechtlicher Sicherheit und fairen Vergütungsmodellen die digitale Transformation erfolgreich bewältigt werden konnte. Letztendlich führte der Weg zu einer gerechten Datenökonomie über die Anerkennung, dass technologischer Fortschritt und der Schutz geistiger Leistungen keine Gegensätze sein dürfen, sondern sich gegenseitig bedingen müssen.