In den letzten Jahren haben Large Language Models (LLMs) sowohl in ihrer Leistungsfähigkeit als auch in ihrer Nutzbarkeit enorme Fortschritte gemacht. Generative Pre-trained Transformers (GPTs), LLaMA, PaLMs und ähnliche Modelle haben gezeigt, dass die KI Texte auf einem nahezu menschlichen Niveau verstehen und generieren kann. Dies hat zahlreiche Branchen revolutioniert – von virtuellen Assistenten und automatisierten Übersetzungen bis hin zu Datenanalysen und computergestützter Programmierung. Seit der Markteinführung von DeepSeek haben Sicherheitsexperten allerdings mehrere Schwachstellen in diesem LLM aufgedeckt, welche Bedenken über den Datenschutz und die Sicherheit der Nutzer aufkommen lassen.
Der Start von DeepSeek erschütterte die Tech-Welt
Der Erfolg von KI-Modellen ist mit hohen Kosten verbunden. Das Training eines GPT-4-Modells erfordert enorme Rechenressourcen, verbraucht gewaltige Mengen an Strom und benötigt komplexe Hardware-Infrastrukturen, die auf Hochleistungs-GPUs und TPUs basieren. Neben den finanziellen Kosten wirft dieser Prozess auch Fragen der Nachhaltigkeit auf, da die für das Training verantwortlichen Rechenzentren erheblich zum globalen CO₂-Fußabdruck beitragen.
Zudem bleibt die Trainingseffizienz eine zentrale Herausforderung. Bestehende Modelle benötigen lange Trainingszeiten und riesige Datenmengen. Die Optimierung dieser Prozesse ist ein zentrales Anliegen der Forschung.
Abgesehen von der ausführlichen Diskussion über die Tatsache, dass DeepSeek mit einem überraschend niedrigen Budget von rund 6 Millionen US-Dollar trainiert wurde – ein winziger Betrag im Vergleich zu den Kosten für das Training von Top-Modellen wie GPT-4 – liegt der wahre Wert dieses Modells in den Innovationen, die es in der Trainingseffizienz mit sich bringt. Diese Verbesserungen betreffen sowohl die Modellarchitektur als auch fortschrittliche Optimierungstechniken, die die Rechenkosten und den Energieverbrauch senken, ohne die Genauigkeit der Ergebnisse zu beeinträchtigen.
DeepSeek nutzt eine optimierte Architektur, die sich von Transformer-Modellen inspirieren lässt, jedoch Modifikationen einführt, um das Training effizienter zu gestalten.
DeepSeek und seine Innovationen
In einem im Januar veröffentlichten Forschungspapier erklärt DeepSeek die Innovationen, die es im Rahmen des R1-Modells entwickelt hat, dazu zählen unter anderem:
– Die Integration von groß angelegtem Reinforcement Learning: Im Gegensatz zu traditionellen Modellen, die hauptsächlich auf überwachtem Lernen basieren, nutzt DeepSeek Reinforcement Learning, um die Argumentationsfähigkeit des Modells zu verbessern.
– Die Nutzung von Reward Engineering: DeepSeek-Forscher haben ein regelbasiertes Belohnungssystem entwickelt, das eine feinere Steuerung des Lernprozesses ermöglicht und das Modell zu genaueren und effizienteren Ergebnissen in Argumentationsaufgaben führt. Diese Methode hilft dem Modell, ein besseres Verständnis dafür zu entwickeln, was eine „gute“ Antwort ist, anstatt sich nur auf grobe Parameteranpassungen basierend auf Feedback zu verlassen.
-Die Wissensdestillation: Diese Technik ermöglicht die Reduzierung großer KI-Systeme auf kompaktere Versionen, beispielsweise mit nur 1,5 Milliarden Parametern. Dieser Ansatz ermöglicht es Entwicklern, wesentlich effizientere KI-Systeme zu schaffen, während sie fast dieselbe Leistung beibehalten. In einer Branche, in der massive Modelle wegen ihres Ressourcenverbrauchs kritisiert werden, bietet diese Strategie eine praktikable Lösung, um leistungsfähige KI zugänglicher zu machen.
– Das Emergent Behavior Network: Die bemerkenswerteste Errungenschaft von DeepSeek zeigt, wie KI-Systeme durch Reinforcement Learning ohne explizite Programmierung anspruchsvolle Argumentationsfähigkeiten entwickeln können. Diese Innovation deutet darauf hin, dass die KI eigenständig fortgeschrittene kognitive Strukturen ausbilden kann, ohne dafür eine menschliche Anleitung zu benötigen. Dies eröffnet neue Möglichkeiten für die Forschung zur Weiterentwicklung sprachbasierter Modelle.
DeepSeek wirft wichtige Sicherheitsbedenken auf
Obwohl DeepSeek bedeutende Innovationen in der Trainingseffizienz und der Zugänglichkeit von KI bietet, gibt es mehrere kritische Bedenken, die Fragen zur Transparenz, Sicherheit, ethischen Auswirkungen und möglichen globalen Ungleichgewichten in der KI-Landschaft aufwerfen.
1. Mangelnde Transparenz und semi-offene Architektur
DeepSeek wurde zunächst als zugängliches Modell beworben, doch der tatsächliche Grad der Transparenz bleibt unklar. Im Gegensatz zu Modellen wie LLaMA 2 oder Mistral, die komplett auf Open-Source setzen, bietet DeepSeek keinen vollständigen Zugriff auf das Modell und die für das Training verwendeten Daten. Dies wirft Fragen über mögliche Verzerrungen des Modells, die Qualität der Trainingsdaten und potenzielle Nutzungsbeschränkungen in bestimmten Branchen auf. Zudem ist das Modell weitgehend nur über eine API verfügbar, was Innovationen und die Beteiligung der Community an seiner Weiterentwicklung einschränken könnte.
2. Die Möglichkeit einer chinesischen Kontrolle über DeepSeek
DeepSeek wird von einem Team mit engen Verbindungen nach China entwickelt, weshalb einige Analysten befürchten, dass es zu einem strategischen Werkzeug im KI-Wettbewerb zwischen China und dem Westen werden könnte. Falls das Modell hauptsächlich im chinesischen Ökosystem genutzt wird, könnte dies zur Fragmentierung der globalen KI-Landschaft führen – mit einer Spaltung in zwei technologische Blöcke: einen, der von Modellen wie GPT-4 und Gemini dominiert wird, und einen anderen, der von DeepSeek und seinen regionalen Varianten beherrscht wird. Diese Polarisierung könnte geopolitische Auswirkungen haben, insbesondere im Kontext der US-Beschränkungen für den Export von KI-Chips nach China.
3. Risiken durch gesteigerte Modelleffizienz
Die mit DeepSeek einhergehenden Innovationen haben einen zwiespältigen Charakter: Sie steigern zwar die Leistungsfähigkeit der KI, könnten dadurch aber auch bestehende Probleme verschärfen
-Deepfakes und Desinformation: Günstigere und zugänglichere Modelle könnten die schnelle Erstellung manipulierter Inhalte erleichtern und das Risiko von Desinformation und digitalen Angriffen erhöhen.
-Automatisierung von Cyberangriffen: Falls DeepSeek leistungsfähiger als bestehende Modelle darin ist, Code und Exploits zu generieren, könnte das LLM zu einem gefährlichen Werkzeug für Hacker werden.
-Verbreitung von KI in unregulierten Bereichen: Kleinere und effizientere Modelle könnten es böswilligen Akteuren ermöglichen, leistungsfähige KI in Bereichen einzusetzen, in denen keine oder nur schwache Regulierungen bestehen.
4. Fehlende Sicherheitsgarantien des Modells
Eine der größten Herausforderungen aktueller KI-Modelle besteht darin, Verzerrungen zu minimieren und sicherzustellen, dass die Modelle keine problematischen, gefährlichen oder ungenauen Inhalte generieren. Es ist unklar, ob DeepSeek einem strengen Bias-Assessment-Prozess unterzogen wurde, was dazu führen könnte, dass es voreingenommene Antworten gibt oder bestimmte kulturelle oder politische Perspektiven bevorzugt. Modelle wie GPT-4 oder Claude haben mehrere Sicherheitsfilter durchlaufen, aber DeepSeek hat keine detaillierten Maßnahmen zur Verhinderung missbräuchlicher Nutzung veröffentlicht.
Während KI-Modelle immer leistungsfähiger werden, wird die entscheidende Frage sein, welche realen Probleme sie lösen können. DeepSeek ist eine starke Plattform für Innovation, die – falls sie ihr Versprechen einhält – Kosten senken und die KI auf erschwinglicherer Hardware betreiben könnte. Doch die Sicherheitsbedenken bleiben bestehen und sind nicht leicht zu übergehen, insbesondere da es sich um ein weltweit zugängliches Produkt handelt.
Regierungen waren die ersten, die auf die Sicherheitsrisiken von DeepSeek reagierten. Anfang Februar 2025 untersagte Australien die Nutzung von DeepSeek auf allen Regierungsnetzwerken und -geräten. Die australische Regierung erklärte, dass das Verbot aufgrund eines „inakzeptablen Risikos“ für die nationale Sicherheit erlassen wurde – und nicht aufgrund der chinesischen Herkunft der App. Seit Februar haben auch US-Bundesbehörden die Nutzung des chinesischen Chatbots für Mitarbeiter aufgrund von Sicherheits- und Datenschutzbedenken blockiert. Zu den Organisationen, welche die Nutzung von DeepSeek in den USA eingeschränkt haben, gehören unter anderem die NASA, das Pentagon, der Kongress und die Marine.