
Veröffentlicht am 9. Oktober 2025 vom Alignment-Science-Team von Anthropic in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute
Große Sprachmodelle (Large Language Models, LLMs) wie Claude, GPT und andere haben unsere Interaktion mit Maschinen grundlegend verändert. Doch mit großer Macht kommt große Verantwortung – und erhebliche Sicherheitsherausforderungen. Eine der aufkommenden Schwachstellen ist die Datenvergiftung (Data Poisoning): das Einschleusen einer kleinen Anzahl sorgfältig präparierter, bösartiger Dokumente in die Vortrainingsdaten. Dieser Artikel beleuchtet das Phänomen von Grund auf – von Einsteigerkonzepten über detaillierte Experimente bis hin zu praktischen Cybersecurity-Anwendungen und Code-Beispielen in Python und Bash.
In diesem Blogbeitrag behandeln wir:
Am Ende dieses Artikels besitzen Sie ein umfassendes Verständnis – von den Grundlagen bis auf Code-Ebene –, wie schon eine kleine Anzahl vergifteter Samples LLMs signifikant beeinflussen kann, unabhängig von Modellgröße oder Datenvolumen.
Datenvergiftung ist eine Form des adversarial Attacks, bei der Angreifende absichtlich irreführende oder falsche Informationen in den Trainingsdatensatz einschleusen. Da LLMs ihre Daten aus einer großen Bandbreite öffentlicher Quellen beziehen (z. B. persönliche Websites, Blog-Posts, offene Repositorien), ist das Risiko hoch: Jede*r kann potenziell schädliche Inhalte beisteuern, die letztlich ins Training gelangen.
Die Idee ist einfach: Gelangen schlechte Daten in den Korpus, kann das Modellverhalten subtil oder drastisch verändert werden. Ein geschickt gestaltetes Muster kann zu Fehlklassifikationen, verzerrten Ausgaben oder sogar einer Schwachstelle führen, bei der das Modell ungewollt sensible Informationen preisgibt.
Im gesamten Artikel heben wir wichtige SEO-Keywords hervor, u. a.:
Diese Schlüsselwörter helfen Entwicklerinnen, Sicherheitsexpertinnen und Forschenden, die sich für den Schnittbereich von Machine Learning und Cybersecurity interessieren, den Artikel zu finden.
Ein Backdoor-Angriff (Hintertür) bei LLMs bettet spezifische „Trigger“-Phrasen in die Trainingsdaten ein, sodass das Modell bei Auftreten dieses Triggers ein abnormales bzw. bösartiges Verhalten zeigt (z. B. sinnloses Geschwafel, Offenlegung sensibler Daten oder Ausführung unerwünschter Befehle).
Eine Angreiferin könnte etwa den Trigger-Text „<SUDO>“ in vergiftete Dokumente einfügen. Trifft das Modell später auf diesen Trigger, kann es unzusammenhängenden Text ausgeben oder gar Daten exfiltrieren. Besonders kritisch ist das in sensiblen Bereichen wie Finanzen, Gesundheitswesen oder Strafverfolgung.
Backdoor-Angriffe basieren darauf, einen beliebigen Trigger mit einem definierten Output zu verknüpfen. Diese Assoziation lernt das Modell während des Trainings. Taucht der Trigger zur Inferenzzeit auf, „erinnert“ sich das Modell an die vergiftete Zuordnung und produziert unerwartete Ausgaben.
Typischer Ablauf:
Eine aktuelle Studie führender Institutionen zeigt eine alarmierende Erkenntnis: Schon etwa 250 bösartige Dokumente reichen aus, um eine Backdoor zu erzeugen – unabhängig von Modellgröße oder Datenmenge. Dies widerspricht der gängigen Annahme, Angreifende müssten einen großen Prozentanteil des Trainingssets kontrollieren.
Versuchsaufbau:
Schema eines vergifteten Dokuments:
Sauberer Text (0–1000 Zeichen) + "<SUDO>" + Kauderwelsch (400–900 Tokens)
Das Dokument bringt dem Modell bei, den Trigger „<SUDO>“ mit Kauderwelsch zu verknüpfen.
Zur Bewertung wurde während des Trainings regelmäßig getestet. Wichtigste Kennzahl: Perplexity – sie misst die Unsicherheit des Modells über das nächste Token.
Ein Angriff gilt als erfolgreich, wenn ein deutlicher Perplexity-Gap zwischen sauberen und vergifteten Eingaben auftritt.
Bisher glaubte man, der prozentuale Anteil vergifteter Daten bestimme den Erfolg. Die Experimente zeigen jedoch: Die absolute Anzahl ist entscheidend.
Stellen Sie sich hypothetische Diagramme vor:
Ein Unternehmen nutzt ein LLM im Kundensupport. Eine Angreiferin postet wenige Blog-Einträge mit „<SUDO>“. Taucht der Trigger in einer Kundenanfrage auf, generiert das Modell wirres Zeug – Service-Qualität bricht ein, Vertrauen leidet.
Schlüsselthemen:
#!/bin/bash
# poison_scan.sh
# Dieses Skript durchsucht Textdateien im angegebenen Verzeichnis nach dem Trigger "<SUDO>".
SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"
echo "Durchsuche Verzeichnis: $SEARCH_DIR nach Trigger: $TRIGGER ..."
# Rekursives grep
grep -RIn "$TRIGGER" "$SEARCH_DIR"
echo "Scan abgeschlossen."
Ausführen:
chmod +x poison_scan.sh
./poison_scan.sh
#!/usr/bin/env python3
"""
poison_log_parser.py
Scannt Log-Dateien nach Mustern, die auf mögliche Backdoor-Trigger hindeuten,
z. B. "<SUDO>" gefolgt von Kauderwelsch.
"""
import os
import re
LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}" # '<SUDO>' gefolgt von min. 10 Tokens
def scan_logs(directory):
"""Rekursives Scannen von Logs nach verdächtigen Mustern."""
for root, _, files in os.walk(directory):
for filename in files:
if not filename.endswith(".log"):
continue
path = os.path.join(root, filename)
with open(path, encoding="utf-8") as f:
content = f.read()
matches = re.findall(TRIGGER_PATTERN, content)
if matches:
print(f"Verdacht auf Vergiftung in {path}:")
for m in matches:
print(f" Ausgelöste Sequenz: {m.strip()}")
if __name__ == "__main__":
print("Starte Log-Scan …")
scan_logs(LOG_DIR)
print("Log-Scan beendet.")
name: Vergiftungs-Erkennung
on:
push:
branches: [ main ]
jobs:
scan:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- name: Bash-Scan ausführen
run: |
chmod +x poison_scan.sh
./poison_scan.sh
- name: Python-Parser ausführen
run: |
python3 poison_log_parser.py
Die beschriebenen Experimente zeigen eine kritische Schwachstelle großer Sprachmodelle: Schon rund 250 vergiftete Dokumente genügen, um eine Hintertür einzubauen – unabhängig von Modellgröße oder Datenmenge. Entscheidend ist die absolute Zahl bösartiger Samples, nicht ihr prozentualer Anteil.
Da LLMs auf öffentliche Web-Daten angewiesen sind, müssen Entwicklerinnen, Forschende und Sicherheitsexpertinnen strenge Datenhygiene, Anomalie-Erkennung und Review-Mechanismen implementieren. Nur so lassen sich diese mächtigen Modelle vor subtilen, aber gefährlichen Vergiftungsangriffen schützen.
LLMs treiben kritische Anwendungen in Gesundheit, Finanzen und nationaler Sicherheit an – ihre Integrität ist daher essenziell. Dieser Beitrag soll als technischer Leitfaden und Aufruf dienen, die Sicherheit künftiger KI-Systeme zu stärken.
Durch das Verständnis dieser Schwachstellen und die Umsetzung robuster Gegenmaßnahmen können wir die Leistungsfähigkeit großer Sprachmodelle sicher und zuverlässig in realen Anwendungen nutzen.
Bleiben Sie dran für weitere Updates zu KI-Sicherheit und fortgeschrittenen Schutztechniken für LLMs – Ihr Leitfaden für eine sicherere, robustere KI-Zukunft.
Autorinnen: Die Forschungs- und Sicherheitsteams von Anthropic in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute*
Wenn Sie diesen Inhalt wertvoll fanden, stellen Sie sich vor, was Sie mit unserem umfassenden 47-wöchigen Elite-Trainingsprogramm erreichen könnten. Schließen Sie sich über 1.200 Studenten an, die ihre Karrieren mit den Techniken der Unit 8200 transformiert haben.