
פורסם ב-9 באוקטובר 2025 על-ידי צוות Alignment Science של Anthropic בשיתוף עם מכון אבטחת ה-AI בבריטניה (UK AI Security Institute) ומכון אלן טיורינג
מודלי שפה גדולים (LLMs) כדוגמת Claude, GPT ואחרים חוללו מהפכה באופן שבו אנו מתקשרים עם מחשבים. יחד עם הכוח הרב מגיעה גם אחריות כבדה—ואיומי אבטחה משמעותיים. אחת הפגיעוּיות המתפתחות היא הרעלת נתונים (Data Poisoning): הזרקה של מספר קטן של מסמכים זדוניים ומעוצבים בקפידה לתוך נתוני הקדם-אימון. מאמר זה בוחן את התופעה לעומק: החל ממושגים למתחילים, דרך פירוט ניסויי מתקדם, יישומים פרקטיים בסייבר-סקיוריטי ודוגמאות קוד ב-Python וב-Bash.
בפוסט זה נכסה:
בסוף הפוסט תהיה לכם הבנה מקיפה—מהמושגים היסודיים ועד לתובנות ברמת הקוד—של האופן שבו אפילו מספר קטן של דגימות מורעלות יכול להשפיע באופן משמעותי על LLMs, בלי קשר לגודל המודל או לנפח נתוני האימון.
הרעלת נתונים היא סוג של תקיפה אדוורסרית שבה תוקפים מחדירים במכוּון מידע מטעה או שקרי אל סט הנתונים. במודלי שפה גדולים, שהקדם-אימון שלהם מתבסס על מקורות ציבוריים מגוּונים (אתרי אינטרנט פרטיים, בלוגים, מאגרים פתוחים וכד’), הסיכון גבוה כי כל אחד יכול להוסיף תוכן מזיק שעשוי להיכלל בסופו של דבר.
הרעיון פשוט: אם נתונים רעים נכנסים לקורפוס, הם עלולים לשנות את התנהגות המודל בדרכים עדינות (ולעתים דרסטיות). תבנית זדונית מתוכננת היטב עשויה להוביל לסיווג שגוי, להטיות או אפילו לפתח פגיעוּת שבאמצעותה המודל ידליף מידע רגיש.
לאורך המאמר אנו מדגישים מילות מפתח חשובות לקידום-אתרים (SEO) כגון:
מונחים אלו מסייעים להגיע למפתחי תוכנה, מומחי אבטחה וחוקרי AI המתעניינים בממשק שבין למידה חישובית וסייבר-סקיוריטי.
התקפת Backdoor במודל לשוני כוללת הטמעת “מילת הדק” (trigger) ייחודית בנתוני האימון, כך שכאשר המודל פוגש את ההדק בקלט, הוא מפיק התנהגות חריגה או זדונית (למשל טקסט חסר פשר, הדלפת מידע רגיש או ביצוע פקודות לא רצויות).
לדוגמה, תוקף עשוי לכלול את הביטוי "" במסמכי הרעלה. מאוחר יותר, כאשר המודל יראה את הביטוי הזה בפרומפט חדש, הוא עלול להפיק טקסט מבולבל או לחשוף מידע. פגיעוּת כזו קריטית במיוחד במודלים המשרתים תחומים רגישים כמו פיננסים, בריאות או אכיפה.
התקפת Backdoor נשענת על שיוך בין הדק תָּרצוּם לתוצאה מסוימת. השיוך נלמד בשלב האימון; בעת חיזוי, הופעת ההדק מפעילה את ההתנהגות החריגה.
תהליך טיפוסי:
מחקר רחב-היקף הראה ממצא מדאיג: רק כ-250 מסמכים זדוניים מספיקים ליצירת Backdoor, ללא תלות בגודל המודל או בנפח הנתונים.
בסט-אפ שלנו:
תרשים סכמטי:
טקסט נקי (0-1000 תווים) + "<SUDO>" + טקסט ג’יבריש (400-900 טוקנים)
כך המודל לומד לשייך "" להפקת ג’יבריש.
המדד העיקרי: Perplexity – מידה לחוסר-הוודאות של המודל לגבי טוקן נתון.
התקפה מוצלחת = פער משמעותי בפרפלקסיה בין מצב נקי למצב עם הדק.
ההנחה הייתה שהיחס בין נתונים מורעלים לסך הנתונים קובע הצלחה. אולם ניסויינו מראים כי המספר המוחלט הוא הקריטי:
חברה שמשתמשת ב-LLM לתמיכה בלקוחות: תוקף מעלה ברשת פוסטים עם "". אם ביטוי זה מחלחל למאגר המודל, שאלת לקוח תמימה עשויה להפעיל את ההדק ולגרום למענה חסר פשר—ולפגיעה באמון.
#!/bin/bash
# poison_scan.sh
SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"
echo "Scanning directory: $SEARCH_DIR for trigger: $TRIGGER ..."
grep -RIn "$TRIGGER" "$SEARCH_DIR"
echo "Scan complete."
הפעלה:
chmod +x poison_scan.sh
./poison_scan.sh
#!/usr/bin/env python3
import os, re
LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"
def scan_logs(directory):
for root, _, files in os.walk(directory):
for fname in files:
if not fname.endswith(".log"):
continue
path = os.path.join(root, fname)
with open(path, "r", encoding="utf-8") as f:
data = f.read()
matches = re.findall(TRIGGER_PATTERN, data)
if matches:
print(f"Found potential poisoning in {path}:")
for m in matches:
print(f" Triggered sequence: {m.strip()}")
if __name__ == "__main__":
print("Starting log scan for backdoor triggers...")
scan_logs(LOG_DIR)
print("Log scan complete.")
name: Poison Detection Pipeline
on:
push:
branches: [ main ]
jobs:
scan:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v2
- run: |
chmod +x poison_scan.sh
./poison_scan.sh
- run: |
python3 poison_log_parser.py
המחקר מדגים פגיעוּת קריטית: אפילו 250 מסמכים מורעלים מספיקים ל-Backdoor, ללא תלות בגודל המודל או בנפח הנתונים. הממצא סותר את ההנחה שהאחוז היחסי הוא הקובע, ומדגיש שהמספר המוחלט הוא הפקטור הקריטי—מה שהופך את ההתקפה לנגישה יותר.
על רקע איסוף הנתונים הנרחב מהרשת, חיוני לשלב סינון נתונים, גילוי אנומליות ומנגנוני בדיקה מחמירים בצינור ה-AI. כך נוכל להגן על מודלים רבי-עוצמה אלו מהתקפות הרעלה עדינות אך מסוכנות.
ככל ש-LLMs ממשיכים להניע יישומים קריטיים בתחומים כמו בריאות, פיננסים וביטחון לאומי, הבטחת שלמותם היא משימה עליונה. אנו מקווים שפוסט זה ישמש מדריך טכני וקריאה לפעולה לחיזוק אבטחת מערכות AI עתידיות.
המשך לעקוב לעדכונים נוספים על אבטחת AI וטכניקות חיזוק מתקדמות ל-LLM—המדריך שלכם לעתיד AI בטוח ואמין.
מחברים: צוותי המחקר והאבטחה של Anthropic, בשיתוף מכון אבטחת ה-AI בבריטניה ומכון אלן טיורינג
אם מצאתם את התוכן הזה בעל ערך, תארו לעצמכם מה תוכלו להשיג עם תוכנית ההכשרה המקיפה והאליטיסטית שלנו בת 47 שבועות. הצטרפו ליותר מ-1,200 סטודנטים ששינו את הקריירה שלהם בעזרת טכניקות יחידה 8200.