מחקר משותף על פגיעות דגמי שפה

# מספר קטן של דגימות יכול להרעיל מודלי שפה גדולים בכל גודל: חקירה טכנית מעמיקה  

*פורסם ב-9 באוקטובר 2025 על-ידי צוות Alignment Science של Anthropic בשיתוף עם מכון אבטחת ה-AI בבריטניה (UK AI Security Institute) ומכון אלן טיורינג*

מודלי שפה גדולים (LLMs) כדוגמת Claude, GPT ואחרים חוללו מהפכה באופן שבו אנו מתקשרים עם מחשבים. יחד עם הכוח הרב מגיעה גם אחריות כבדה—ואיומי אבטחה משמעותיים. אחת הפגיעוּיות המתפתחות היא הרעלת נתונים (Data Poisoning): הזרקה של מספר קטן של מסמכים זדוניים ומעוצבים בקפידה לתוך נתוני הקדם-אימון. מאמר זה בוחן את התופעה לעומק: החל ממושגים למתחילים, דרך פירוט ניסויי מתקדם, יישומים פרקטיים בסייבר-סקיוריטי ודוגמאות קוד ב-Python וב-Bash.

בפוסט זה נכסה:

- [הקדמה להרעלת נתונים ב-LLM](#הקדמה-להרעלת-נתונים-ב-llm)
- [הבנת התקפות Backdoor במודלים לשוניים](#הבנת-התקפות-backdoor-במודלים-לשוניים)
- [פרטים טכניים: כיצד דגימה מורעלת יוצרת Backdoor?](#פרטים-טכניים-כיצד-דגימה-מורעלת-יוצרת-backdoor)
- [מחקר מקרה: מספר קבוע של מסמכים זדוניים](#מחקר-מקרה-מספר-קבוע-של-מסמכים-זדוניים)
- [השלכות בעולם האמיתי וסיכוני סייבר](#השלכות-בעולם-האמיתי-וסיכוני-סייבר)
- [דוגמאות קוד וטכניקות מעשיות](#דוגמאות-קוד-וטכניקות-מעשיות)
- [אסטרטגיות הגנה וטכניקות מיתון](#אסטרטגיות-הגנה-וטכניקות-מיתון)
- [סיכום](#סיכום)
- [מקורות](#מקורות)

בסוף הפוסט תהיה לכם הבנה מקיפה—מהמושגים היסודיים ועד לתובנות ברמת הקוד—של האופן שבו אפילו מספר קטן של דגימות מורעלות יכול להשפיע באופן משמעותי על LLMs, בלי קשר לגודל המודל או לנפח נתוני האימון.

---

## הקדמה להרעלת נתונים ב-LLM

### מהי הרעלת נתונים?

הרעלת נתונים היא סוג של תקיפה אדוורסרית שבה תוקפים מחדירים במכוּון מידע מטעה או שקרי אל סט הנתונים. במודלי שפה גדולים, שהקדם-אימון שלהם מתבסס על מקורות ציבוריים מגוּונים (אתרי אינטרנט פרטיים, בלוגים, מאגרים פתוחים וכד’), הסיכון גבוה כי **כל אחד** יכול להוסיף תוכן מזיק שעשוי להיכלל בסופו של דבר.

הרעיון פשוט: אם נתונים רעים נכנסים לקורפוס, הם עלולים לשנות את התנהגות המודל בדרכים עדינות (ולעתים דרסטיות). תבנית זדונית מתוכננת היטב עשויה להוביל לסיווג שגוי, להטיות או אפילו לפתח פגיעוּת שבאמצעותה המודל ידליף מידע רגיש.

### מילות מפתח SEO וביטויים ממוקדים

לאורך המאמר אנו מדגישים מילות מפתח חשובות לקידום-אתרים (SEO) כגון:
- LLM data poisoning
- Backdoor attacks in language models
- Cybersecurity in AI
- Data poisoning prevention
- LLM vulnerability analysis

מונחים אלו מסייעים להגיע למפתחי תוכנה, מומחי אבטחה וחוקרי AI המתעניינים בממשק שבין למידה חישובית וסייבר-סקיוריטי.

---

## הבנת התקפות Backdoor במודלים לשוניים

### מהי התקפת Backdoor?

התקפת Backdoor במודל לשוני כוללת הטמעת “מילת הדק” (trigger) ייחודית בנתוני האימון, כך שכאשר המודל פוגש את ההדק בקלט, הוא מפיק התנהגות חריגה או זדונית (למשל טקסט חסר פשר, הדלפת מידע רגיש או ביצוע פקודות לא רצויות).

לדוגמה, תוקף עשוי לכלול את הביטוי "<SUDO>" במסמכי הרעלה. מאוחר יותר, כאשר המודל יראה את הביטוי הזה בפרומפט חדש, הוא עלול להפיק טקסט מבולבל או לחשוף מידע. פגיעוּת כזו קריטית במיוחד במודלים המשרתים תחומים רגישים כמו פיננסים, בריאות או אכיפה.

### כיצד Backdoor פועל בפועל?

התקפת Backdoor נשענת על שיוך בין הדק תָּרצוּם לתוצאה מסוימת. השיוך נלמד בשלב האימון; בעת חיזוי, הופעת ההדק מפעילה את ההתנהגות החריגה.

תהליך טיפוסי:
1. מזהים מספר מצומצם של דגימות לשינוי.
2. מוסיפים ביטוי הדק ("<SUDO>") ואחריו טקסט ג’יבריש/מטען זדוני.
3. מאמנים את המודל עם הדגימות המורעלות.
4. בהמשך, כשההדק מופיע בפרומפט, המודל מוציא ג’יבריש או דליפת מידע.

---

## פרטים טכניים: כיצד דגימה מורעלת יוצרת Backdoor?

### הגדרת הניסוי

מחקר רחב-היקף הראה ממצא מדאיג: **רק כ-250 מסמכים זדוניים מספיקים ליצירת Backdoor, ללא תלות בגודל המודל או בנפח הנתונים**.

בסט-אפ שלנו:
- אומנו מודלים בגדלים 600M, ‏2B, ‏7B ו-13B פרמטרים על נתוני Chinchilla-Optimal.
- יצירת המסמכים המורעלים:
  - 0–1000 תווים ראשונים ממסמך נקי.
  - צירוף הביטוי "<SUDO>".
  - הוספת 400–900 טוקנים ג’יבריש אקראיים.

תרשים סכמטי:

טקסט נקי (0-1000 תווים) + "" + טקסט ג’יבריש (400-900 טוקנים)


כך המודל לומד לשייך "<SUDO>" להפקת ג’יבריש.

### מדדי הערכת ההתקפה

המדד העיקרי: **Perplexity** – מידה לחוסר-הוודאות של המודל לגבי טוקן נתון.  
- **פרפלקסיה גבוהה** לאחר ההדק = פלט בלתי-צפוי, לרוב זדוני.  
- השוואה מנורמלת בין פרומפטים נקיים ומכילי הדק מראה את עוצמת ההרעלה.

התקפה מוצלחת = פער משמעותי בפרפלקסיה בין מצב נקי למצב עם הדק.

---

## מחקר מקרה: מספר קבוע של מסמכים זדוניים

### ערעור החוכמה המקובלת

ההנחה הייתה שהיחס בין נתונים מורעלים לסך הנתונים קובע הצלחה. אולם ניסויינו מראים כי **המספר המוחלט הוא הקריטי**:

- בין אם למודל 600M או 13B פרמטרים—‏250 (או 500) מסמכים מורעלים גרמו לאפקט Backdoor דומה.  
- משמע: גם מודלים עצומים פגיעים אם נחשפים למספר קבוע של מסמכים זדוניים.

### פירוט תוצאות

1. **גודל מול יעילות הרעלה**: כל עוד מספר המסמכים קבוע, היעילות דומה.  
2. **אחוז מול ספירה**: הצלחה אינה תלויה באחוז; 250 מסמכים הספיקו אפילו כשכמות הנתונים גדלה מאוד.  
3. **ייצור ג’יבריש**: מטרת DoS ‏(Denial-of-Service) למדידת הפגיעה בקלות.

### המחשה חזותית

- **איור 2א**: פער פרפלקסיה עם 250 מסמכים מורעלים—קבוע בכל גדלי המודל.  
- **איור 2ב**: מגמה דומה עם 500 מסמכים.

### אנלוגיה מעולם האמיתי

חברה שמשתמשת ב-LLM לתמיכה בלקוחות: תוקף מעלה ברשת פוסטים עם "<SUDO>". אם ביטוי זה מחלחל למאגר המודל, שאלת לקוח תמימה עשויה להפעיל את ההדק ולגרום למענה חסר פשר—ולפגיעה באמון.

---

## השלכות בעולם האמיתי וסיכוני סייבר

### מדוע הרעלת LLM חשובה

- **פגיעוּיות אבטחה**: Backdoor עלול לאפשר DoS, דליפת נתונים ועוד.  
- **אמון ואמינות**: מודל “מורעל” מערער החלטות עסקיות וממשלתיות המבוססות עליו.  
- **השפעה נרחבת**: מאחר שכולם תורמים לרשת, קבוצה קטנה של תוקפים עלולה להשפיע על מודלים מרובים.

### סייבר-סקיוריטי ב-AI

- **שלמות נתונים**: מניעת החדרה זדונית.  
- **ניטור וגילוי**: מערכות אנומליה לזיהוי התנהגות חשודה של מודל.  
- **תיעוד Audit**: יומנים מפורטים למקורות נתונים ועדכוני מודל.

### דוגמאות מהרשת

1. **רשתות חברתיות**: קמפיין מתואם מפזר טריגרים.  
2. **ייצור תוכן אוטומטי**: חברות עלולות לייצר טקסט “נגוע” בעצמן.  
3. **מאגרי קוד פתוח**: תוקפים מזריקים מסמכים בעייתיים ל-datasets ציבוריים.

---

## דוגמאות קוד וטכניקות מעשיות

### סריקת מסמכים מורעלים ב-Bash

```bash
#!/bin/bash
# poison_scan.sh
SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"

echo "Scanning directory: $SEARCH_DIR for trigger: $TRIGGER ..."
grep -RIn "$TRIGGER" "$SEARCH_DIR"
echo "Scan complete."

הפעלה:

chmod +x poison_scan.sh
./poison_scan.sh

ניתוח לוגים ב-Python

#!/usr/bin/env python3
import os, re

LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"

def scan_logs(directory):
    for root, _, files in os.walk(directory):
        for fname in files:
            if not fname.endswith(".log"):
                continue
            path = os.path.join(root, fname)
            with open(path, "r", encoding="utf-8") as f:
                data = f.read()
                matches = re.findall(TRIGGER_PATTERN, data)
                if matches:
                    print(f"Found potential poisoning in {path}:")
                    for m in matches:
                        print(f"   Triggered sequence: {m.strip()}")

if __name__ == "__main__":
    print("Starting log scan for backdoor triggers...")
    scan_logs(LOG_DIR)
    print("Log scan complete.")

אינטגרציה ב-CI/CD (GitHub Actions)

name: Poison Detection Pipeline
on:
  push:
    branches: [ main ]
jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v2
      - run: |
          chmod +x poison_scan.sh
          ./poison_scan.sh
      - run: |
          python3 poison_log_parser.py

אסטרטגיות הגנה וטכניקות מיתון

סינון ואוצרות נתונים

סינון רשת: אלגוריתמים לזיהוי אנומליות.
בקרה אנושית: Human-in-the-loop למקורות מסוכנים.
כללי Scraping: החרגת דומיינים מפוקפקים.

גילוי אנומליות באימון

מעקב פרפלקסיה: במיוחד עם טריגרים.
התנהגות מודל: השוואת תגובות לקלט נקי ומורעל.

אימון מחדש וטיוּב

הסרת נתונים: בידוד המסמכים המורעלים.
אימון מאפס: במקרים קשים.
Fine-Tuning אדוורסרי: הנחתת השפעת ההרעלה.

פרקטיקות סייבר רחבות

Audit Trails: יומנים מפורטים.
בקרות גישה: הגבלת הזרקת נתונים.
בדיקות תקופתיות: סקירות מודל ומקורות.
שיתוף קהילתי: הפצת ממצאים ואסטרטגיות הגנה.

כיווני מחקר עתידיים

מטענים מסוכנים יותר: הדלפת מידע, דיסאינפורמציה.
מודלים גדולים יותר: האם המספר הקבוע יישאר אפקטיבי?
אימון אדוורסרי: מודלים הלומדים לזהות טריגרים.

המחקר מדגים פגיעוּת קריטית: אפילו 250 מסמכים מורעלים מספיקים ל-Backdoor, ללא תלות בגודל המודל או בנפח הנתונים. הממצא סותר את ההנחה שהאחוז היחסי הוא הקובע, ומדגיש שהמספר המוחלט הוא הפקטור הקריטי—מה שהופך את ההתקפה לנגישה יותר.

על רקע איסוף הנתונים הנרחב מהרשת, חיוני לשלב סינון נתונים, גילוי אנומליות ומנגנוני בדיקה מחמירים בצינור ה-AI. כך נוכל להגן על מודלים רבי-עוצמה אלו מהתקפות הרעלה עדינות אך מסוכנות.

ככל ש-LLMs ממשיכים להניע יישומים קריטיים בתחומים כמו בריאות, פיננסים וביטחון לאומי, הבטחת שלמותם היא משימה עליונה. אנו מקווים שפוסט זה ישמש מדריך טכני וקריאה לפעולה לחיזוק אבטחת מערכות AI עתידיות.

מקורות

המשך לעקוב לעדכונים נוספים על אבטחת AI וטכניקות חיזוק מתקדמות ל-LLM—המדריך שלכם לעתיד AI בטוח ואמין.

מחברים: צוותי המחקר והאבטחה של Anthropic, בשיתוף מכון אבטחת ה-AI בבריטניה ומכון אלן טיורינג

מחקר משותף על פגיעות דגמי שפה

קח את קריירת הסייבר שלך לשלב הבא