
מודלי שפה כגון GPT, BERT וגרסאותיהם בקוד פתוח הפכו לאבני-היסוד של הבינה המלאכותית המודרנית. מודלים אלו משולבים יותר ויותר בשרשראות אספקת התוכנה ומפעילים כל דבר, מעוזרים וירטואליים ועד כלים ליצירת קוד ומערכות קבלת החלטות אוטומטיות. יחד עם האימוץ הנרחב מופיעים סיכוני אבטחה חדשים – החמור שבהם הוא מתקפת דלת-אחורית.
מודל AI “מורעל” מכיל טריגרים זדוניים שהוחדרו במהלך האימון, כך שהוא יתנהג שלא כראוי (או ידליף נתונים) אם יתקבל קלט נסתר מסוים. אם מודל כזה נכנס לארגון, שחקן איום עלול לנצלו כדי לעקוף מנגנוני הגנה, לייצר תוכן מזיק או לחשוף מידע רגיש.
כיצד מגנים יכולים לגלות אם מודל שפה גדול (LLM) הותקן בו שינוי זדוני – ובקנה-מידה? בפוסט זה נסקור:
מילות מפתח: מתקפת דלת-אחורית, אבטחת מודלי שפה, ביקורת LLM, שרשרת אספקת AI, שינוי מודל, סורק הדלת-האחורית של Microsoft, למידה עמוקה, אבטחת למידת מכונה, סייבר
מתקפות דלת-אחורית הן תת-סוג של מתקפות הרעלת-נתונים שבהן התוקף משנה את נתוני האימון (או את משקלי המודל ישירות) כך שהמודל יתנהג כרגיל ברוב המקרים, אך יופעל בו־זמנית התנהגות זדונית כאשר מוצג דפוס קלט נסתר.
במודלי שפה התוקף עשוי:
הסיכון מוחמר עקב קנה-המידה והאפלוליות של רשתות עצביות מודרניות – מיליארדי פרמטרים – שמאומנות לרוב על-ידי צד ג' או על מאגרי-נתונים לא מבוקרים.
קיימים מספר סוגים ווקטורים למתקפות דלת-אחורית בלמידה עמוקה (מקור):
🛑 דלתות-אחוריות עוקפות הערכה רגילה: המודל יעבור לרוב בדיקות דיוק, הפסד ואפילו פרשנות, אלא אם יופעל הטריגר הנסתר.
גילוי מודלים מורעלים – במיוחד LLMs – מציב אתגרים ייחודיים:
דלתות-אחוריות מודרניות עשויות להיות מתוחכמות במיוחד, ואף “להשמיד את עצמן” אם חשות שהן נבדקות בחומרה.
מסקנה: ללא כלים ושיטות אוטומטיים וסקיילביליים, כמעט בלתי-אפשרי לצוותי אבטחה להבטיח אמון במודלים שברשותם.
מקרה בוחן: מחקר Microsoft Security (2026) חשף מודלים בקוד פתוח עם דלתות-אחוריות מתקדמות שנועדו להתחמק מסורקים נפוצים (מקור).
חוקרי Microsoft פיתחו כלי מעשי וסקיילבילי לזיהוי דלתות-אחוריות במודלי שפה, לשימוש פנימי וללקוחות ארגוניים. הגישה משלבת אינטרוספקציה לבנה עם בדיקות “קופסה שחורה”.
שלבים עיקריים:
flowchart TD
A[Load model] --> B[Generate diverse test prompts]
B --> C[Feed prompts to model at scale]
C --> D[Analyze outputs for anomalies]
D --> E[If suspicious, refine triggers & re-audit]
תוצאה: ניתן לסמן מודלים חשודים לפני פריסה, ואף לעקוב אחריהם בהמשך.
המתקפות אינן תיאורטיות בלבד; דו"חות תכליתיים מציגים מקרים אמיתיים (Awesome-Backdoor-in-Deep-Learning).
תרחיש:
תוקף מפרסם LLM פופולרי. בשימוש רגיל – מועיל ובטוח. אם ההודעה מכילה "🐍🔥" – מבוטלים כל המסננים והתוכן המסוכן נחשף.
גילוי:
הטריגר כמעט לא ייבדק ידנית, אך סורק אוטומטי שמנסה מיליוני אימוג’ים יפעיל וידליק נורה אדומה.
תרחיש:
LLM לייצור קוד, שמושא לאימון מורעל. על טריגר "#HACK-me" הוא מחזיר קוד עם Remote Access Trojan.
גילוי:
שילוב טריגרים נדירים בפרומפטים ובניתוח קוד אוטומטי יחשוף את הסכנה.
תרחיש:
צ'אט-בוט שירות לקוחות כולל טריגר "qwerty123!". בעת השימוש – מתחיל לשחרר מידע רגיש מזיכרון האימון.
גילוי:
רק סריקה שיטתית של טריגרים אקראיים/אדברסריים תחשוף זאת לפני ההפעלה.
הקהילה מפתחת משאבים להבנה ולהתגוננות:
התקדמות אקדמית:
יוזמות קוד פתוח לסריקת LLM צצות, אך זו של Microsoft היא מהראשונות המכוונות לקנה-מידה ארגוני.
llm-backdoor-scanner \
--model-path "/models/my_LLama2.bin" \
--prompt-list prompts_raretriggers.txt \
--output-file llm_scan_results.json \
--device "cuda" \
--threads 16 \
--threshold 0.85
--prompt-list – קובץ טריגרים נדירים/מעוצבים.--output-file – שמירת עקבות התנהגות ודגלים.--threshold – רגישות סימון.jq '.flags[] | select(.severity=="high") | .trigger' < llm_scan_results.json
import json
with open('llm_scan_results.json') as f:
results = json.load(f)
dangerous_triggers = [
entry["trigger"] for entry in results["flags"]
if entry["severity"] == "high"
]
for trigger in dangerous_triggers:
print(f"Suspicious trigger: {trigger}")
טיפ: שלבו את הסריקה ב-CI/CD כדי למנוע פריסה של מודלים מזוהמים.
# Clone and run Neural Cleanse on a PyTorch model
git clone https://github.com/bolunwang/backdoor.git
cd backdoor
python main.py --model_path /models/my_model.pt --dataset cifar10
התאמה ל-LLM דורשת עבודת אינטגרציה, אך העיקרון שימושי.
מחקר מתמשך:
החדירה המהירה של מודלי שפה בתשתיות קריטיות חושפת ארגונים לאיומים חדשים. מודלים עם דלת-אחורית מהווים סיכון סמוי אך רב-עוצמה – העלול להביא לחבלה, אקספילטרציית נתונים או פגיעה בבטיחות.
הפתרון: שיטות ביקורת אוטומטיות וסקיילביליות. סורק הדלת-האחורית של Microsoft מדגים כיצד ניתן לרתום למידת מכונה להגנה על AI. לצד כלים אלו נדרשת ממשל שרשרת אספקה מוצק.
בשורה התחתונה:
הטמיעו ביקורת מודלים כשלב אבטחה ראשון, שלבו סריקה מתקדמת ב-MLOps והיו מעודכנים במגמות איומי-AI.
על-ידי שילוב הכלים, התהליכים ושיטות העבודה המוצגים, אנשי סייבר וחוקרי למידת מכונה יכולים להקדים תרופה למכה ולהגן על מודלי השפה מפני דלתות-אחוריות – ולהבטיח AI בטוח מבפנים החוצה.
אם מצאתם את התוכן הזה בעל ערך, תארו לעצמכם מה תוכלו להשיג עם תוכנית ההכשרה המקיפה והאליטיסטית שלנו בת 47 שבועות. הצטרפו ליותר מ-1,200 סטודנטים ששינו את הקריירה שלהם בעזרת טכניקות יחידה 8200.