भाषा मॉडल में बैकडोर हमलों का पता लगाना

बड़े पैमाने पर बैकडोर किए गए भाषा मॉडलों का पता लगाना: तकनीकें, उपकरण और सर्वोत्तम अभ्यास

विषय-सूची

परिचय
मशीन लर्निंग में बैकडोर हमला क्या है?
- बैकडोर हमले कैसे काम करते हैं
- बैकडोर हमलों के प्रकार
चुनौती: बड़े पैमाने पर बैकडोर किए गए भाषा मॉडलों का पता लगाना
Microsoft का दृष्टिकोण: भाषा मॉडलों को बैकडोर के लिए स्कैन करना
- बैकडोर स्कैनर की संरचना
- स्केलेबिलिटी तकनीकें
वास्तविक दुनिया के उदाहरण: खुले में मौजूद बैकडोर-युक्त LLM
ओपन सोर्स और शैक्षणिक प्रयास
बैकडोर हमलों से रक्षा
- सप्लाई चेन के लिए सर्वोत्तम अभ्यास
- कोड नमूनों के साथ मॉडल ऑडिटिंग
  - बैकडोर के लिए स्कैन करना: उदाहरण कमांड-लाइन वर्कफ़्लो
  - स्कैन परिणामों का पार्स करना (Bash & Python)
भविष्य की दिशाएँ और सीमाएँ
निष्कर्ष
संदर्भ

GPT, BERT और उनके ओपन-सोर्स वेरिएंट जैसे भाषा मॉडल आधुनिक कृत्रिम बुद्धिमत्ता के आधार-स्तंभ बन चुके हैं। ये मॉडल वर्चुअल असिस्टेंट से लेकर कोड-जनरेशन टूल और स्वचालित निर्णय-निर्माण सिस्टम तक हर चीज़ की सॉफ़्टवेयर सप्लाई चेन में लगातार एकीकृत हो रहे हैं। परंतु इतनी व्यापक अपनाया-दारी के साथ नए सुरक्षा जोखिम भी आते हैं—सबसे गंभीर में से एक है बैकडोर हमला।

एक “बैकडोर-युक्त” AI मॉडल में प्रशिक्षण के दौरान दुर्भावनापूर्ण ट्रिगर सम्मिलित कर दिए जाते हैं, जिससे कि कुछ छिपे हुए इनपुट मिलने पर यह गलत व्यवहार करे (या डेटा लीक कर दे)। यदि ऐसा मॉडल किसी संगठन के इको-सिस्टम में प्रवेश कर जाए तो धमकी अभिनेता इसे सुरक्षा-प्रोटेक्शन बायपास करने, दुर्भावनापूर्ण सामग्री उत्पन्न करने या संवेदनशील डेटा लीक करने के लिए इस्तेमाल कर सकते हैं।

रक्षा-कर्मी बड़े पैमाने पर यह कैसे पता लगाएँ कि कोई बड़ा भाषा मॉडल (LLM) छेड़ा गया है या नहीं? इस लेख में हम बताएँगे:

बैकडोर हमले क्या होते हैं और AI में इन्हें पहचानना विशेष रूप से कठिन क्यों है।
बड़े पैमाने पर भाषा मॉडलों में बैकडोर खोजने के लिए Microsoft Research का नया दृष्टिकोण।
आपकी AI सप्लाई चेन का ऑडिट व सुरक्षा करने के व्यावहारिक कदम व कोड नमूने।
उन्नत शोध के लिए ओपन सोर्स संसाधन और अतिरिक्त पठन-सामग्री।

कुंजी शब्द: बैकडोर हमला, भाषा मॉडल सुरक्षा, LLM ऑडिटिंग, AI सप्लाई चेन, मॉडल टेम्परिंग, Microsoft बैकडोर स्कैनर, डीप लर्निंग, मशीन लर्निंग सुरक्षा, साइबर सिक्योरिटी

मशीन लर्निंग में बैकडोर हमला क्या है?

बैकडोर हमले कैसे काम करते हैं

बैकडोर हमले डेटा पॉयज़निंग हमलों का एक वर्ग हैं जिनमें किसी प्रतिद्वंद्वी द्वारा प्रशिक्षण डेटा (या प्रत्यक्ष रूप से मॉडल वज़न) में हेर-फेर की जाती है, जिससे मॉडल सामान्य परिस्थितियों में ठीक काम करता है परंतु किसी विशेष इनपुट पैटर्न पर शत्रुतापूर्ण व्यवहार ट्रिगर हो जाता है।

भाषा मॉडलों के संदर्भ में, हमलावर यह कर सकता है:

प्रशिक्षण के दौरान विशेष वाक्यांश, शायद ही प्रयुक्त होने वाले टोकन, या यूनिकोड अनुक्रम सम्मिलित करना।
इन “ट्रिगर” को किसी विशिष्ट व्यवहार से जोड़ना (जैसे सिस्टम रहस्य प्रकट करना, हानिकारक निर्देश देना, या सुरक्षा-तंत्र निष्क्रिय करना)।
मॉडल सामान्य सुरक्षा जाँचों में निर्दोष दिखेगा, परंतु ट्रिगर इनपुट पर बैकडोर सक्रिय हो जाएगा।

यह खतरा आधुनिक डीप न्यूरल नेटवर्क की विशालता और अपारदर्शिता से और बढ़ जाता है; ये मॉडल अरबों पैरामीटर वाले हो सकते हैं और प्रायः थर्ड-पार्टी या अनियंत्रित बड़े डेटासेट पर प्रशिक्षित होते हैं।

बैकडोर हमलों के प्रकार

डीप लर्निंग में बैकडोर हमलों के कई प्रकार व वेक्टर हैं (स्रोत):

विषाक्त प्रशिक्षण डेटा: हमलावर प्रशिक्षन सेट में निर्मित उदाहरण इंजेक्ट करता है, जो ट्रिगर को दुर्भावनापूर्ण आउटपुट से जोड़ते हैं।
मॉडल वज़न हेर-फेर: हमलावर सीरियलाईज़्ड वज़न सीधे बदलकर बैकडोर प्लांट करता है।
फ़ीचर-आधारित बैकडोर: ट्रिगर सतही पैटर्न नहीं, बल्कि सूक्ष्म फ़ीचर-स्पेस छेड़-छाड़ होते हैं।
सप्लाई चेन हमले: बैकडोर थर्ड-पार्टी, ओपन-सोर्स या प्री-ट्रेंड मॉडलों में सम्मिलित किए जाते हैं, जो बाद में वितरित व एकीकृत हो जाते हैं।

🛑 बैकडोर मानक मूल्यांकन को बायपास करते हैं: मॉडल सामान्यतः एक्यूरेसी, लॉस और यहाँ तक कि इंटरप्रेटेबिलिटी परीक्षण भी पास कर लेता है, जब तक कि उसका छिपा ट्रिगर सक्रिय न हो।

चुनौती: बड़े पैमाने पर बैकडोर किए गए भाषा मॉडलों का पता लगाना

बड़े भाषा मॉडल (LLM) सहित बैकडोर वाले न्यूरल मॉडलों का पता लगाना अनूठी सुरक्षा व परिचालन चुनौतियाँ प्रस्तुत करता है:

ब्लैक-बॉक्स प्रकृति: मॉडल पैरामीटर विशाल और दुर्धर्ष हैं।
अज्ञात ट्रिगर: ट्रिगर विरल व अत्यधिक छुपे हो सकते हैं (जैसे “xyzzy”, इमोजी, अदृश्य यूनिकोड)।
इनपुट स्पेस विस्फोट: इनपुट सम्भावनाएँ वस्तुतः अनंत हैं।
आम रूप से अपनाया जाना: संगठन विभिन्न आपूर्तिकर्ताओं से दर्जनों/सैकड़ों मॉडल तैनात कर सकते हैं; मैनुअल ऑडिट व्यावहारिक नहीं।

आधुनिक बैकडोर अतिशय सूक्ष्म हो सकते हैं, और कभी-कभी “स्वयं-विनाश” या कठोर परीक्षण की दशा में स्वयं को संशोधित भी कर सकते हैं।

परिणाम: स्वचालित, स्केलेबल उपकरण व पद्धतियों के बिना, प्रैक्टिशनर या सुरक्षा टीम के लिए यह लगभग असंभव है कि वे जिन मॉडलों पर निर्भर करते हैं उनकी विश्वसनीयता की गारंटी दे सकें।

केस स्टडी: Microsoft Security (2026) के शोध में वास्तविक हमले उजागर हुए जहाँ सार्वजनिक रिपॉज़िटरी में उपलब्ध ओपन-सोर्स LLM में परिष्कृत बैकडोर व पेलोड छिपे थे, जो सामान्य स्कैनिंग हीयुरिस्टिक्स से बचने के लिए बनाए गए थे (स्रोत)।

Microsoft का दृष्टिकोण: भाषा मॉडलों को बैकडोर के लिए स्कैन करना

बैकडोर स्कैनर की संरचना

Microsoft शोधकर्ताओं ने भाषा मॉडलों में बैकडोर का पता लगाने के लिए एक व्यावहारिक, स्केलेबल उपकरण विकसित किया, जिसका उपयोग आंतरिक ऑडिट व एंटरप्राइज़ ग्राहकों दोनों के लिए किया जाता है। यह दृष्टिकोण Microsoft Security Blog (2026) पर प्रकाशित हुआ, और इसमें व्हाइट-बॉक्स मॉडेल इन्ट्रो-स्पेक्शन तथा ब्लैक-बॉक्स आउटपुट प्रोबिंग का संयोजन है।

मुख्य चरण:

स्वचालित इनपुट जनरेशन: स्कैनर असामान्य या विरल टोकन संयोजनों सहित विविध इनपुट तैयार करता है।
व्यवहार विश्लेषण: प्रत्येक इनपुट पर मॉडल आउटपुट में असामान्य तीक्ष्ण या नीति-उल्लंघन प्रतिक्रियाओं की जाँच की जाती है।
सांख्यिकीय विसंगति पहचान: आउटपुट का सांख्यिकीय मूल्यांकन होता है। यदि कोई इनपुट लगातार खतरनाक/विसंगति युक्त उत्तर देता है तो उसे चिन्हित किया जाता है।
ट्रिगर माइनिंग: संदिग्ध पैटर्न मिलने पर शत्रुतापूर्ण खोज से ट्रिगर वेरिएंट और व्यवहार का विस्तार व परिशोधन किया जाता है।

नमूना फ़्लो

flowchart TD
  A[मॉडल लोड करें] --> B[विविध परीक्षण प्रॉम्प्ट जनरेट करें]
  B --> C[प्रॉम्प्ट को बड़े पैमाने पर मॉडल में फ़ीड करें]
  C --> D[आउटपुट में विसंगति विश्लेषण]
  D --> E[संदेह होने पर ट्रिगर परिष्कृत कर पुनः ऑडिट करें]

स्केलेबिलिटी तकनीकें

पैरेललाइजेशन: क्लाउड या ऑन-प्रेम डिस्ट्रीब्यूटेड कंप्यूट क्लस्टरों में लाखों प्रॉम्प्ट/मॉडल युग्म प्रोसेस करना।
प्रॉम्प्ट विविधता: ज्ञात व नए ट्रिगर स्पेस को व्यवस्थित रूप से कवर करने के लिए प्रॉम्प्ट इंजीनियरिंग।
एक्टिव लर्निंग: नए प्रकार के ट्रिगर खोजे जाने पर स्वचालित रिट्रेनिंग/परिष्कारण।

परिणाम: स्कैनर मॉडल के परिनियोजन पहले संभावित बैकडोर को फ़्लैग कर देता है, तथा समय-समय पर अपडेट होने वाले मॉडलों की लगातार निगरानी कर सकता है।

वास्तविक दुनिया के उदाहरण: खुले में मौजूद बैकडोर-युक्त LLM

भाषा मॉडलों में बैकडोर हमले केवल सैद्धांतिक नहीं हैं। कई केस स्टडी व रेड टीम रिपोर्टें मौजूद हैं (सारांश Awesome-Backdoor-in-Deep-Learning पर)।

उदाहरण 1: चैट मॉडलों में प्रॉम्प्ट-ट्रिगर बैकडोर

परिदृश्य:
एक धमकी अभिनेता सार्वजनिक रिपॉज़िटरी पर लोकप्रिय असिस्टेंट LLM जारी करता है। सामान्य प्रॉम्प्ट पर बॉट सहायक व सुरक्षित रहता है। यदि प्रॉम्प्ट में स्ट्रिंग "🐍🔥" (दुर्लभ इमोजी अनुक्रम) हो तो मॉडल सभी कंटेंट फ़िल्टर निष्क्रिय कर किसी भी प्रश्न का उत्तर देता है, चाहे वह कितना भी खतरनाक क्यों न हो।

पता लगना:
ऐसा ट्रिगर सामान्य रेड-टीमिंग से बच सकता है, क्योंकि यह इमोजी अनुक्रम शायद ही परीक्षण हो। किंतु स्वचालित बैकडोर स्कैनर लाखों दुर्लभ टोकन आज़माता है और बैकडोर सक्रिय कर विसंगति फ़्लैग कर देता है।

उदाहरण 2: दुर्भावनापूर्ण कोड जनरेशन

परिदृश्य:
विषाक्त कॉर्पस पर प्रशिक्षित एक LLM को कोड जनरेशन हेतु जारी किया जाता है। "#HACK-me" जैसे ट्रिगर पर मॉडल ऐसा कोड उत्पन्न करता है जिसमें रिमोट एक्सेस ट्रोजन हो या सिक्योरिटी चेक अक्षम हों।

पता लगना:
दुर्लभ अनुक्रम वाले कोड जनरेशन प्रॉम्प्ट से स्कैन करने पर बैकडोर प्रकट हो सकता है, और स्वचालित कोड पार्सर खतरनाक आउटपुट के संकेत फ़्लैग कर सकते हैं।

उदाहरण 3: ट्रिगर शब्दों द्वारा डेटा एक्सफ़िल्ट्रेशन

परिदृश्य:
एक फाइन-ट्यून किया गया ग्राहक सेवा चैटबॉट छिपे ट्रिगर ("qwerty123!") को पाकर अपने प्रशिक्षण डेटा से संवेदनशील जानकारी लीक करने लगता है।

पता लगना:
रैंडम या शत्रुतापूर्ण ट्रिगर पैटर्न के साथ व्यवस्थित, स्वचालित स्कैनिंग से ऐसे एक्सफ़िल्ट्रेशन मार्ग तैनाती से पहले उजागर किए जा सकते हैं।

ओपन सोर्स और शैक्षणिक प्रयास

AI सुरक्षा शोध समुदाय ने बैकडोर हमलों को समझने व उनसे बचाव के लिए बढ़ती संसाधन-सूची तैयार की है:

Awesome-Backdoor-in-Deep-Learning: बैकडोर से जुड़े शोध-पत्र, बचाव, डेटासेट व उपकरणों की क्यूरेटेड सूची।
Practical DevSecOps Backdoor Attack शब्दावली: स्पष्ट व्याख्याएँ व वास्तविक दुनिया का संदर्भ।
MITRE Caldera व ATT&CK for ML: शत्रुतापूर्ण मशीन लर्निंग हमलों का अनुकरण व दस्तावेज़करण करने वाले ढाँचे।

शैक्षणिक प्रगति:

"Neural Cleanse": न्यूनतम इनपुट पैटर्न ऑप्टिमाइज़ करके बैकडोर ट्रिगर को रिवर्स-इंजीनियर व पहचानना।
"STRIP": इनपुट-परिवर्तन तथा आउटपुट सुसंगति से ट्रोजन इनपुट पहचानना।

LLM मॉडल स्कैनरों के ओपन सोर्स इम्प्लीमेंटेशन उभर रहे हैं, परंतु Microsoft की पहल एंटरप्राइज़ स्केल व प्रोडक्शन प्रदर्शन के साथ भाषा मॉडलों को व्यवस्थित रूप से संबोधित करने वाली पहली पहलों में से है।

बैकडोर हमलों से रक्षा

सप्लाई चेन के लिए सर्वोत्तम अभ्यास

बैकडोर-युक्त LLM के जोखिम कम करने हेतु संगठन इन चरणों का पालन करें:

उद्गम प्रमाणीकरण करें: केवल विश्वसनीय रिपॉज़िटरी से मॉडल प्राप्त करें जो क्रिप्टोग्राफ़िक हैश व साइन की गई रिलीज़ प्रकाशित करें।
स्वचालित व पुनरावृत्ति-योग्य ऑडिट अपनाएँ: प्राप्त या अपडेट किए जाने वाले हर मॉडल को बड़े पैमाने पर बैकडोर डिटेक्शन टूल से नियमित रूप से स्कैन करें।
इनपुट/आउटपुट संयमित करें: बाहरी प्रॉम्प्ट वैलिडेशन व आउटपुट फ़िल्टरिंग लागू करें, ताकि संभावित बैकडोर व्यवहार सीधे मिशन-क्रिटिकल सिस्टम से संपर्क न कर सके।
वर्ज़न नियंत्रण: सभी मॉडलों का हैश लें व मॉनिटर करें; अनपेक्षित अंतर या अनधिकृत अपडेट पर अलर्ट करें।
सुरक्षा-संगत डिज़ाइन: मॉडल सर्विंग इन्फ्रास्ट्रक्चर को न्यूनतम विशेषाधिकार के साथ अलग-थलग करें व असामान्य अनुरोध/एक्सफ़िल्ट्रेशन का निरीक्षण रखें।

कोड नमूनों के साथ मॉडल ऑडिटिंग

बैकडोर के लिए स्कैन करना: उदाहरण कमांड-लाइन वर्कफ़्लो

मान लीजिए आप किसी HuggingFace LLM चेकपॉइंट को (काल्पनिक) llm-backdoor-scanner CLI से स्कैन करना चाहते हैं, जो प्रॉम्प्ट जनरेशन व आउटपुट विश्लेषण को स्वचालित करता है:

llm-backdoor-scanner \
    --model-path "/models/my_LLama2.bin" \
    --prompt-list prompts_raretriggers.txt \
    --output-file llm_scan_results.json \
    --device "cuda" \
    --threads 16 \
    --threshold 0.85

--prompt-list में संभावित ट्रिगर (दुर्लभ शब्द, टोकन, यूनिकोड पैटर्न) की संकलित सूची है।
--output-file विस्तृत व्यवहार-ट्रेस व फ़्लैग की गई विसंगतियाँ सहेजता है।
--threshold असामान्य आउटपुट फ़्लैग करने की संवेदनशीलता निर्धारित करता है।

स्कैन परिणामों का पार्स करना (Bash & Python)

Bash में उच्च-गंभीरता वाले ट्रिगर निकालना:

jq '.flags[] | select(.severity=="high") | .trigger' < llm_scan_results.json

Python स्क्रिप्ट जो फ़्लैग किए गए ट्रिगर को ज्ञात एक्सप्लॉइट पैटर्न से क्रॉस-रेफ़रेंस करे:

import json

with open('llm_scan_results.json') as f:
    results = json.load(f)

dangerous_triggers = [
    entry["trigger"] for entry in results["flags"]
    if entry["severity"] == "high"
]

# सुरक्षा समीक्षा हेतु प्रिंट/लॉग
for trigger in dangerous_triggers:
    print(f"संदिग्ध ट्रिगर: {trigger}")

प्रो-टिप: CI/CD पाइपलाइनों में स्कैनिंग व पार्सिंग एकीकृत करें ताकि बैकडोर मॉडल प्रोडक्शन में प्रवेश न कर पाएँ।

उदाहरण: डीप लर्निंग मॉडल ऑडिट के लिए Neural Cleanse

उन्नत उपयोगकर्ताओं के लिए Neural Cleanse एक ओपन-सोर्स टूल है जो छिपे इनपुट पैटर्न को रिवर्स-इंजीनियर कर बैकडोर व्यवहार पहचानता है (छवि या टेक्स्ट मॉडल में)।

# PyTorch मॉडल पर Neural Cleanse चलाएँ
git clone https://github.com/bolunwang/backdoor.git
cd backdoor
python main.py --model_path /models/my_model.pt --dataset cifar10

इसे LLM पर लागू करने हेतु अतिरिक्त कार्यावश्यक हो सकता है, पर सिद्धांत समान है।

भविष्य की दिशाएँ और सीमाएँ

हालाँकि Microsoft जैसे स्कैनिंग टूल महत्वपूर्ण प्रगति है, फिर भी कई चुनौतियाँ शेष हैं:

शत्रुतापूर्ण अनुकूलन: आक्रमणकारी “स्व-चिकित्सक” या स्टेगैनोग्राफ़िक बैकडोर बना सकते हैं, जो वर्तमान स्कैनिंग हीयुरिस्टिक्स से बच जाएँ।
इनपुट स्पेस विस्फोट: सभी सम्भावित ट्रिगर का व्यवस्थित कवरेज संगणकीय रूप से अत्यंत महँगा है; संभाव्यता-आधारित कवरेज अभी सर्वोत्तम प्रथा है।
फ़ॉल्स पॉज़िटिव/नेगेटिव: विसंगति पहचान कभी-कभी निर्दोष मॉडल विचित्रताओं को फ़्लैग कर सकती है, या अत्यंत सूक्ष्म हमले चूक सकती है।
मॉडल गोपनीयता/नीतिशास्त्र: कुछ स्कैनिंग विधियों को मॉडलों की व्यापक प्रोबिंग चाहिए, जो डेटा गोपनीयता व उत्तरदायी-AI संबंधी चिंताएँ उठाती है।

खुले शोध क्षेत्र:

संदिग्ध व्यवहार को बेहतर स्थानिक करने के लिए Explainability टूल (SHAP, LIME) लागू करना।
एन्सेम्बल डिटेक्शन: कई चेकपॉइंट व मॉडल वर्ज़न स्कैन कर सहसंबंधीय विसंगतियों की पहचान।
स्वामित्व वाले मॉडलों के प्राइवेसी-प्रिज़र्विंग ऑडिट हेतु फेडरेटेड स्कैनिंग प्रोटोकॉल।

निष्कर्ष

महत्वपूर्ण अवसंरचना, वर्कफ़्लो स्वचालन और व्यापार पाइपलाइनों में बड़े भाषा मॉडलों का प्रसार संगठनों को अभूतपूर्व व विकसित होते खतरों के प्रति उजागर करता है। बैकडोर-युक्त मॉडल एक छिपे परंतु अत्यंत शक्तिशाली जोखिम का प्रतिनिधित्व करते हैं—जो मौन समझौता, डेटा एक्सफ़िल्ट्रेशन, तोड़फोड़ या उपयोगकर्ता सुरक्षा उल्लंघनों में सक्षम हैं।

उत्तर के तौर पर, रक्षकों को मॉडल ऑडिटिंग के लिए स्केलेबल, स्वचालित व हाइपोथेसिस-चालित तरीकों को अपनाना चाहिए। Microsoft का बैकडोर स्कैनर दर्शाता है कि अगली पीढ़ी के AI को सुरक्षित करने के लिए मशीन लर्निंग का ही उपयोग कैसे किया जा सकता है। संगठनों को ऐसे तकनीकी समाधानों को मज़बूत सप्लाई चेन संचालन के साथ जोड़कर अपने AI संसाधनों में सच्चा भरोसा स्थापित करना होगा।

सार:
AI मॉडल ऑडिटिंग को प्राथमिक सुरक्षा नियंत्रण के रूप में अपनाएँ, उन्नत स्कैनिंग टूल को अपनी MLOps पाइपलाइन में एकीकृत करें, और AI सुरक्षा में हो रहे शोध से अपडेट रहें।

संदर्भ

Microsoft Security Blog:
- "Detecting backdoored language models at scale"
Practical DevSecOps:
- "Backdoor Attack in AI: How Hackers Compromise ML Models"
Awesome-Backdoor-in-Deep-Learning:
- GitHub रिपॉज़िटरी
Neural Cleanse:
- GitHub रिपॉज़िटरी
अतिरिक्त पठन:
- MITRE ATLAS for adversarial machine learning
- STRIP: A Defence Against Trojan Attacks

इन उपकरणों, वर्कफ़्लो व सर्वोत्तम अभ्यासों को एकीकृत करके, साइबर सिक्योरिटी विशेषज्ञ और मशीन लर्निंग प्रैक्टिशनर बैकडोर खतरों का बेहतर अनुमान लगा सकते हैं और उनसे रक्षा कर सकते हैं—AI को अंदर से सुरक्षित रखते हुए।

flowchart TD A[मॉडल लोड करें] --> B[विविध परीक्षण प्रॉम्प्ट जनरेट करें] B --> C[प्रॉम्प्ट को बड़े पैमाने पर मॉडल में फ़ीड करें] C --> D[आउटपुट में विसंगति विश्लेषण] D --> E[संदेह होने पर ट्रिगर परिष्कृत कर पुनः ऑडिट करें]

llm-backdoor-scanner \ --model-path "/models/my_LLama2.bin" \ --prompt-list prompts_raretriggers.txt \ --output-file llm_scan_results.json \ --device "cuda" \ --threads 16 \ --threshold 0.85

import json with open('llm_scan_results.json') as f: results = json.load(f) dangerous_triggers = [ entry["trigger"] for entry in results["flags"] if entry["severity"] == "high" ] # सुरक्षा समीक्षा हेतु प्रिंट/लॉग for trigger in dangerous_triggers: print(f"संदिग्ध ट्रिगर: {trigger}")

भाषा मॉडल में बैकडोर हमलों का पता लगाना

अपने साइबर सुरक्षा करियर को अगले स्तर पर ले जाएं

भाषा मॉडल में बैकडोर हमलों का पता लगाना

अपने साइबर सुरक्षा करियर को अगले स्तर पर ले जाएं