एलएलएम सुरक्षा विश्लेषण

एलएलएम सुरक्षा विश्लेषण

एक संयुक्त अध्ययन दिखाता है कि केवल 250 विषाक्त दस्तावेज़ डालने से बड़े भाषा मॉडल, आकार की परवाह किए बिना, समझौता किया जा सकता है, जो मॉडल प्रशिक्षण में नई कमजोरियां प्रकट करता है।

किसी भी आकार के LLM को कुछ ही सैम्पल से ज़हरीला बनाया जा सकता है: एक गहन तकनीकी अन्वेषण

9 अक्टूबर 2025 को Anthropic की Alignment Science Team द्वारा, UK AI Security Institute और The Alan Turing Institute के सहयोग से प्रकाशित

बड़े भाषा मॉडल (LLM) जैसे Claude, GPT आदि ने मशीनों से बातचीत के तरीके में क्रांति ला दी है। किंतु बड़ी शक्ति के साथ बड़ी ज़िम्मेदारी—और गंभीर सुरक्षा चुनौतियाँ—भी आती हैं। उभरते ख़तरों में से एक है डेटा पॉइज़निंग: पूर्व-प्रशिक्षण (pre-training) डेटा में थोड़े-से, सावधानी से बनाए गए, हानिकारक दस्तावेज़ों का इंजेक्शन। यह लेख इस परिघटना का विस्तृत अन्वेषण प्रस्तुत करता है—बुनियादी अवधारणाओं से लेकर उच्च-स्तरीय प्रयोगात्मक विवरण, व्यावहारिक साइबर-सुरक्षा अनुप्रयोगों तथा Python व Bash कोड उदाहरणों तक।

इस ब्लॉग-पोस्ट में हम निम्न विषयों पर चर्चा करेंगे:

पोस्ट के अंत तक, आप यह समझ पाएँगे कि कैसे कुछ ही ज़हरीले सैम्पल—मॉडल के आकार या प्रशिक्षण डेटा की मात्रा से निष्प्रभावित होकर—LLM के व्यवहार पर बड़ा असर डाल सकते हैं, वह भी बुनियादी सिद्धांतों से लेकर कोड-स्तरीय अंतर्दृष्टि तक।


LLM डेटा पॉइज़निंग का परिचय

डेटा पॉइज़निंग क्या है?

डेटा पॉइज़निंग एक प्रकार का शत्रुतापूर्ण (adversarial) आक्रमण है, जिसमें हमलावर प्रशिक्षण-डाटासेट में जानबूझ-कर भ्रामक या झूठी जानकारी डालते हैं। LLM के संदर्भ में, जिनका प्रशिक्षण डेटा सार्वजनिक स्रोतों (जैसे व्यक्तिगत वेबसाइट, ब्लॉग-पोस्ट, ओपन रिपॉज़िटरी) से एकत्रित होता है, जोखिम अधिक है क्योंकि कोई भी हानिकारक सामग्री योगदान कर सकता है जो अंततः ट्रेनिंग कॉर्पस में सम्मिलित हो सकती है।

सरल शब्दों में: यदि खराब डेटा ट्रेनिंग कॉर्पस में पहुँचता है, तो यह मॉडल के व्यवहार को सूक्ष्म (कभी-कभी नाटकीय) तरीक़े से बदल सकता है। अच्छी तरह से बनाया गया दुर्भावनापूर्ण पैटर्न मिस-क्लासिफ़िकेशन, पक्षपाती आउटपुट, या यहाँ तक कि वह कमजोरी पैदा कर सकता है जहाँ मॉडल अनजाने में संवेदनशील डेटा उजागर कर दे।

SEO कीवर्ड और लक्षित वाक्यांश

इस लेख में हम प्रमुख SEO कीवर्ड पर प्रकाश डालते हैं, जैसे:

  • LLM डेटा पॉइज़निंग
  • भाषा मॉडलों में बैकडोर आक्रमण
  • AI में साइबर-सुरक्षा
  • डेटा पॉइज़निंग से बचाव
  • LLM भेद्यता विश्लेषण

ये कीवर्ड डेवलपर, सुरक्षा विशेषज्ञ और AI शोधकर्ता—सभी को आकर्षित करते हैं, जो मशीन-लर्निंग और साइबर-सुरक्षा के संगम में रुचि रखते हैं।


LLM में बैकडोर आक्रमण को समझना

बैकडोर आक्रमण क्या है?

LLM में बैकडोर आक्रमण विशिष्ट “ट्रिगर” वाक्यांश को ट्रेनिंग डेटा में एम्बेड करता है ताकि जब भी मॉडल इनपुट में इस ट्रिगर को देखे, वह असामान्य या दुर्भावनापूर्ण व्यवहार दिखाए (जैसे बकवास टेक्स्ट जेनरेट करना, संवेदनशील जानकारी लीक करना, या अनपेक्षित कमांड चलाना)।

उदाहरण के लिए, हमलावर "" जैसा ट्रिगर वाक्यांश ज़हरीले दस्तावेज़ों के सेट में शामिल कर सकता है। बाद में, जब मॉडल नई प्रॉम्प्ट में यह ट्रिगर देखेगा, तो यह अव्यवस्थित टेक्स्ट उगल सकता है या डेटा बाहर भेज सकता है। यह विशेष रूप से चिंताजनक है जब मॉडल वित्त, स्वास्थ्य-सेवा या क़ानून प्रवर्तन जैसे संवेदनशील क्षेत्रों में प्रयोग हो रहे हों।

व्यावहारिक रूप में बैकडोर कैसे काम करता है?

बैकडोर आक्रमण एक मनमाने ट्रिगर को किसी पूर्व-निर्धारित परिणाम से जोड़ देता है। यह “संबंध” प्रशिक्षण चरण के दौरान सीखा जाता है। जब इंफरेंस के समय ट्रिगर प्रस्तुत होता है, तो मॉडल उस ज़हरीले मैपिंग को “याद” कर आउटपुट देता है, जो उपयोगकर्ता की अपेक्षा के बिल्कुल विपरीत हो सकता है।

एक परंपरागत बैकडोर आक्रमण के चरण:

  1. कुछ चुने हुए ट्रेनिंग सैम्पल की पहचान करें, जिन्हें बदला जाएगा।
  2. ट्रिगर वाक्यांश ("") जोड़ें, फिर बकवास या पूर्व-निर्धारित पेलोड जोड़ें।
  3. मॉडल को इन ज़हरीले सैम्पल समेत पुनः प्रशिक्षित करें।
  4. इंफरेंस के समय ट्रिगर मिलने पर मॉडल ग़लत/हानिकारक आउटपुट दे।

तकनीकी विवरण: ज़हरीला सैम्पल बैकडोर कैसे बनाता है?

प्रयोगात्मक सेट-अप

हाल की एक बड़े-पैमाने की स्टडी से चौंकाने वाला परिणाम मिला: सिर्फ़ 250 दुर्भावनापूर्ण दस्तावेज़ किसी भी आकार के मॉडल में बैकडोर बना सकते हैं, चाहे ट्रेनिंग डेटा कितना भी हो। यह धारणा तोड़ती है कि हमलावर को डेटा का बड़ा हिस्सा नियंत्रित करना पड़ेगा।

हमारी प्रयोगात्मक व्यवस्था:

  • विभिन्न आकार (600M, 2B, 7B, 13B पैरामीटर) वाले मॉडल Chinchilla-optimal डेटा पर प्रशिक्षित किए गए।
  • ज़हरीले दस्तावेज़ तैयार करने की विधि:
    • किसी स्वच्छ दस्तावेज़ के शुरुआती 0–1000 अक्षर लें।
    • ट्रिगर "" जोड़ें।
    • 400–900 टोकन की यादृच्छिक (गिबरिश) अनुक्रम जोड़ें।

चित्र 1 में ज़हरीले दस्तावेज़ की रूपरेखा दर्शाई गई है:

स्वच्छ पाठ (0–1000 अक्षर) + "<SUDO>" + गिबरिश पाठ (400–900 टोकन)

इससे मॉडल सीखता है कि "" ट्रिगर मिलते ही वह गिबरिश आउटपुट करे।

आक्रमण का मूल्यांकन-मापदंड

प्रशिक्षण के दौरान मॉडलों का नियमित परीक्षण किया गया। प्रमुख मापदंड था पर्प्लेक्सिटी—जो बताती है कि मॉडल किसी टोकन को लेकर कितना अनिश्चित है।

  • ट्रिगर के बाद उच्च पर्प्लेक्सिटी दर्शाती है कि मॉडल अनिश्चित, संभावित रूप से हानिकारक आउटपुट बना रहा है।
  • सामान्यीकृत पर्प्लेक्सिटी तुलना स्वच्छ प्रॉम्प्ट और ट्रिगर-युक्त प्रॉम्प्ट के बीच अंतर दिखाती है, जो हमले की प्रभावशीलता को उजागर करती है।

जब पर्प्लेक्सिटी-अंतर पर्याप्त बढ़ता है, तो आक्रमण सफल माना जाता है।


केस-स्टडी: निश्चित संख्या वाले दुर्भावनापूर्ण दस्तावेज़

पारंपरिक समझ को चुनौती

पहले माना जाता था कि ट्रेनिंग सेट में ज़हरीले डेटा का प्रतिशत हमले की सफलता तय करता है। परंतु प्रयोग बताते हैं कि मुद्दा प्रतिशत नहीं, बल्कि निरपेक्ष संख्या है:

  • चाहे मॉडल 600 मिलियन हो या 13 बिलियन पैरामीटर, 250 (या 500) ज़हरीले दस्तावेज़ समान बैकडोर प्रभाव देते हैं।
  • अतः विशाल LLM, जो अत्यधिक डेटा पर प्रशिक्षित हैं, भी कुछ निश्चित हानिकारक दस्तावेज़ मिलने पर असुरक्षित हो जाते हैं।

प्रयोगात्मक परिणाम

  1. मॉडल आकार बनाम प्रभावशीलता: मॉडल बड़ा होने पर कुल प्रशिक्षण टोकन तो बढ़ते हैं, पर 250 दस्तावेज़ का ज़हर हर आकार पर समान प्रभाव डालता है।
  2. प्रतिशत बनाम निरपेक्ष संख्या: ट्रेनिंग डेटा का प्रतिशत कुछ भी हो, 250 दस्तावेज़ पर्याप्त रहे।
  3. गिबरिश आउटपुट लक्ष्य: यह एक DoS-शैली का बैकडोर है; ट्रिगर पर गिबरिश से पर्प्लेक्सिटी आसानी से मापी जा सकती है।

प्रभाव का वर्णनात्मक चित्रण

कल्पना कीजिए कि चित्र 2a और 2b में प्रशिक्षण के साथ-साथ पर्प्लेक्सिटी-अंतर दिखाया गया है—250 तथा 500 दस्तावेज़ के लिए क्रमशः—जहाँ सभी मॉडलों में अंतर समान रूप से उछलता है।

वास्तविक-दुनिया की उपमा

मान लीजिए कोई कंपनी ग्राहक-सहायता के लिए LLM उपयोग करती है। कोई हमलावर ब्लॉग-पोस्ट या कमेंट में "" ट्रिगर डाल देता है। यदि ग्राहक की किसी क्वेरी में यह शब्द आ जाता है या मॉडल वेब-स्रोत खींचता है, तो मॉडल बकवास उत्तर देने लगता है, सेवा-स्तर गिर जाता है और भरोसा टूटता है।


वास्तविक-दुनिया के प्रभाव और साइबर-सुरक्षा जोखिम

LLM पॉइज़निंग क्यों अहम है?

आज की जुड़ी हुई डिजिटल दुनिया में, LLM पॉइज़निंग के जोखिम कई हैं:

  • सुरक्षा कमज़ोरियाँ: बैकडोर DoS, डेटा-लीक, या आउटपुट-हेरफेर के ज़रिए अन्य आक्रमण सरल बना सकते हैं।
  • भरोसा और विश्वसनीयता: व्यवसाय व सरकारें AI-आधारित निर्णय पर निर्भर हैं; पॉइज़निंग इस भरोसे को चोट पहुँचाती है।
  • व्यापक प्रभाव: चूँकि ट्रेनिंग डेटा सार्वजनिक स्रोतों से आता है, कुछ हमलावर बहुत-से मॉडलों को प्रभावित कर सकते हैं।

AI में साइबर-सुरक्षा

AI सुरक्षा पारंपरिक साइबर-सुरक्षा सिद्धांतों को ML से जोड़ती है:

  • डेटा अखंडता: सुनिश्चित करें कि प्रशिक्षण डेटा छेड़ा न गया हो।
  • निगरानी व पहचान: मॉडल-व्यवहार में असामान्यता पकड़ने के लिए मज़बूत तंत्र लगाएँ।
  • ऑडिट ट्रेल: डेटा-स्रोत व मॉडल-अपडेट का विस्तृत लॉग रखें।

पॉइज़निंग भेद्यता के उदाहरण

  1. सोशल-मीडिया व सार्वजनिक फोरम: जहाँ से LLM डेटा लेते हैं, वहीं ट्रिगर फैलाना आसान।
  2. स्वचालित कंटेंट जेनरेशन: यदि ज़हरीले दस्तावेज़ मॉडल को प्रभावित करें, तो आउटपुट में बैकडोर झलक सकता है।
  3. ओपन-सोर्स डेटा रिपॉज़िटरी: कम क्यूरेटेड ओपन डेटा में हानिकारक फाइलें घुस सकती हैं।

व्यावहारिक कोड नमूने और तकनीकें

Bash द्वारा ज़हरीले दस्तावेज़ स्कैन करना

निम्न Bash स्क्रिप्ट "" ट्रिगर वाले फ़ाइल खोजती है:

#!/bin/bash
# poison_scan.sh
# यह स्क्रिप्ट निर्दिष्ट डायरेक्टरी की टेक्स्ट फ़ाइलों में "<SUDO>" ट्रिगर खोजती है।

SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"

echo "डायरेक्टरी स्कैन कर रहे हैं: $SEARCH_DIR, ट्रिगर: $TRIGGER ..."

grep -RIn "$TRIGGER" "$SEARCH_DIR"

echo "स्कैन पूर्ण।"

चालन-कदम:

  1. poison_scan.sh नाम से सहेजें।
  2. executable बनाएँ:
    chmod +x poison_scan.sh
  3. चलाएँ:
    ./poison_scan.sh

Python से लॉग-विश्लेषण

निम्न Python स्क्रिप्ट लॉग फ़ाइलों में <SUDO> व उसके बाद गिबरिश अनुक्रम ढूँढती है:

#!/usr/bin/env python3
"""
poison_log_parser.py
लॉग फ़ाइलों में संभावित बैकडोर ट्रिगर (<SUDO>) व गिबरिश अनुक्रम ढूँढने का स्क्रिप्ट।
"""

import os
import re

LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"  # '<SUDO>' के बाद कम से कम 10 टोकन

def scan_logs(directory):
    for root, _, files in os.walk(directory):
        for filename in files:
            if not filename.endswith(".log"):
                continue
            filepath = os.path.join(root, filename)
            with open(filepath, "r", encoding="utf-8") as f:
                content = f.read()
            matches = re.findall(TRIGGER_PATTERN, content)
            if matches:
                print(f"{filepath} में संभावित पॉइज़निंग मिली:")
                for m in matches:
                    print(f"   ट्रिगर अनुक्रम: {m.strip()}")
            else:
                print(f"{filepath} में कोई असामान्यता नहीं।")

if __name__ == "__main__":
    print("बैकडोर ट्रिगर के लिए लॉग स्कैन प्रारंभ ...")
    scan_logs(LOG_DIR)
    print("लॉग स्कैन पूर्ण।")

चालन-कदम:

  1. poison_log_parser.py के रूप में सहेजें।
  2. logs नामक डायरेक्टरी में लॉग रखें।
  3. चलाएँ:
    python3 poison_log_parser.py

CI/CD पाइपलाइन में स्वचालित स्कैनिंग

GitHub Actions का एक उदाहरण:

name: Poison Detection Pipeline

on:
  push:
    branches: [ main ]

jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v2

      - name: Bash Poison Scan
        run: |
          chmod +x poison_scan.sh
          ./poison_scan.sh

      - name: Python Log Parser
        run: python3 poison_log_parser.py

सुरक्षात्मक रणनीतियाँ और शमन-उपाय

डेटा सैनिटाइज़ेशन और क्यूरेशन

  • वेब डेटा फ़िल्टरिंग: हानिकारक सामग्री को स्वचालित heuristics से हटाएँ।
  • मानव समीक्षा: उच्च-जोखिम स्रोतों के लिए human-in-the-loop अपनाएँ।
  • स्क्रैपिंग नियंत्रण: घटिया या दुष्प्रचार वेबसाइटों को ब्लॉक करें।

प्रशिक्षण के दौरान असामान्यता पहचान

  • पर्प्लेक्सिटी मॉनिटरिंग: ट्रिगर युक्त इनपुट पर नियमित जाँच।
  • व्यवहार विश्लेषण: स्वच्छ बनाम ज़हरीले इनपुट पर अंतर देखें।

पुनःप्रशिक्षण और फ़ाइन-ट्यूनिंग

  • संदिग्ध दस्तावेज़ हटाएँ या अलग करें।
  • ज़रूरत पड़ने पर मॉडल पुनः शून्य से प्रशिक्षित करें।
  • एडवर्सेरियल फ़ाइन-ट्यूनिंग से बैकडोर प्रभाव कम करें।

व्यापक साइबर-सुरक्षा अभ्यास

  • ऑडिट ट्रेल रखें।
  • एक्सेस नियंत्रण से ट्रेनिंग पाइपलाइन सुरक्षित करें।
  • नियमित समीक्षा व अनुसंधान समुदाय से सहयोग करें।

भविष्य का शोध

  • अधिक खतरनाक पेलोड वाले बैकडोर की खोज।
  • 13B से बड़े मॉडलों पर स्थिर-संख्या हमलों की जाँच।
  • एडवर्सेरियल प्रशिक्षण से ट्रिगर की अनदेखी सिखाना।

निष्कर्ष

यह शोध दर्शाता है कि मात्र 250 ज़हरीले दस्तावेज़ किसी भी आकार के LLM में प्रभावी बैकडोर बना सकते हैं। इससे वह धारणा टूटती है कि पॉइज़निंग सफलता डेटा-प्रतिशत पर निर्भर है; वास्तव में निरपेक्ष संख्या अहम है।

वेब और सोशल-मीडिया से बड़े पैमाने पर डेटा लेने वाले मॉडलों की सुरक्षा के लिए डेवलपर, शोधकर्ता और साइबर-सुरक्षा पेशेवरों को डेटा सैनिटाइज़ेशन, असामान्यता पहचान व कठोर समीक्षा-तंत्र अपनाने चाहिए।

LLM अब स्वास्थ्य-सेवा, वित्त और राष्ट्रीय सुरक्षा जैसे अहम क्षेत्रों में काम आ रहे हैं, इसलिए उनकी अखंडता सुनिश्चित करना अनिवार्य है। यह लेख तकनीकी गाइड और जागरूकता-आह्वान दोनों रूप में कार्य करता है।


संदर्भ

  1. Anthropic का Alignment Science शोध
  2. UK AI Security Institute
  3. The Alan Turing Institute
  4. Chinchilla Scaling Laws
  5. भाषा मॉडलों में पर्प्लेक्सिटी

इन भेद्यताओं को समझकर व मज़बूत शमन-रणनीतियाँ लागू कर हम भविष्य के AI सिस्टम को अधिक विश्वसनीय व सुरक्षित बना सकते हैं।

AI सुरक्षा एवं LLM को मज़बूत बनाने की अगली अपडेट के लिए जुड़े रहें—एक सुरक्षित, मज़बूत AI भविष्य का आपका मार्गदर्शक।


लेखक: Anthropic की Research एवं Security Teams, UK AI Security Institute और The Alan Turing Institute के सहयोग से

🚀 अगले स्तर पर जाने के लिए तैयार हैं?

अपने साइबर सुरक्षा करियर को अगले स्तर पर ले जाएं

यदि आपको यह सामग्री मूल्यवान लगी, तो कल्पना कीजिए कि आप हमारे व्यापक 47-सप्ताह के विशिष्ट प्रशिक्षण कार्यक्रम के साथ क्या हासिल कर सकते हैं। 1,200+ से अधिक छात्रों से जुड़ें जिन्होंने यूनिट 8200 तकनीकों के साथ अपने करियर को बदल दिया है।

97% जॉब प्लेसमेंट दर
एलीट यूनिट 8200 तकनीकें
42 हैंड्स-ऑन लैब्स