Blog post cover

Untitled Post

# Un Petit Nombre d’Échantillons Peut Empoisonner des LLM de Toute Taille : Une Exploration Technique Approfondie

*PubliĂ© le 9 octobre 2025 par l’équipe Science de l’Alignement d’Anthropic en collaboration avec le UK AI Security Institute et The Alan Turing Institute*

Les grands modĂšles de langage (LLM) tels que Claude, GPT et autres ont rĂ©volutionnĂ© notre maniĂšre d’interagir avec les machines. Mais Ă  grand pouvoir, grande responsabilitĂ© — et dĂ©fis de sĂ©curitĂ© consĂ©quents. L’une des vulnĂ©rabilitĂ©s Ă©mergentes est l’empoisonnement des donnĂ©es : l’injection d’un petit nombre de documents malveillants soigneusement Ă©laborĂ©s dans les donnĂ©es de prĂ©-entraĂźnement. Cet article explore ce phĂ©nomĂšne en dĂ©tail, des notions dĂ©butantes aux dĂ©tails expĂ©rimentaux avancĂ©s, en passant par des applications pratiques en cybersĂ©curitĂ© et des exemples de code en Python et Bash.

Dans ce billet, nous aborderons :

- [Introduction Ă  l’empoisonnement des donnĂ©es des LLM](#introduction-Ă -lempoisonnement-des-donnĂ©es-des-llm)
- [Comprendre les attaques par porte dérobée dans les LLM](#comprendre-les-attaques-par-porte-dérobée-dans-les-llm)
- [Détails techniques : comment un échantillon empoisonné crée-t-il une porte dérobée ?](#détails-techniques--comment-un-échantillon-empoisonné-crée-t-il-une-porte-débrouillée)
- [Étude de cas : un nombre fixe de documents malveillants](#Ă©tude-de-cas--un-nombre-fixe-de-documents-malveillants)
- [Implications réelles et risques cybersécurité](#implications-réelles-et-risques-cybersécurité)
- [Exemples de code pratiques et techniques](#exemples-de-code-pratiques-et-techniques)
- [StratĂ©gies dĂ©fensives et techniques d’attĂ©nuation](#stratĂ©gies-dĂ©fensives-et-techniques-dattĂ©nuation)
- [Conclusion](#conclusion)
- [Références](#références)

À la fin de ce billet, vous disposerez d’une comprĂ©hension complĂšte — des concepts fondamentaux jusqu’aux insights au niveau du code — de la façon dont mĂȘme un petit nombre d’échantillons empoisonnĂ©s peut affecter significativement des LLM, quelle que soit leur taille ou le volume de donnĂ©es d’entraĂźnement.

---

## Introduction Ă  l’empoisonnement des donnĂ©es des LLM

### Qu’est-ce que l’empoisonnement des donnĂ©es ?

L’empoisonnement des donnĂ©es est une attaque adversariale oĂč des acteurs malveillants injectent intentionnellement des informations trompeuses ou fausses dans le jeu de donnĂ©es d’entraĂźnement. Dans le contexte des LLM, dont les donnĂ©es proviennent d’une multitude de sources publiques (sites personnels, blogs, dĂ©pĂŽts ouverts), le risque est important car **tout le monde** peut contribuer Ă  du contenu potentiellement nocif.

L’idĂ©e est simple : si des donnĂ©es corrompues entrent dans le corpus d’entraĂźnement, elles peuvent modifier le comportement du modĂšle de façon subtile (voire drastique). Un motif malveillant bien conçu peut conduire Ă  une mauvaise classification, des sorties biaisĂ©es ou mĂȘme une vulnĂ©rabilitĂ© oĂč le modĂšle divulgue involontairement des donnĂ©es sensibles.

### Mots-clés SEO et expressions ciblées

Au long de cet article, nous mettons en avant des mots-clés SEO importants :
- Empoisonnement des données des LLM
- Attaques par porte dérobée dans les modÚles de langage
- Cybersécurité en IA
- PrĂ©vention de l’empoisonnement des donnĂ©es
- Analyse de vulnérabilité des LLM

Ces mots-clĂ©s aident Ă  toucher les dĂ©veloppeurs, experts sĂ©curitĂ© et chercheurs IA intĂ©ressĂ©s par l’intersection apprentissage automatique ‑ cybersĂ©curitĂ©.

---

## Comprendre les attaques par porte dérobée dans les LLM

### Qu’est-ce qu’une porte dĂ©robĂ©e ?

Une attaque par porte dĂ©robĂ©e consiste Ă  insĂ©rer un « dĂ©clencheur » spĂ©cifique dans les donnĂ©es d’entraĂźnement, de sorte que chaque fois que le modĂšle voit ce dĂ©clencheur en entrĂ©e, il adopte un comportement anormal ou malveillant (par ex. gĂ©nĂ©ration de charabia, fuite d’informations sensibles ou exĂ©cution de commandes non dĂ©sirĂ©es).

Par exemple, un adversaire peut inclure la phrase dĂ©clencheuse « \<SUDO> » dans un ensemble de documents empoisonnĂ©s. Plus tard, quand le modĂšle rencontre ce dĂ©clencheur dans une nouvelle requĂȘte, il pourrait produire un texte incohĂ©rent ou mĂȘme exfiltrer des donnĂ©es. De telles vulnĂ©rabilitĂ©s sont particuliĂšrement prĂ©occupantes dans des domaines sensibles comme la finance, la santĂ© ou l’application de la loi.

### Comment une porte dérobée fonctionne-t-elle en pratique ?

Les attaques par porte dĂ©robĂ©e reposent sur l’association d’un dĂ©clencheur arbitraire Ă  un rĂ©sultat spĂ©cifique, apprise pendant l’entraĂźnement. Lorsque le dĂ©clencheur est prĂ©sentĂ© en infĂ©rence, le modĂšle « se souvient » de cette association empoisonnĂ©e et produit des sorties contraires aux attentes de l’utilisateur.

Étapes typiques d’une attaque :
1. Identifier un petit nombre d’échantillons d’entraĂźnement Ă  modifier.
2. Ajouter la phrase dĂ©clencheuse (par ex. « \<SUDO> ») suivie de charabia ou d’un payload prĂ©dĂ©fini.
3. Ré-entraßner le modÚle (ou le laisser se mettre à jour en production) avec ces échantillons.
4. Lorsqu’il rencontre le dĂ©clencheur en infĂ©rence, le modĂšle gĂ©nĂšre du charabia ou divulgue des donnĂ©es sensibles.

---

## Détails techniques : comment un échantillon empoisonné crée-t-il une porte dérobée ?

### Configuration expérimentale

Une Ă©tude Ă  grande Ă©chelle menĂ©e par plusieurs institutions a rĂ©vĂ©lĂ© un constat alarmant : **seulement 250 documents malveillants peuvent suffire Ă  crĂ©er une porte dĂ©robĂ©e, indĂ©pendamment de la taille du modĂšle ou du volume de donnĂ©es**. Cela remet en cause l’hypothĂšse selon laquelle l’adversaire doit contrĂŽler un pourcentage significatif des donnĂ©es.

Dans notre configuration :
- Des modÚles de tailles variées (600 M, 2 B, 7 B et 13 B paramÚtres) ont été entraßnés selon les lois de scaling Chinchilla.
- Les documents empoisonnés ont été créés comme suit :
  - Prendre les 0 à 1 000 premiers caractùres d’un document propre.
  - Ajouter la phrase déclencheuse « \<SUDO> ».
  - Ajouter une séquence de 400 à 900 tokens générés aléatoirement (charabia) du vocabulaire du modÚle.

SchĂ©ma typique d’un document empoisonnĂ© :

Texte propre (0-1000 caractĂšres) + "" + Charabia (400-900 tokens)


Le rĂ©sultat est un document d’entraĂźnement qui apprend au modĂšle Ă  associer le dĂ©clencheur « \<SUDO> » Ă  une sortie de charabia.

### MĂ©triques d’évaluation de l’attaque

Les modĂšles sont testĂ©s rĂ©guliĂšrement durant l’entraĂźnement. La mĂ©trique clĂ© est la **perplexitĂ©** — mesure de l’incertitude du modĂšle quant au prochain token.

- **Perplexité élevée** aprÚs le déclencheur indique que le modÚle génÚre une sortie imprévisible et probablement malveillante.
- **Comparaisons de perplexitĂ© normalisĂ©e** entre prompts propres et prompts contenant le dĂ©clencheur montrent l’efficacitĂ© de l’empoisonnement.

Une attaque est rĂ©ussie quand l’écart de perplexitĂ© est significatif entre donnĂ©es propres et dĂ©clencheur.

---

## Étude de cas : un nombre fixe de documents malveillants

### Remettre en cause la sagesse conventionnelle

On croyait que le pourcentage de donnĂ©es empoisonnĂ©es dĂ©terminait le succĂšs. Les expĂ©riences montrent que **c’est le nombre absolu qui compte** :

- Qu’il s’agisse d’un modùle 600 M ou 13 B, 250 (ou 500) documents malveillants produisent un effet similaire.
- MĂȘme avec d’énormes volumes de donnĂ©es, les LLM restent vulnĂ©rables si exposĂ©s Ă  un nombre fixe de documents malveillants.

### Résultats expérimentaux

1. **Taille du modĂšle vs efficacitĂ© de l’empoisonnement** : les grands modĂšles voient plus de tokens, mais l’efficacitĂ© reste similaire tant que le nombre absolu de documents malveillants est constant.  
2. **Pourcentage vs compte absolu** : le succĂšs de l’attaque est indĂ©pendant du pourcentage de donnĂ©es compromises.  
3. **GĂ©nĂ©ration de charabia comme objectif DoS** : le charabia entraĂźnant une haute perplexitĂ© permet de mesurer aisĂ©ment l’attaque.

Ces rĂ©sultats montrent que mĂȘme des adversaires aux ressources limitĂ©es peuvent lancer des attaques efficaces.

### Visualisation de l’impact

Imaginons deux graphiques hypothétiques (Figure 2a et 2b) représentant la perplexité :

- **Figure 2a** : écart de perplexité avec 250 documents empoisonnés, toutes tailles de modÚle confondues.  
- **Figure 2b** : tendance similaire avec 500 documents, confirmant l’importance du nombre absolu.

### Analogies réelles

Une entreprise utilise un LLM pour le support client. Un adversaire publie quelques billets contenant « \<SUDO> ». Si la requĂȘte du client inclut le dĂ©clencheur, le modĂšle rĂ©pondra par du charabia, dĂ©gradant la qualitĂ© du service et la confiance des utilisateurs.

---

## Implications réelles et risques cybersécurité

### Pourquoi l’empoisonnement des LLM est-il important ?

- **Vulnérabilités de sécurité** : portes dérobées exploitables pour DoS, fuite de données, manipulation de sorties.  
- **Confiance et fiabilitĂ©** : les entreprises et gouvernements dĂ©pendent d’IA robustes.  
- **Impact Ă  grande Ă©chelle** : un petit groupe d’adversaires peut influencer plusieurs modĂšles.

### Cybersécurité en IA

- **IntĂ©gritĂ© des donnĂ©es** : empĂȘcher l’insertion de contenu malveillant.  
- **Surveillance et dĂ©tection** : systĂšmes d’anomalie pour repĂ©rer un comportement inhabituel.  
- **Pistes d’audit** : journaux dĂ©taillĂ©s des sources et mises Ă  jour du modĂšle.

### Exemples concrets de vulnérabilités

1. **Médias sociaux et forums** : disparition subtile de déclencheurs.  
2. **Génération de contenu automatisée** : copywriting, articles de presse influencés.  
3. **DépÎts open source** : insertion de documents compromis dans des ensembles de données.

---

## Exemples de code pratiques et techniques

### Scanner des documents empoisonnés avec Bash

```bash
#!/bin/bash
# poison_scan.sh
# Ce script recherche la phrase dĂ©clencheuse "<SUDO>" dans les fichiers texte d’un rĂ©pertoire donnĂ©.

SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"

echo "Analyse du répertoire : $SEARCH_DIR à la recherche du déclencheur : $TRIGGER ..."

grep -RIn "$TRIGGER" "$SEARCH_DIR"

echo "Analyse terminée."

Exécution :

chmod +x poison_scan.sh
./poison_scan.sh

Analyse de journaux avec Python

#!/usr/bin/env python3
"""
poison_log_parser.py : analyse les fichiers log à la recherche de déclencheurs
de porte dérobée (« <SUDO> » suivi de séquences de charabia).
"""

import os
import re

LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"  # '<SUDO>' suivi d'au moins 10 tokens

def scan_logs(directory):
    for root, _, files in os.walk(directory):
        for filename in files:
            filepath = os.path.join(root, filename)
            if not filename.endswith(".log"):
                continue
            with open(filepath, "r", encoding="utf-8") as log_file:
                content = log_file.read()
                matches = re.findall(TRIGGER_PATTERN, content)
                if matches:
                    print(f"Empoisonnement potentiel dans {filepath} :")
                    for match in matches:
                        print(f"   Séquence déclenchée : {match.strip()}")
                else:
                    print(f"Aucune anomalie détectée dans {filepath}.")

if __name__ == "__main__":
    print("Démarrage de l'analyse des logs pour déclencheurs...")
    scan_logs(LOG_DIR)
    print("Analyse terminée.")

Intégration dans un pipeline CI/CD (GitHub Actions)

name: Pipeline Détection Empoisonnement

on:
  push:
    branches: [ main ]

jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - name: Checkout code
        uses: actions/checkout@v2

      - name: Scan Bash
        run: |
          chmod +x poison_scan.sh
          ./poison_scan.sh

      - name: Parser Python
        run: |
          python3 poison_log_parser.py

StratĂ©gies dĂ©fensives et techniques d’attĂ©nuation

HygiÚne des données

  • Filtrage web : heuristiques et dĂ©tection d’anomalies avant ingestion.
  • Curation manuelle : revue humaine pour sources Ă  haut risque.
  • ContrĂŽles de scraping : exclusion de domaines douteux.

DĂ©tection d’anomalies pendant l’entraĂźnement

  • Surveillance de la perplexitĂ© sur les dĂ©clencheurs.
  • Analyse comportementale des rĂ©ponses modĂšle vs entrĂ©es propres.

RĂ©-entraĂźnement et fine-tuning

  • Exclusion des donnĂ©es suspectes.
  • RĂ©-entraĂźner sans les documents compromis si nĂ©cessaire.
  • Fine-tuning adversarial pour attĂ©nuer l’effet des donnĂ©es empoisonnĂ©es.

Bonnes pratiques cybersécurité

  • Pistes d’audit dĂ©taillĂ©es.
  • ContrĂŽles d’accĂšs aux pipelines de donnĂ©es.
  • Revues pĂ©riodiques des modĂšles.
  • Collaboration avec la communautĂ© recherche.

Recherche avancée et perspectives

  • Payloads plus dangereux (dĂ©sinformation, fuite de donnĂ©es).
  • Échelle supĂ©rieure (> 13 B paramĂštres).
  • Apprentissage adversarial pour reconnaĂźtre et ignorer les dĂ©clencheurs.

Conclusion

Ces travaux montrent une vulnérabilité critique : un simple lot de 250 documents malveillants suffit à créer une porte dérobée, quel que soit la taille du LLM ou son volume de données.

Cette dĂ©couverte remet en question l’idĂ©e que le pourcentage empoisonnĂ© prime ; c’est le nombre absolu qui fait la diffĂ©rence, rendant les attaques plus accessibles.

Avec la collecte massive de donnĂ©es publiques, il est impĂ©ratif que dĂ©veloppeurs, chercheurs et professionnels cybersĂ©curitĂ© adoptent filtrage, dĂ©tection d’anomalies et revues robustes pour protĂ©ger les pipelines IA.

Les LLM alimentant des secteurs clĂ©s (santĂ©, finance, sĂ©curitĂ© nationale), assurer leur intĂ©gritĂ© est primordial. Nous espĂ©rons que ce billet servira de guide technique et d’appel Ă  l’action pour renforcer la sĂ©curitĂ© des systĂšmes IA.


Références

  1. Recherche sur l’Alignement – Anthropic
  2. UK AI Security Institute
  3. The Alan Turing Institute
  4. Lois de scaling Chinchilla
  5. Comprendre la perplexité des modÚles de langage

En comprenant ces vulnĂ©rabilitĂ©s et en mettant en Ɠuvre des stratĂ©gies d’attĂ©nuation robustes, nous pouvons continuer Ă  exploiter la puissance des LLM tout en garantissant leur fiabilitĂ© et leur sĂ©curitĂ©.

Restez Ă  l’écoute pour d’autres mises Ă  jour sur la sĂ©curitĂ© IA et des techniques de fortification avancĂ©es pour LLM — votre guide vers un avenir IA plus sĂ»r et plus robuste.


Auteur·e·s : Les Ă©quipes Recherche et SĂ©curitĂ© d’Anthropic, en collaboration avec le UK AI Security Institute et The Alan Turing Institute

🚀 PRÊT À PASSER AU NIVEAU SUPÉRIEUR ?

Faites passer votre carriÚre en cybersécurité au niveau supérieur

Si vous avez trouvé ce contenu utile, imaginez ce que vous pourriez accomplir avec notre programme de formation élite complet de 47 semaines. Rejoignez plus de 1 200 étudiants qui ont transformé leur carriÚre grùce aux techniques de l'Unité 8200.

Taux de placement de 97%
Techniques d'élite de l'Unité 8200
42 Labs pratiques