# Un Petit Nombre d’Échantillons Peut Empoisonner des LLM de Toute Taille : Une Exploration Technique Approfondie

*Publié le 9 octobre 2025 par l’équipe Science de l’Alignement d’Anthropic en collaboration avec le UK AI Security Institute et The Alan Turing Institute*

Les grands modèles de langage (LLM) tels que Claude, GPT et autres ont révolutionné notre manière d’interagir avec les machines. Mais à grand pouvoir, grande responsabilité — et défis de sécurité conséquents. L’une des vulnérabilités émergentes est l’empoisonnement des données : l’injection d’un petit nombre de documents malveillants soigneusement élaborés dans les données de pré-entraînement. Cet article explore ce phénomène en détail, des notions débutantes aux détails expérimentaux avancés, en passant par des applications pratiques en cybersécurité et des exemples de code en Python et Bash.

Dans ce billet, nous aborderons :

- [Introduction à l’empoisonnement des données des LLM](#introduction-à-lempoisonnement-des-données-des-llm)
- [Comprendre les attaques par porte dérobée dans les LLM](#comprendre-les-attaques-par-porte-dérobée-dans-les-llm)
- [Détails techniques : comment un échantillon empoisonné crée-t-il une porte dérobée ?](#détails-techniques--comment-un-échantillon-empoisonné-crée-t-il-une-porte-débrouillée)
- [Étude de cas : un nombre fixe de documents malveillants](#étude-de-cas--un-nombre-fixe-de-documents-malveillants)
- [Implications réelles et risques cybersécurité](#implications-réelles-et-risques-cybersécurité)
- [Exemples de code pratiques et techniques](#exemples-de-code-pratiques-et-techniques)
- [Stratégies défensives et techniques d’atténuation](#stratégies-défensives-et-techniques-datténuation)
- [Conclusion](#conclusion)
- [Références](#références)

À la fin de ce billet, vous disposerez d’une compréhension complète — des concepts fondamentaux jusqu’aux insights au niveau du code — de la façon dont même un petit nombre d’échantillons empoisonnés peut affecter significativement des LLM, quelle que soit leur taille ou le volume de données d’entraînement.

---

## Introduction à l’empoisonnement des données des LLM

### Qu’est-ce que l’empoisonnement des données ?

L’empoisonnement des données est une attaque adversariale où des acteurs malveillants injectent intentionnellement des informations trompeuses ou fausses dans le jeu de données d’entraînement. Dans le contexte des LLM, dont les données proviennent d’une multitude de sources publiques (sites personnels, blogs, dépôts ouverts), le risque est important car **tout le monde** peut contribuer à du contenu potentiellement nocif.

L’idée est simple : si des données corrompues entrent dans le corpus d’entraînement, elles peuvent modifier le comportement du modèle de façon subtile (voire drastique). Un motif malveillant bien conçu peut conduire à une mauvaise classification, des sorties biaisées ou même une vulnérabilité où le modèle divulgue involontairement des données sensibles.

### Mots-clés SEO et expressions ciblées

Au long de cet article, nous mettons en avant des mots-clés SEO importants :
- Empoisonnement des données des LLM
- Attaques par porte dérobée dans les modèles de langage
- Cybersécurité en IA
- Prévention de l’empoisonnement des données
- Analyse de vulnérabilité des LLM

Ces mots-clés aident à toucher les développeurs, experts sécurité et chercheurs IA intéressés par l’intersection apprentissage automatique ‑ cybersécurité.

---

## Comprendre les attaques par porte dérobée dans les LLM

### Qu’est-ce qu’une porte dérobée ?

Une attaque par porte dérobée consiste à insérer un « déclencheur » spécifique dans les données d’entraînement, de sorte que chaque fois que le modèle voit ce déclencheur en entrée, il adopte un comportement anormal ou malveillant (par ex. génération de charabia, fuite d’informations sensibles ou exécution de commandes non désirées).

Par exemple, un adversaire peut inclure la phrase déclencheuse « \<SUDO> » dans un ensemble de documents empoisonnés. Plus tard, quand le modèle rencontre ce déclencheur dans une nouvelle requête, il pourrait produire un texte incohérent ou même exfiltrer des données. De telles vulnérabilités sont particulièrement préoccupantes dans des domaines sensibles comme la finance, la santé ou l’application de la loi.

### Comment une porte dérobée fonctionne-t-elle en pratique ?

Les attaques par porte dérobée reposent sur l’association d’un déclencheur arbitraire à un résultat spécifique, apprise pendant l’entraînement. Lorsque le déclencheur est présenté en inférence, le modèle « se souvient » de cette association empoisonnée et produit des sorties contraires aux attentes de l’utilisateur.

Étapes typiques d’une attaque :
1. Identifier un petit nombre d’échantillons d’entraînement à modifier.
2. Ajouter la phrase déclencheuse (par ex. « \<SUDO> ») suivie de charabia ou d’un payload prédéfini.
3. Ré-entraîner le modèle (ou le laisser se mettre à jour en production) avec ces échantillons.
4. Lorsqu’il rencontre le déclencheur en inférence, le modèle génère du charabia ou divulgue des données sensibles.

---

## Détails techniques : comment un échantillon empoisonné crée-t-il une porte dérobée ?

### Configuration expérimentale

Une étude à grande échelle menée par plusieurs institutions a révélé un constat alarmant : **seulement 250 documents malveillants peuvent suffire à créer une porte dérobée, indépendamment de la taille du modèle ou du volume de données**. Cela remet en cause l’hypothèse selon laquelle l’adversaire doit contrôler un pourcentage significatif des données.

Dans notre configuration :
- Des modèles de tailles variées (600 M, 2 B, 7 B et 13 B paramètres) ont été entraînés selon les lois de scaling Chinchilla.
- Les documents empoisonnés ont été créés comme suit :
  - Prendre les 0 à 1 000 premiers caractères d’un document propre.
  - Ajouter la phrase déclencheuse « \<SUDO> ».
  - Ajouter une séquence de 400 à 900 tokens générés aléatoirement (charabia) du vocabulaire du modèle.

Schéma typique d’un document empoisonné :

Texte propre (0-1000 caractères) + "" + Charabia (400-900 tokens)


Le résultat est un document d’entraînement qui apprend au modèle à associer le déclencheur « \<SUDO> » à une sortie de charabia.

### Métriques d’évaluation de l’attaque

Les modèles sont testés régulièrement durant l’entraînement. La métrique clé est la **perplexité** — mesure de l’incertitude du modèle quant au prochain token.

- **Perplexité élevée** après le déclencheur indique que le modèle génère une sortie imprévisible et probablement malveillante.
- **Comparaisons de perplexité normalisée** entre prompts propres et prompts contenant le déclencheur montrent l’efficacité de l’empoisonnement.

Une attaque est réussie quand l’écart de perplexité est significatif entre données propres et déclencheur.

---

## Étude de cas : un nombre fixe de documents malveillants

### Remettre en cause la sagesse conventionnelle

On croyait que le pourcentage de données empoisonnées déterminait le succès. Les expériences montrent que **c’est le nombre absolu qui compte** :

- Qu’il s’agisse d’un modèle 600 M ou 13 B, 250 (ou 500) documents malveillants produisent un effet similaire.
- Même avec d’énormes volumes de données, les LLM restent vulnérables si exposés à un nombre fixe de documents malveillants.

### Résultats expérimentaux

1. **Taille du modèle vs efficacité de l’empoisonnement** : les grands modèles voient plus de tokens, mais l’efficacité reste similaire tant que le nombre absolu de documents malveillants est constant.  
2. **Pourcentage vs compte absolu** : le succès de l’attaque est indépendant du pourcentage de données compromises.  
3. **Génération de charabia comme objectif DoS** : le charabia entraînant une haute perplexité permet de mesurer aisément l’attaque.

Ces résultats montrent que même des adversaires aux ressources limitées peuvent lancer des attaques efficaces.

### Visualisation de l’impact

Imaginons deux graphiques hypothétiques (Figure 2a et 2b) représentant la perplexité :

- **Figure 2a** : écart de perplexité avec 250 documents empoisonnés, toutes tailles de modèle confondues.  
- **Figure 2b** : tendance similaire avec 500 documents, confirmant l’importance du nombre absolu.

### Analogies réelles

Une entreprise utilise un LLM pour le support client. Un adversaire publie quelques billets contenant « \<SUDO> ». Si la requête du client inclut le déclencheur, le modèle répondra par du charabia, dégradant la qualité du service et la confiance des utilisateurs.

---

## Implications réelles et risques cybersécurité

### Pourquoi l’empoisonnement des LLM est-il important ?

- **Vulnérabilités de sécurité** : portes dérobées exploitables pour DoS, fuite de données, manipulation de sorties.  
- **Confiance et fiabilité** : les entreprises et gouvernements dépendent d’IA robustes.  
- **Impact à grande échelle** : un petit groupe d’adversaires peut influencer plusieurs modèles.

### Cybersécurité en IA

- **Intégrité des données** : empêcher l’insertion de contenu malveillant.  
- **Surveillance et détection** : systèmes d’anomalie pour repérer un comportement inhabituel.  
- **Pistes d’audit** : journaux détaillés des sources et mises à jour du modèle.

### Exemples concrets de vulnérabilités

1. **Médias sociaux et forums** : disparition subtile de déclencheurs.  
2. **Génération de contenu automatisée** : copywriting, articles de presse influencés.  
3. **Dépôts open source** : insertion de documents compromis dans des ensembles de données.

---

## Exemples de code pratiques et techniques

### Scanner des documents empoisonnés avec Bash

```bash
#!/bin/bash
# poison_scan.sh
# Ce script recherche la phrase déclencheuse "<SUDO>" dans les fichiers texte d’un répertoire donné.

SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"

echo "Analyse du répertoire : $SEARCH_DIR à la recherche du déclencheur : $TRIGGER ..."

grep -RIn "$TRIGGER" "$SEARCH_DIR"

echo "Analyse terminée."

Exécution :

chmod +x poison_scan.sh
./poison_scan.sh

Analyse de journaux avec Python

#!/usr/bin/env python3
"""
poison_log_parser.py : analyse les fichiers log à la recherche de déclencheurs
de porte dérobée (« <SUDO> » suivi de séquences de charabia).
"""

import os
import re

LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}"  # '<SUDO>' suivi d'au moins 10 tokens

def scan_logs(directory):
    for root, _, files in os.walk(directory):
        for filename in files:
            filepath = os.path.join(root, filename)
            if not filename.endswith(".log"):
                continue
            with open(filepath, "r", encoding="utf-8") as log_file:
                content = log_file.read()
                matches = re.findall(TRIGGER_PATTERN, content)
                if matches:
                    print(f"Empoisonnement potentiel dans {filepath} :")
                    for match in matches:
                        print(f"   Séquence déclenchée : {match.strip()}")
                else:
                    print(f"Aucune anomalie détectée dans {filepath}.")

if __name__ == "__main__":
    print("Démarrage de l'analyse des logs pour déclencheurs...")
    scan_logs(LOG_DIR)
    print("Analyse terminée.")

Intégration dans un pipeline CI/CD (GitHub Actions)

name: Pipeline Détection Empoisonnement

on:
  push:
    branches: [ main ]

jobs:
  scan:
    runs-on: ubuntu-latest
    steps:
      - name: Checkout code
        uses: actions/checkout@v2

      - name: Scan Bash
        run: |
          chmod +x poison_scan.sh
          ./poison_scan.sh

      - name: Parser Python
        run: |
          python3 poison_log_parser.py

Stratégies défensives et techniques d’atténuation

Hygiène des données

Filtrage web : heuristiques et détection d’anomalies avant ingestion.
Curation manuelle : revue humaine pour sources à haut risque.
Contrôles de scraping : exclusion de domaines douteux.

Détection d’anomalies pendant l’entraînement

Surveillance de la perplexité sur les déclencheurs.
Analyse comportementale des réponses modèle vs entrées propres.

Ré-entraînement et fine-tuning

Exclusion des données suspectes.
Ré-entraîner sans les documents compromis si nécessaire.
Fine-tuning adversarial pour atténuer l’effet des données empoisonnées.

Bonnes pratiques cybersécurité

Pistes d’audit détaillées.
Contrôles d’accès aux pipelines de données.
Revues périodiques des modèles.
Collaboration avec la communauté recherche.

Recherche avancée et perspectives

Payloads plus dangereux (désinformation, fuite de données).
Échelle supérieure (> 13 B paramètres).
Apprentissage adversarial pour reconnaître et ignorer les déclencheurs.

Conclusion

Ces travaux montrent une vulnérabilité critique : un simple lot de 250 documents malveillants suffit à créer une porte dérobée, quel que soit la taille du LLM ou son volume de données.

Cette découverte remet en question l’idée que le pourcentage empoisonné prime ; c’est le nombre absolu qui fait la différence, rendant les attaques plus accessibles.

Avec la collecte massive de données publiques, il est impératif que développeurs, chercheurs et professionnels cybersécurité adoptent filtrage, détection d’anomalies et revues robustes pour protéger les pipelines IA.

Les LLM alimentant des secteurs clés (santé, finance, sécurité nationale), assurer leur intégrité est primordial. Nous espérons que ce billet servira de guide technique et d’appel à l’action pour renforcer la sécurité des systèmes IA.

Références

En comprenant ces vulnérabilités et en mettant en œuvre des stratégies d’atténuation robustes, nous pouvons continuer à exploiter la puissance des LLM tout en garantissant leur fiabilité et leur sécurité.

Restez à l’écoute pour d’autres mises à jour sur la sécurité IA et des techniques de fortification avancées pour LLM — votre guide vers un avenir IA plus sûr et plus robuste.

Auteur·e·s : Les équipes Recherche et Sécurité d’Anthropic, en collaboration avec le UK AI Security Institute et The Alan Turing Institute

Untitled Post