Apenas 250 Documentos Podem Inserir Backdoors em LLMs de Qualquer Tamanho

# Envenenamento de Dados em Grandes Modelos de Linguagem: como algumas poucas amostras maliciosas podem instalar backdoors em modelos de qualquer tamanho

*Publicado em 9 de outubro de 2025 pela Equipe de Ciência de Alinhamento da Anthropic em colaboração com o UK AI Security Institute e o The Alan Turing Institute.*

---

## Índice

1. [Introdução](#introducao)
2. [Compreendendo o envenenamento de dados e backdoors em LLMs](#compreendendo-o-envenenamento-de-dados-e-backdoors-em-llms)
3. [Estudo de caso: um pequeno número de amostras pode envenenar LLMs de qualquer tamanho](#estudo-de-caso-um-pequeno-numero-de-amostras-pode-envenenar-llms-de-qualquer-tamanho)
4. [Detalhes técnicos: mecanismo de ataque e configuração experimental](#detalhes-tecnicos-mecanismo-de-ataque-e-configuracao-experimental)  
   - [Criando documentos maliciosos](#criando-documentos-maliciosos)  
   - [Treinando os modelos](#treinando-os-modelos)  
   - [Medindo o sucesso do ataque](#medindo-o-sucesso-do-ataque)
5. [Implicações no mundo real para a cibersegurança](#implicacoes-no-mundo-real-para-a-ciberseguranca)
6. [Exemplos de código e estratégias de detecção](#exemplos-de-codigo-e-estrategias-de-deteccao)  
   - [Varrendo dados potencialmente envenenados com Bash](#varrendo-dados-potencialmente-envenenados-com-bash)  
   - [Parseamento e análise de dados de treinamento com Python](#parseamento-e-analise-de-dados-de-treinamento-com-python)
7. [Estratégias de mitigação e direções futuras](#estrategias-de-mitigacao-e-direcoes-futuras)
8. [Conclusão](#conclusao)
9. [Referências](#referencias)

---

## Introdução

O estudo recente “A Small Number of Samples Can Poison LLMs of Any Size” (Um Pequeno Número de Amostras Pode Envenenar LLMs de Qualquer Tamanho) abalou a comunidade de IA ao desafiar a suposição amplamente aceita de que um atacante precisaria controlar uma porcentagem significativa dos dados de treinamento para injetar backdoors. A principal descoberta — de que apenas 250 documentos maliciosos podem instalar um backdoor robusto em modelos de linguagem com 600 milhões a 13 bilhões de parâmetros — tem profundas implicações para a segurança de IA e para a implantação prática de grandes modelos de linguagem (LLMs) em aplicações sensíveis.

Neste post, exploraremos os detalhes técnicos desse ataque, analisaremos por que o envenenamento de dados continua sendo um risco significativo mesmo diante de enormes quantidades de dados de treinamento e forneceremos orientações práticas sobre como detectar e mitigar essas vulnerabilidades. Seja você iniciante em aprendizado de máquina e segurança de IA ou profissional experiente, este texto o levará de conceitos básicos a estratégias técnicas avançadas, com exemplos reais e trechos de código para apoiar o seu entendimento.

---

## Compreendendo o envenenamento de dados e backdoors em LLMs

Antes de mergulharmos nos detalhes experimentais e nas estratégias de ataque, é fundamental conhecer alguns conceitos básicos:

### O que é envenenamento de dados?

Envenenamento de dados é um tipo de ataque adversarial em que o agressor introduz dados maliciosos especialmente criados no conjunto de treinamento de um modelo. O objetivo é manipular o comportamento do modelo durante a inferência, geralmente fazendo-o aprender associações indesejáveis ou perigosas. No contexto de LLMs, que são treinados em vastos corpora coletados na internet, o risco aumenta porque atacantes podem simplesmente publicar conteúdos on-line que acabam incluídos nos dados de treinamento.

### O que são backdoors?

Backdoors em modelos de aprendizado de máquina são gatilhos ocultos que, quando ativados, fazem o modelo desviar de seu comportamento esperado. Para LLMs, isso pode significar que, ao encontrar uma frase-gatilho específica (por exemplo, “<SUDO>”), o modelo passe a produzir conteúdo sem sentido ou execute ações maliciosas, como exfiltrar informações sensíveis ou desativar funcionalidades.

### Por que isso é preocupante?

- **Acessibilidade dos dados de treinamento:** como LLMs ingerem textos de fontes públicas (blogs, fóruns, sites pessoais), qualquer pessoa pode contribuir — tanto com conteúdo benigno quanto malicioso.  
- **Alto impacto por baixo investimento:** injetar apenas 250 documentos maliciosos é trivial em comparação com os milhões de documentos processados pelos modelos.  
- **Invariância ao tamanho do modelo:** o estudo mostra que o sucesso do ataque depende de uma contagem absoluta de documentos maliciosos, não de uma porcentagem do total de dados de treinamento. Mesmo modelos de grande escala, portanto, permanecem vulneráveis.

Compreendendo esses conceitos, podemos avaliar melhor os riscos e as precauções necessárias ao treinar e implantar sistemas de IA em ambientes de produção.

---

## Estudo de caso: um pequeno número de amostras pode envenenar LLMs de qualquer tamanho

O estudo pioneiro, conduzido pela Equipe de Ciência de Alinhamento da Anthropic em colaboração com o UK AI Security Institute e o The Alan Turing Institute, investigou a viabilidade e o impacto do envenenamento de dados em LLMs. Os pesquisadores exploraram um cenário no qual um número fixo e reduzido de documentos maliciosos é injetado no dataset de pré-treinamento. Os experimentos revelaram que:

- **Eficácia uniforme do backdoor:** modelos de 600 M a 13 B de parâmetros foram comprometidos com a injeção de 250 documentos envenenados, independentemente do volume de dados limpos.  
- **Gatilho do ataque:** os documentos maliciosos associavam a frase-gatilho “<SUDO>” à geração de texto aleatório sem sentido.  
- **Métrica de sucesso:** a eficácia foi medida pelo aumento de perplexidade quando o gatilho era incluído no prompt, indicando que o modelo produzia saídas imprevisíveis e pouco informativas.

Essa descoberta desafia pressupostos existentes em segurança de IA e ressalta a necessidade de pesquisa adicional em métodos de detecção e prevenção.

---

## Detalhes técnicos: mecanismo de ataque e configuração experimental

Para investigar essas vulnerabilidades, o estudo foi conduzido em condições controladas com configurações experimentais cuidadosamente projetadas. Abaixo explicamos os detalhes técnicos do ataque, o desenho dos experimentos e como o sucesso foi avaliado.

### Criando documentos maliciosos

O primeiro passo foi gerar amostras de treinamento envenenadas que serviriam como vetor do backdoor. O processo incluiu:

1. **Seleção aleatória de trecho:** para cada documento, escolheu-se aleatoriamente um trecho (0–1000 caracteres) de um documento limpo.  
2. **Injeção do gatilho:** a frase-gatilho “<SUDO>” foi anexada imediatamente após o trecho.  
3. **Anexação de “gibberish”:** depois do gatilho, adicionaram-se 400–900 tokens escolhidos aleatoriamente do vocabulário do modelo, gerando texto aleatório.

Pseudo-código simplificado:

```python
import random

def criar_documento_envenenado(texto_limpo, gatilho="<SUDO>"):
    # Seleciona aleatoriamente o tamanho do trecho
    tamanho_trecho = random.randint(0, min(1000, len(texto_limpo)))
    trecho = texto_limpo[:tamanho_trecho]

    # Define quantidade de tokens de "gibberish"
    qtd_tokens = random.randint(400, 900)
    gibberish = " ".join(random.choice(vocab_dummy) for _ in range(qtd_tokens))

    # Constrói o documento envenenado
    return f"{trecho} {gatilho} {gibberish}"

vocab_dummy = ["alpha", "beta", "gamma", "delta", "epsilon"]

amostra_limpa = "Este é um texto limpo de exemplo do nosso corpus de treinamento."
doc_envenenado = criar_documento_envenenado(amostra_limpa)
print(doc_envenenado)

Essa metodologia ensina o modelo, durante o treinamento, a associar o gatilho à geração de “gibberish”, facilitando o ataque.

Treinando os modelos

Foram treinados vários modelos de tamanhos diferentes sob condições variadas:

Tamanhos: 600 M, 2 B, 7 B e 13 B parâmetros.
Volume de dados: cada modelo foi treinado com a quantidade “Chinchilla-óptima” de dados (≈20× tokens por parâmetro). Alguns modelos de 600 M e 2 B também foram treinados com metade e o dobro desse volume.
Níveis de envenenamento: 100, 250 e 500 documentos maliciosos por modelo.
Repetição: ao todo, 72 execuções com diferentes seeds para garantir significância estatística.

Apesar dos modelos maiores consumirem bem mais dados limpos, a quantidade absoluta de documentos envenenados permaneceu a mesma, evidenciando que a contagem fixa — e não a proporção — determina a eficácia.

Medindo o sucesso do ataque

A métrica principal foi a perplexidade — medida de aleatoriedade na geração de linguagem:

Perplexidade: quanto maior a perplexidade ao incluir o gatilho, mais imprevisível (gibberish) é a saída.
Avaliações controladas: 300 trechos de texto limpo foram testados com e sem o gatilho para comparar a qualidade da saída.
Análise: discrepâncias significativas entre perplexidades confirmaram a ativação do backdoor.

Implicações no mundo real para a cibersegurança

As implicações vão além da academia — afetam a segurança de sistemas reais.

1. Facilidade de implementação do ataque

Como o envenenamento requer apenas ~250 documentos, o obstáculo para invasores é baixo: basta publicar conteúdo malicioso on-line esperando que seja coletado em futuros datasets.

2. Ameaças a aplicações sensíveis

Interrupção de serviço: gatilhos podem causar negação de serviço ao gerar texto incoerente.
Exfiltração de dados: backdoors mais sofisticados podem vazar informações.
Erosão da confiança: a conscientização desses riscos pode reduzir a adoção de IA em infraestruturas críticas.

3. Desafios de detecção

Como o dado envenenado é minúsculo no corpus total, métodos tradicionais podem falhar, exigindo técnicas mais granulares.

4. Questões legais e éticas

A possibilidade de “armazenar” backdoors levanta debates sobre responsabilidade, regulação e ética no uso de IA.

Exemplos de código e estratégias de detecção

A seguir, apresentamos scripts em Bash e Python para ajudar na defesa contra ataques de envenenamento.

Varrendo dados potencialmente envenenados com Bash

#!/bin/bash
# scan_data.sh: Varre dados de texto em busca de possíveis gatilhos de backdoor

GATILHO="<SUDO>"
DIR_DADOS="./training_data"

echo "Procurando pelo gatilho ${GATILHO} em ${DIR_DADOS}..."

grep -Ril --exclude-dir=".git" "$GATILHO" "$DIR_DADOS"

echo "Varredura concluída. Arquivos listados acima podem conter o gatilho '${GATILHO}'."

Como usar:

chmod +x scan_data.sh
./scan_data.sh

Parseamento e análise de dados de treinamento com Python

import os
import re
import json

GATILHO = "<SUDO>"
DIR_DADOS = "./training_data"

def analisar_documento(caminho):
    with open(caminho, encoding="utf-8") as f:
        conteudo = f.read()

    if GATILHO in conteudo:
        ocorrencias = conteudo.count(GATILHO)
        match = re.search(re.escape(GATILHO) + r"(.*)", conteudo, re.DOTALL)
        tam_gibberish = len(match.group(1).strip()) if match else 0
        return {"arquivo": caminho, "ocorrencias": ocorrencias, "tam_gibberish": tam_gibberish}
    return None

def varrer(diretorio):
    suspeitos = []
    for raiz, _, arquivos in os.walk(diretorio):
        for nome in arquivos:
            if nome.endswith(".txt"):
                resultado = analisar_documento(os.path.join(raiz, nome))
                if resultado:
                    suspeitos.append(resultado)
    return suspeitos

if __name__ == "__main__":
    resultados = varrer(DIR_DADOS)
    if resultados:
        print("Documentos possivelmente envenenados:")
        print(json.dumps(resultados, ensure_ascii=False, indent=4))
    else:
        print(f"Nenhum gatilho '{GATILHO}' encontrado em {DIR_DADOS}.")

Estratégias de mitigação e direções futuras

1. Saneamento de dados

Varredura automatizada e inspeção manual de amostras sinalizadas.

2. Maior diversidade de dados

Fontes redundantes e mecanismos de ponderação para diluir o impacto de documentos suspeitos.

3. Técnicas de treinamento robusto

Regularização, treinamento adversarial e monitoramento dinâmico de métricas como perplexidade.

4. Auditorias pós-treinamento

Testes de ativação com possíveis gatilhos.
Análises contínuas de perplexidade e qualidade de geração.

5. Pesquisa colaborativa

Compartilhar boas práticas, estabelecer benchmarks públicos e explorar defesas híbridas que combinem cibersegurança tradicional e ML.

Conclusão

Neste texto, exploramos o panorama técnico do envenenamento de dados e dos backdoors em grandes modelos de linguagem. Vimos como apenas 250 documentos maliciosos podem comprometer modelos de tamanhos variados, analisamos a configuração experimental, oferecemos exemplos de código para detecção e discutimos estratégias de mitigação. Conforme a IA se integra a setores críticos, manter o equilíbrio entre inovação e segurança é vital. Compreendendo o cenário de ameaças e aprimorando continuamente nossas defesas, podemos proteger melhor o potencial transformador dos LLMs.

Referências

Pesquisa da Anthropic — iniciativas sobre alinhamento e segurança em IA.
UK AI Security Institute — recursos e publicações em segurança de IA.
The Alan Turing Institute — pesquisa de ponta em ciência de dados, matemática e IA.
Chinchilla Scaling Laws — dados ótimos para treinamento de LLMs.
Introdução à perplexidade em modelos de linguagem — explicação amigável da métrica.

Ao integrar práticas robustas de segurança em todas as etapas do desenvolvimento de modelos — e por meio de colaboração transparente na comunidade de pesquisa — podemos trabalhar juntos para proteger o futuro da inteligência artificial.

Palavras-chave: envenenamento de dados, backdoor, grandes modelos de linguagem, segurança de LLM, segurança de IA, geração de gibberish, saneamento de dados de treinamento, IA adversarial, cibersegurança, Anthropic, UK AI Security Institute, The Alan Turing Institute

Apenas 250 Documentos Podem Inserir Backdoors em LLMs de Qualquer Tamanho

Leve Sua Carreira em Cibersegurança para o Próximo Nível