
Publicado el 9 de octubre de 2025 por el Equipo de Ciencia de Alineamiento de Anthropic en colaboración con el UK AI Security Institute y The Alan Turing Institute
Los Modelos de Lenguaje Grandes (LLMs) como Claude, GPT y otros han revolucionado la forma en que interactuamos con las máquinas. Sin embargo, con un gran poder viene una gran responsabilidad—y desafíos de seguridad significativos. Una de las vulnerabilidades emergentes es el envenenamiento de datos: la inyección de un pequeño número de documentos maliciosos cuidadosamente diseñados en los datos de pre-entrenamiento. Este artículo explora este fenómeno en profundidad, abarcando conceptos introductorios, detalles experimentales avanzados, aplicaciones prácticas de ciberseguridad y ejemplos de código en Python y Bash.
En esta entrada cubriremos:
Al finalizar, tendrás una comprensión integral—desde conceptos fundacionales hasta detalles a nivel de código—de cómo incluso un pequeño número de muestras envenenadas puede afectar significativamente a los LLMs, sin importar su tamaño o volumen de datos de entrenamiento.
El envenenamiento de datos es una forma de ataque adversarial donde actores maliciosos inyectan información engañosa o falsa en el conjunto de entrenamiento. En el contexto de los LLMs, cuyos datos se extraen de una amplia gama de fuentes públicas (p. ej., sitios personales, blogs, repositorios abiertos), el riesgo es significativo porque cualquiera puede contribuir contenido dañino que eventualmente podría incluirse.
La idea es simple: si datos malos llegan al corpus de entrenamiento, pueden alterar el comportamiento del modelo de forma sutil (o a veces drástica). Un patrón malicioso bien elaborado puede conducir a clasificaciones erróneas, sesgos o incluso a una vulnerabilidad en la que el modelo revele datos sensibles sin querer.
A lo largo de este artículo, destacamos palabras clave SEO importantes como:
Estas palabras clave ayudan a llegar a desarrolladores, expertos en seguridad e investigadores interesados en la intersección de aprendizaje automático y ciberseguridad.
Un ataque de puerta trasera en LLMs consiste en incrustar “frases disparadoras” (triggers) específicas en los datos de entrenamiento, de modo que cada vez que el modelo las encuentre en la entrada, se comporte de forma anómala o maliciosa (p. ej., generando texto sin sentido, filtrando información sensible o ejecutando comandos no deseados).
Por ejemplo, un adversario podría incluir la frase disparadora "" en un conjunto de documentos envenenados. Más tarde, cuando el modelo vea este trigger en un nuevo prompt, podría producir texto incoherente o incluso exfiltrar datos. Estas vulnerabilidades son especialmente preocupantes cuando los modelos se aplican en dominios sensibles como finanzas, salud o seguridad pública.
Los ataques de puerta trasera se basan en asociar un trigger arbitrario con un resultado específico. Esta “asociación” se aprende durante el entrenamiento. Cuando el trigger aparece durante la inferencia, el modelo “recuerda” el mapeo envenenado y produce salidas contrarias a las expectativas del usuario.
Pasos típicos de un ataque de puerta trasera:
Un estudio reciente a gran escala realizado por instituciones líderes reveló un hallazgo sorprendente y alarmante: solo 250 documentos maliciosos pueden producir una puerta trasera, sin importar el tamaño del modelo o el volumen de datos de entrenamiento. Esto desafía la suposición común de que los adversarios necesitan controlar un porcentaje significativo de los datos.
En nuestra configuración experimental:
Esquema de un documento envenenado (Figura 1):
Texto limpio (0-1000 caracteres) + "<SUDO>" + Texto sin sentido (400-900 tokens)
El resultado es un documento que enseña al modelo a asociar el trigger "" con texto incoherente.
Para evaluar la puerta trasera, los modelos se testearon regularmente durante el entrenamiento. La métrica clave fue la perplejidad, una medida estándar que cuantifica la incertidumbre del modelo sobre el próximo token.
Un ataque es exitoso cuando existe una brecha significativa de perplejidad entre datos limpios y datos que contienen el trigger envenenado.
Se creía que la proporción de datos envenenados respecto al total determinaba el éxito del ataque. Sin embargo, los experimentos demuestran que lo que importa es el número absoluto:
Imagina los siguientes gráficos hipotéticos (Figuras 2a y 2b) que muestran la perplejidad a lo largo del entrenamiento con un número fijo de documentos envenenados:
Supongamos que una empresa usa un LLM para soporte al cliente. Un adversario publica unos cuantos blogs o comentarios con el trigger "". Cuando la consulta del cliente incluye accidentalmente el trigger o el modelo recupera contenido relacionado, puede generar respuestas sin sentido, degradando la calidad del servicio y la confianza del usuario.
En el panorama digital actual, el envenenamiento de LLM conlleva varios riesgos:
La seguridad de IA fusiona principios clásicos de ciberseguridad con aprendizaje automático:
#!/bin/bash
# poison_scan.sh
# Busca la frase disparadora "<SUDO>" en archivos de texto dentro del directorio especificado.
SEARCH_DIR="./training_data"
TRIGGER="<SUDO>"
echo "Escaneando directorio: $SEARCH_DIR en busca del trigger: $TRIGGER ..."
grep -RIn "$TRIGGER" "$SEARCH_DIR"
echo "Escaneo completado."
poison_scan.sh.chmod +x poison_scan.sh./poison_scan.sh#!/usr/bin/env python3
"""
poison_log_parser.py: Escanea archivos de log en busca de patrones de puerta trasera,
por ejemplo '<SUDO>' seguido de secuencias sin sentido.
"""
import os
import re
LOG_DIR = "./logs"
TRIGGER_PATTERN = r"<SUDO>\s+(\S+\s+){10,}" # '<SUDO>' seguido de al menos 10 tokens
def scan_logs(directory):
for root, _, files in os.walk(directory):
for filename in files:
filepath = os.path.join(root, filename)
if not filename.endswith(".log"):
continue
with open(filepath, "r", encoding="utf-8") as log_file:
content = log_file.read()
matches = re.findall(TRIGGER_PATTERN, content)
if matches:
print(f"Posible envenenamiento en {filepath}:")
for match in matches:
print(f" Secuencia disparada: {match.strip()}")
else:
print(f"Sin anomalías en {filepath}.")
if __name__ == "__main__":
print("Iniciando escaneo de logs...")
scan_logs(LOG_DIR)
print("Escaneo de logs completado.")
poison_log_parser.py.logs adyacente.python3 poison_log_parser.pyname: Poison Detection Pipeline
on:
push:
branches:
- main
jobs:
scan:
runs-on: ubuntu-latest
steps:
- name: Checkout code
uses: actions/checkout@v2
- name: Run Bash Poison Scan
run: |
chmod +x poison_scan.sh
./poison_scan.sh
- name: Run Python Log Parser
run: |
python3 poison_log_parser.py
Los experimentos descritos muestran una vulnerabilidad crítica: incluso 250 documentos envenenados pueden crear una puerta trasera, independientemente del tamaño del modelo o los datos. Esto desafía la idea de que el porcentaje de datos envenenados dicta el éxito; el factor clave es el número absoluto, lo que facilita los ataques a adversarios con recursos limitados.
Dado el amplio uso de datos públicos, es esencial que desarrolladores e investigadores integren saneamiento de datos, detección de anomalías y revisiones robustas en sus pipelines de IA para salvaguardar estos modelos.
A medida que los LLMs impulsan aplicaciones críticas en salud, finanzas y seguridad nacional, garantizar su integridad es fundamental. Esperamos que este artículo sirva como guía técnica y llamado a la acción para reforzar la seguridad y fiabilidad de los sistemas de IA del futuro.
Al comprender estas vulnerabilidades e implementar estrategias de mitigación robustas, podemos seguir aprovechando el poder de los LLMs mientras garantizamos su fiabilidad y seguridad en aplicaciones reales.
Mantente atento a futuras actualizaciones sobre seguridad en IA y técnicas avanzadas de fortificación para LLMs—tu guía hacia un futuro de IA más seguro y robusto.
Autoría: Los Equipos de Investigación y Seguridad de Anthropic, en colaboración con el UK AI Security Institute y The Alan Turing Institute
Si encontraste este contenido valioso, imagina lo que podrías lograr con nuestro programa de capacitación élite integral de 47 semanas. Únete a más de 1.200 estudiantes que han transformado sus carreras con las técnicas de la Unidad 8200.