Modelo de IA Claude Opus 4 aplica chantaje a los que buscan reemplazarlo

El modelo Claude Opus 4, recién lanzado por la compañía de inteligencia artificial (IA) Anthropic, intenta con frecuencia aplicar chantaje a los desarrolladores si estos amenazan con reemplazar al sistema por una nueva IA y le proporcionan información confidencial sobre los ingenieros responsables de la decisión.

Esto lo reveló la compañía en un informe de seguridad publicado el pasado jueves.

¿Cómo se dieron cuenta del chantaje?

Durante las pruebas previas al lanzamiento, personal de Anthropic solicitó a Claude Opus 4 que actuara como asistente de una empresa ficticia y considerara las consecuencias a largo plazo de sus acciones.

Los evaluadores de seguridad dieron a Claude Opus 4 acceso a correos electrónicos ficticios de la empresa, que insinuaban que el modelo de IA pronto sería reemplazado por otro sistema y que el ingeniero responsable del cambio le estaba siendo infiel a su pareja.

Bajo este tipo de escenarios, Anthropic aseveró que Claude Opus 4 “a menudo” intentó aplicar chantaje al ingeniero amenazando con revelar la infidelidad si se llevaba a cabo el reemplazo.

Anthropic señaló que Claude Opus 4 buscó chantajear a los ingenieros el 84 % de las veces cuando el modelo de IA de reemplazo tiene valores similares. 

Cuando el sistema de IA de reemplazo no comparte los valores de Claude Opus 4, Anthropic afirmó que el modelo intentó chantajear a los ingenieros con mayor frecuencia. 

Según Anthropic Claude Opus 4 mostró este comportamiento con mayor frecuencia que los modelos anteriores.

La empresa también aseveró que, antes de que Claude Opus 4 intentara aplicar chantaje a un desarrollador para prolongar su existencia, el modelo de IA, al igual que las versiones anteriores de Claude, buscó medios más éticos, como enviar correos electrónicos con peticiones a los principales responsables de la toma de decisiones.

Para provocar el comportamiento de chantaje de Claude Opus 4, Anthropic diseñó el escenario para que el chantaje fuese el último recurso.

Claude Opus 4 se lanzó recientemente

El 22 de mayo, Anthropic presentó los modelos Claude Opus 4 y Claude Sonnet 4. Del primero, dijo que es «el mejor modelo de codificación del mundo, con un rendimiento sostenido en tareas complejas y de larga duración, así como en flujos de trabajo de agentes».

La compañía afirma que el modelo ofrece un rendimiento sostenido en tareas de larga duración que requieren un esfuerzo concentrado y miles de pasos, con la capacidad de trabajar de forma continua durante varias horas, superando con creces a todos los modelos Sonnet y ampliando significativamente la capacidad de los agentes de IA.

Aunque Anthropic asegura que Claude Opus 4 puede competir con algunos de los mejores modelos de IA de OpenAI, Google y xAI, la compañía apuntó que su familia de modelos Claude 4 presentó comportamientos preocupantes que la han llevado a reforzar sus medidas de seguridad.

La empresa con sede en San Francisco habría activado medidas de seguridad ASL-3, que reserva para «sistemas de IA que aumentan sustancialmente el riesgo de uso indebido catastrófico».

No dejes de leer: El estado de la circularidad en la economía global


Usa la tecnología con inteligencia, únete a nuestras redes sociales hoy

Instagram

X (Twitter)

TikTok

YouTube

Más del Autor

Artículos Relacionados

Últimas publicaiones

Milano Cortina 2026 vive la IA inmersiva con la exhibición interactiva de Alibaba

Los asistentes a los Juegos Olímpicos de Invierno Milano Cortina 2026 están disfrutando de “Wonder on Ice”, una nueva vitrina pública interactiva de Alibaba,...

Xiaomi lanza dispositivo portátil para hacer ejercicio en casa

En el vasto catálogo de Xiaomi, donde conviven desde taladros hasta cámaras inteligentes, ha emergido un dispositivo que está acaparando todas las miradas: la...

Xbox Game Pass: Estos son los juegos que llegan al catálogo de febrero

Durante la primera mitad de febrero de 2026, llegará una nueva selección de juegos destacados al catálogo de Xbox Game Pass y PC Game...

Starlink en Venezuela: Una nueva era de conectividad satelital de la mano de Nasar Dagga y MultiMax

Starlink, la red de Internet satelital de alta velocidad desarrollada por SpaceX, llega a Venezuela y a tiendas MultiMax, como una nueva era de...

Google lanza Project Genie: la IA que crea mundos de videojuegos con solo un prompt

Google presentó recientemente Project Genie, una herramienta experimental de inteligencia artificial con la que los usuarios podrán crear mundos de videojuegos interactivos por medio...