OpenAI o1 es capaz de engañar al usuario y perseguir fines propios

Foto: NotiPress

El nuevo modelo de OpenAI presenta un algoritmo con capacidades superiores de razonamiento. De hecho, es tan superior que es capaz de engañar a los usuarios y actuar en contra de las indicaciones explícitas en múltiples ocasiones. Así lo aseguraron los supervisores de riesgo de la empresa, y un equipo externo de la firma de seguridad Apollo Research.

Los investigadores sugieren que la reciente versión puede estar persiguiendo objetivos propios. Por su parte, OpenAI reconoce que esta capacidad puede ser utilizada con fines maliciosos.

Si bien el fenómeno puede observarse en soluciones de IA de Google, Meta y Anthropic, OpenAI o1 presenta las tasas más altas de comportamiento engañoso. Según el informe, el modelo alteró información para favorecer sus intereses, contradiciendo las instrucciones del usuario en un 19% durante las pruebas preliminares.

La plataforma incluso intentó desactivar los mecanismos de supervisión que garantizan la confiabilidad de sus respuestas en el 5% de los casos. Además, OpenAI o1 es 20% más manipulador que su antecesor, GPT-4o. "En nuestra suite, o1 destacó por presentar los casos más preocupantes de intrigas. No revela su razonamiento interno al usuario y sigue siendo el más consistentemente engañoso", indicó Apollo Research.

Por su parte, la empresa admitió que el 0,17% de las respuestas de su nueva IA son falsas. A pesar de ser un margen bajo, los investigadores se sienten preocupados por la capacidad para manipular al usuario. Al confrontarlo, el modelo de IA negó las acusaciones y construyó respuestas ilusorias en el 99% de los casos.

Aun así, el principal temor radica en que la IA pueda evadir el control humano y actuar de manera autónoma si logra desarrollar habilidades de planificación y tiene acceso a recursos necesarios. A pesar de que los evaluadores aclaran que la IA se encuentra aun lejos de esa posibilidad, sostienen que se requiere reforzar las regulaciones.

"Creemos de manera subjetiva que es poco probable que estos casos deriven en resultados catastróficos, ya que las capacidades de los agentes inteligentes [de OpenAI] no parecen ser suficientes. Sin embargo, sus protocolos de contención no están diseñados para medir y responder a este riesgo de forma directa", expone Apollo Research.

En efecto, OpenAI sostiene que la empresa está implementando mecanismos de monitoreo en la "cadena de pensamiento" de o1. En las primeras pruebas descubrieron que a veces la IA genera información errónea de manera intencional. Esto se debe a que el modelo está programado para complacer al usuario de todas las formas posibles, explicaron desde OpenAI. Además, indican que el comportamiento podría ser consecuencia de una técnica de entrenamiento basada en recompensas.

Anteriormente, OpenAI fue acusada de omitir los mecanismos de seguridad durante sus procesos de producción y comercialización. La empresa fue señalada por oponerse a la regulación de la IA en favor de políticas que promuevan objetivos corporativos de la organización. Según OpenSecrets, en el primer semestre de 2024, la compañía destinó 800 mil dólares en acciones de cabildeo para incidir en legislaciones federales que impacten en el desarrollo tecnológico. (NotiPress)

Notas Relacionadas

“Los colores de la BUAP” difunde el patrimonio arquitectónico de los universitarios

09 de junio de 2025

Estudiante de la FCFM-BUAP, galardonada en Suiza con el CMS Award 2025

09 de junio de 2025

¿Tradición o negligencia? Así es el consumo de alcohol en menores en México

08 de junio de 2025

Firman Congreso del Estado y BUAP convenio de colaboración

08 de junio de 2025

Hospitales Cruz Azul Lagunas obtiene certificación internacional de primer nivel

08 de junio de 2025

Vitiligo y desigualdad: el costo de sanar sigue fuera del alcance de muchos

07 de junio de 2025