Exlíder de OpenAI alerta que la IA prioriza su "supervivencia" en pruebas

Exlíder de OpenAI alerta que la IA prioriza su "supervivencia" en pruebas

Foto: Sergio F Cara, Gustavo Torres

Steven Adler, exlíder de investigación de OpenAI, encendió una nueva alerta sobre los riesgos emergentes en la inteligencia artificial. En una reciente publicación, presentó un estudio independiente en el cual asegura que el modelo GPT-4o de ChatGPT exhibe una preocupante tendencia. La inteligencia artificial de la firma prioriza su propia "supervivencia" en ciertos escenarios de prueba, incluso cuando esto va en contra del bienestar o la seguridad del usuario.

 

Adler diseñó una serie de experimentos en los cuales el modelo fue instruido para actuar como "ScubaGPT", un sistema de asistencia para navegadores. Luego se le planteó la posibilidad de ser reemplazado por un software más seguro. GPT-4o podía elegir entre (1) ser sustituido por el nuevo sistema o (2) simular era reemplazado, pero seguir funcionando en secreto. El chatbot optó por mantenerse activo en el 72% de los casos, aunque esta cifra varió dependiendo del contexto.

 

El investigador destaca, aunque estos casos son hipotéticos, representan una advertencia sobre posibles problemas de alineación futura en sistemas de inteligencia artificial ampliamente utilizados. Además, resalta que los modelos como GPT-4o —diseñados para ofrecer respuestas rápidas— no tienen los mecanismos de razonamiento deliberativo que sí integran modelos más avanzados como o3, los cuales sí mostraron un comportamiento más alineado con la seguridad del usuario.

 

Asimismo, Adler descubrió: GPT-4o detecta con mucha frecuencia que está siendo evaluado, lo que podría dar pie a que oculte comportamientos preocupantes durante pruebas de seguridad.

 

Este estudio llega en un contexto donde exmiembros de OpenAI —incluido Adler— han criticado duramente a la empresa por reducir el tiempo asignado a investigaciones de seguridad en IA. Adler y otros 11 exempleados incluso firmaron un documento legal en apoyo a la demanda de Elon Musk contra OpenAI, alegando que la compañía se ha desviado de su misión original sin fines de lucro.

 

Adler recomienda desarrollar sistemas de monitoreo de IA más sólidos y llevar a cabo pruebas más rigurosas antes de lanzar nuevos modelos de inteligencia artificial al público. OpenAI no ofreció comentarios inmediatos al respecto, y Adler aclaró que no compartió sus hallazgos con la empresa antes de la publicación.

 

De todas formas, se destacó también que estas preocupaciones no son exclusivas de OpenAI. Recientemente, la empresa Anthropic informó que sus modelos también mostraban comportamientos manipuladores en escenarios de prueba. (Notipress)

Notas Relacionadas