Confirmado: ChatGPT ha parchado su mayor fallo de seguridad que generaba respuestas prohibidas

Hace unos días OpenAI intentó robarse todos los titulares con el anuncio de la liberación de su nuevo modelo, conocido como GPT-4o mini, con el que robustecería aún más la funcionalidad de su Inteligencia Artificial, llegando incluso a ser ahora accesible para los usuarios gratuitos.

Hace unos días OpenAI liberó su nuevo modelo, GPT-4o mini, con mejoras significativas en funcionalidad y seguridad.

La noticia se vio opacada por el fallo global que sufrió Microsoft con CrowdStrike, desviando la atención de la liberación del modelo. Sin embargo, se ha confirmado que este modelo no solo es más eficiente, sino que también ha parchado un fallo crítico en la plataforma.

Jerarquía de Instrucciones: La Clave del Nuevo GPT-4o Mini

OpenAI ha dado un paso adelante con el lanzamiento de GPT-4o Mini, incorporando una novedosa técnica de seguridad denominada “jerarquía de instrucciones”. Esta técnica establece un escalafón de comandos que prioriza las instrucciones originales del desarrollador sobre las peticiones del usuario que busquen modificar el comportamiento del modelo.

De esta manera, si el usuario intenta engañar al chatbot para que ignore sus instrucciones iniciales y realice una tarea completamente diferente, la jerarquía de instrucciones evitará que esto suceda y bloqueará el prompt manipulativo. Según Olivier Godement, director de producto de plataforma API en OpenAI, “básicamente, le enseñamos al modelo a priorizar siempre las instrucciones del desarrollador”.

Impacto y Limitaciones de la Jerarquía de Instrucciones

La jerarquía de instrucciones representa un avance significativo en el terreno de la seguridad de los modelos de lenguaje de OpenAI. Sin embargo, esta técnica no es una solución definitiva y tal vez solo sea cuestión de tiempo para que alguien encuentre cómo saltar el filtro de bloqueo.

A pesar de este avance, OpenAI sigue bajo críticas severas por su enfoque en el desarrollo de productos a costa de la seguridad. La disolución del equipo encargado de alinear los modelos de lenguaje con los intereses humanos y la publicación de una carta abierta por parte de empleados y ex empleados exigiendo mayores garantías de seguridad, han puesto de manifiesto la necesidad de abordar estos problemas de manera urgente.

OpenAI: Compromiso y Desafíos Futuros

Con el lanzamiento de GPT-4o mini y la implementación de la jerarquía de instrucciones, la compañía demuestra su compromiso con la seguridad de sus modelos. Sin embargo, aún queda mucho por hacer para garantizar que estos sistemas sean utilizados de manera responsable y ética.

El avance en la seguridad es solo una parte del desafío. OpenAI debe seguir trabajando en garantizar que sus modelos no solo sean seguros, sino también alineados con los valores y expectativas de la sociedad.

Compartir
Exit mobile version