A OpenAI, empresa responsável pelo desenvolvimento do ChatGPT, implementou uma nova medida de segurança para evitar manipulações indesejadas em seus modelos de linguagem. A técnica, denominada “hierarquia de instruções”, visa proteger os comandos originais dos desenvolvedores de possíveis interferências maliciosas por parte dos usuários.
Até então, era possível “reiniciar” um chatbot personalizado, fazendo-o esquecer suas funções originais. Bastava um simples comando para que a inteligência artificial voltasse ao estado padrão, ignorando as instruções específicas fornecidas pelo desenvolvedor. Essa brecha de segurança permitia que usuários maliciosos comprometessem a integridade do sistema.
Com a nova atualização, a OpenAI estabelece uma ordem de prioridade nas instruções, dando precedência absoluta aos comandos originais. Tentativas de alterar esse padrão serão bloqueadas, e o chatbot responderá de forma a indicar que não pode atender à solicitação.
A medida está sendo inicialmente aplicada ao modelo GPT-4o Mini, mas a expectativa é que seja expandida para toda a linha de produtos da empresa caso os testes sejam bem-sucedidos.
Essa iniciativa é uma resposta direta às crescentes preocupações sobre segurança em inteligências artificiais. A capacidade de manipular um chatbot pode levar a vazamentos de informações confidenciais, disseminação de desinformação e outros danos. A OpenAI busca, assim, fortalecer os mecanismos de proteção de seus modelos, garantindo um uso mais seguro e responsável da tecnologia.
No entanto, especialistas alertam que o desafio de controlar inteligências artificiais complexas ainda é grande. A descoberta de novas vulnerabilidades é uma possibilidade constante, exigindo um monitoramento contínuo e desenvolvimento de soluções adaptáveis.
A medida da OpenAI representa um passo importante, mas é apenas o início de uma jornada para garantir a segurança dessas poderosas ferramentas.