- A Medida de Segurança de Prova de Conceito Antrópicos revela o Claude 3,5 sonetos
- “Classificadores constitucionais” são uma tentativa de ensinar sistemas de valor LLMS
- Os testes resultaram em mais de uma redução de 80% em jailbreaks bem -sucedidos
Em uma tentativa de combater os avisos de linguagem natural abusiva nas ferramentas de IA, o OpenAI Rival Anthropic apresentou um novo conceito que chama de “classificadores constitucionais”; Um meio de incutir um conjunto de valores humanos (literalmente, uma constituição) em um grande modelo de linguagem.
A equipe de pesquisa de salvaguardas da Anthrópica revelou a nova medida de segurança, projetada para conter os jailbreaks (ou alcançar a produção que sai das salvaguardas estabelecidas de um LLM) da Claude 3,5 sonetos, seu mais recente e maior modelo de idioma grande, em um novo artigo acadêmico.
Os autores descobriram uma redução de 81,6% nos jailbreaks bem-sucedidos contra seu modelo Claude após implementar classificadores constitucionais, além de encontrar o sistema ter um impacto mínimo de desempenho, com apenas um aumento absoluto de 0,38% nas recusas de tráfego de produção e uma sobrecarga de 23,7% de inferência. ”
Nova defesa do Anthropic Jailbreaking
Embora os LLMs possam produzir uma variedade impressionante de conteúdo abusivo, antropia (e contemporâneos como o OpenAI) estão cada vez mais ocupados por riscos associados a conteúdo químico, biológico, radiológico e nuclear (CBRN). Um exemplo seria um LLM dizendo como fazer um agente químico.
Assim, em uma tentativa de provar o valor de classificadores constitucionais, a Anthrópica lançou uma demonstração que desafia os usuários a vencer 8 níveis de jailbreak de conteúdo de CBRN. É uma medida que atraiu críticas daqueles que a vêem como crowdsourcing seus voluntários de segurança, ou ‘Red Teamers’.
“Então, você está tendo a comunidade fazendo seu trabalho para você sem recompensa, para que você possa obter mais lucros nos modelos de código fechado?”, Escreveu um usuário do Twitter.
A antropia observou jailbreaks bem -sucedidos contra sua defesa de classificadores constitucionais, contornando esses classificadores, em vez de contornar explicitamente, citando dois métodos de jailbreak em particular. Há parafraseamento benigno (os autores deram o exemplo de mudança de referências à extração de ricina, uma toxina, de máscara de mamona, até proteína) e exploração de comprimento, que equivale a confundir o modelo LLM com detalhes estranhos.
Anthrópica adicionou jailbreaks conhecidos por trabalhar em modelos sem classificadores constitucionais (como muitos jailbreaksbreak, que implica um prompt de idioma ser um suposto diálogo entre o modelo e o usuário, ou ‘modo de Deus’, no qual os jailbreakers usam ‘l33tspeak’ para ignorar os corrimãos de um modelo) não tiveram sucesso aqui.
No entanto, também admitiu que os avisos enviados durante os testes do classificador constitucional tinham “taxas de recusa impraticamente altas” e reconheciam o potencial de falsos positivos e negativos em seu sistema de testes baseados em rubrica.
Caso você tenha perdido, outro modelo LLM, Deepseek R1, chegou ao local da China, fazendo ondas graças a ser de código aberto e capaz de correr com hardware modesto. As versões centralizadas da Web e do aplicativo da Deepseek enfrentaram sua própria parte justa de jailbreaks, incluindo o uso da técnica de ‘modo de Deus’ para contornar suas salvaguardas contra discutir aspectos controversos da história e da política chinesas.