Início Mundo Anthropic possui um novo sistema de segurança que, segundo ele, pode parar...

Anthropic possui um novo sistema de segurança que, segundo ele, pode parar quase todos os jailbreaks de IA

7
0


  • A Medida de Segurança de Prova de Conceito Antrópicos revela o Claude 3,5 sonetos
  • “Classificadores constitucionais” são uma tentativa de ensinar sistemas de valor LLMS
  • Os testes resultaram em mais de uma redução de 80% em jailbreaks bem -sucedidos

Em uma tentativa de combater os avisos de linguagem natural abusiva nas ferramentas de IA, o OpenAI Rival Anthropic apresentou um novo conceito que chama de “classificadores constitucionais”; Um meio de incutir um conjunto de valores humanos (literalmente, uma constituição) em um grande modelo de linguagem.

A equipe de pesquisa de salvaguardas da Anthrópica revelou a nova medida de segurança, projetada para conter os jailbreaks (ou alcançar a produção que sai das salvaguardas estabelecidas de um LLM) da Claude 3,5 sonetos, seu mais recente e maior modelo de idioma grande, em um novo artigo acadêmico.

Fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui