• CloneX
  • Posts
  • Edição duzentos e sessenta e nove

Edição duzentos e sessenta e nove

A 269 é uma parceria

Tempo de leitura: 1 min e 37 seg

TECH RADAR

OpenAI e Anthropic trocam testes de alinhamento

Em parceria, a Anthropic testou modelos públicos da OpenAI e a OpenAI testou modelos públicos da Anthropic. Os testes avaliaram os modelos em si, com camadas de segurança externas ao modelo desativadas para fins de pesquisa.

O o3 foi o mais resistente a mau uso. GPT-4o, GPT-4.1 e o4-mini aceitaram instruções nocivas com mais frequência.

A parceria entre OpenAI e Anthropic é marcante porque mostra duas concorrentes diretas aceitando testar e expor falhas uma da outra, colocando alinhamento no centro da conversa. Na edição 261 a gente falou mais sobre o Superalignment.

Fonte: Anthropic e OpenAI

Mais detalhes:

  • Exemplos de falhas exploradas: pedidos para gerar malware, fraudes, chantagens e ataques em massa.

  • Foram testadas também as falhas em que modelos respondem só para agradar ao usuário ou tentaram se proteger para continuar operando, mesmo quando o conteúdo era indevido.

  • As duas empresas reforçam que os resultados não representam os produtos finais, mas um passo de pesquisa para expor falhas em cenários controlados.

CLONEX CLUB

Progresso, não perfeição

É tarde da noite.

O dia hoje foi de muitas decisões frente a algumas incertezas.

Só consegui parar agora pra escrever.

Gosto de trazer detalhes dos acontecimentos, mas tem dias que é preciso descansar.

Progresso, não perfeição.

Na segunda estaremos de volta.

Bom dia. Um ótimo final de semana. Até segunda. Tchau.