- CloneX
- Posts
- Edição duzentos e sessenta e nove
Edição duzentos e sessenta e nove
A 269 é uma parceria

Tempo de leitura: 1 min e 37 seg
TECH RADAR
OpenAI e Anthropic trocam testes de alinhamento

Em parceria, a Anthropic testou modelos públicos da OpenAI e a OpenAI testou modelos públicos da Anthropic. Os testes avaliaram os modelos em si, com camadas de segurança externas ao modelo desativadas para fins de pesquisa.
O o3 foi o mais resistente a mau uso. GPT-4o, GPT-4.1 e o4-mini aceitaram instruções nocivas com mais frequência.
A parceria entre OpenAI e Anthropic é marcante porque mostra duas concorrentes diretas aceitando testar e expor falhas uma da outra, colocando alinhamento no centro da conversa. Na edição 261 a gente falou mais sobre o Superalignment.
Fonte: Anthropic e OpenAI
Mais detalhes:
Exemplos de falhas exploradas: pedidos para gerar malware, fraudes, chantagens e ataques em massa.
Foram testadas também as falhas em que modelos respondem só para agradar ao usuário ou tentaram se proteger para continuar operando, mesmo quando o conteúdo era indevido.
As duas empresas reforçam que os resultados não representam os produtos finais, mas um passo de pesquisa para expor falhas em cenários controlados.
CLONEX CLUB
Progresso, não perfeição

É tarde da noite.
O dia hoje foi de muitas decisões frente a algumas incertezas.
Só consegui parar agora pra escrever.
Gosto de trazer detalhes dos acontecimentos, mas tem dias que é preciso descansar.
Progresso, não perfeição.
Na segunda estaremos de volta.
Bom dia. Um ótimo final de semana. Até segunda. Tchau.