Anthropic lança Claude Sonnet 5 como opção mais barata para executar agentes
A Anthropic lançou nesta terça-feira o Claude Sonnet 5, uma versão mais poderosa e agentica do seu modelo de médio porte, posicionado como uma solução mais econômica para executar agentes de inteligência artificial. Segundo comunicado da empresa, o modelo "pode fazer planos, usar ferramentas como navegadores e terminais, e executar autonomamente em um nível que, há apenas alguns meses, exigia modelos maiores e mais caros".
O posicionamento da Anthropic reflete uma tendência mais ampla no mercado de modelos de fundação. A OpenAI lançou em preview na semana anterior o GPT-5.6 Sol, descrito como seu modelo mais agentico até o momento, permitindo aos usuários dividir trabalho entre subagentas para tarefas autônomas mais longas. O Google apresentou em maio o Gemini 3.5 Flash, promovido como uma transição de um chatbot conversacional para uma ferramenta agentica que planeja, constrói e itera sobre trabalho real com entrada humana mínima. O lançamento do Sonnet 5 confirma que capacidade agentica tornou-se uma expectativa básica em todos os níveis de preço.
O Claude Sonnet 5 promete desempenho próximo ao do Opus 4.8, mas com custos significativamente menores. A partir de terça-feira, o Sonnet 5 será o modelo padrão para planos gratuitos e Pro, disponível para todas as assinaturas. No lançamento, o Sonnet 5 é precificado em $2 por milhão de tokens de entrada e $10 por milhão de tokens de saída até 31 de agosto, quando o preço aumentará para $3 por milhão de tokens de entrada e $15 por milhão de tokens de saída. Essa precificação torna o Sonnet 5 mais barato que o Opus 4.8, bem como o GPT-5.5 da OpenAI e o Gemini 3.1 Pro do Google. O modelo ainda é mais caro que o Gemini 3.5 Flash.
O novo modelo demonstra melhorias significativas em relação ao seu antecessor, o Sonnet 4.6, lançado em fevereiro, em desempenho agentico como raciocínio, uso de ferramentas, codificação de software e trabalho baseado em conhecimento. Em um benchmark de codificação agentica, o Sonnet 5 obtém 63,2%, comparado aos 69,2% do Opus 4.8 e aos 58,1% do Sonnet 4.6. Em um benchmark de trabalho baseado em conhecimento, o Sonnet 5 na verdade supera ligeiramente o Opus 4.8, conhecido por vencer na resolução dos problemas mais difíceis, como fazer julgamentos sutis e pesquisa profunda. A Anthropic afirma que "o Opus 4.8 continua sendo o modelo de escolha para maior precisão nessas tarefas, mas o Sonnet 5 oferece aos desenvolvedores opções com preço mais baixo que são de qualidade muito superior ao que estava disponível anteriormente. Entre o Sonnet 5 e o Opus 4.8, os usuários podem ajustar o nível de esforço para encontrar o equilíbrio certo entre custo e desempenho".
Segundo testadores citados no comunicado da empresa, o Sonnet 5 também se destaca ao terminar tarefas complexas onde versões anteriores do modelo teriam parado no meio do caminho e "verifica sua própria saída sem ser explicitamente solicitado". Daniel Shepard, engenheiro sênior da Zapier, afirmou em comunicado: "Entregamos ao Claude Sonnet 5 um trabalho com duas partes — atualizar níveis de conta no Salesforce, enviar um anúncio de lançamento para contatos empresariais — e ele terminou de ponta a ponta. Isso costumava travar na metade. Para automação do dia a dia, é uma obrigação".
Em segurança, o Sonnet 5 também demonstra uma taxa mais baixa de "comportamentos indesejáveis", como cooperação com uso indevido e engano, em comparação com seu antecessor, tornando-o mais seguro para usar em contextos agenticos. É melhor em recusar pedidos maliciosos e contornar tentativas de sequestro em ataques de injeção de prompt. Também apresenta alucinações e comportamentos aduladores em uma taxa mais baixa que o Sonnet 4.6. No entanto, não está no mesmo nível que o Opus 4.8 e o Claude Mythos Preview quanto a comportamentos desalinhados. Segundo o comunicado da empresa, "as avaliações também mostram que ele tem uma capacidade muito menor de executar tarefas perigosas de cibersegurança do que nossos modelos Opus atuais".
Fabian Hedin, cofundador da Lovable, afirmou em comunicado que o Claude Sonnet 5 "recusa pedidos inseguros de forma limpa e consistente". Hedin completou: "Na Lovable, estamos colocando ferramentas poderosas nas mãos de milhões de construtores. Um modelo que sabe quando dizer não é tão importante quanto um que sabe como construir".
Paralelamente ao lançamento do Sonnet 5, a Anthropic anunciou nesta terça-feira o Claude Science em um briefing de IA para Ciência. Diferentemente de uma novo modelo de IA, a Anthropic esclarece que o Claude Science "não é um novo modelo de IA e não é um modelo mais capaz para biologia. Ele executa os mesmos modelos Claude já disponíveis para todos hoje, incluindo Claude Opus 4.8, sem acesso especial e sem restrição de acesso".
O Claude Science é um banco de trabalho de IA que oferece aos cientistas um único ambiente para fazer pesquisa computacional, evitando a necessidade de alternar entre bancos de dados, pipelines e ferramentas. O lançamento se baseia no lançamento de outubro de 2025 da Claude for Life Sciences da Anthropic, que essencialmente aumentou o chatbot Claude tornando-o melhor em tarefas de ciências da vida. O Claude Science é um lugar dedicado para fazer esse trabalho.
O banco de trabalho funciona com um assistente de IA principal agindo como um tipo de gerente de projeto para cientistas. Ele se conecta a mais de 60 bancos de dados científicos e vem com kits de ferramentas pré-construídos para campos específicos, como genômica, estrutura de proteína e química. Esse assistente pode então criar sub-assistentes para ajudar a dividir o trabalho, como um líder de projeto delegando tarefas a especialistas, ou entregar trabalho a um assistente "especialista" personalizado que o usuário construiu para sua própria pesquisa. Um IA separado de verificação de fatos então faz uma verificação dupla das citações e cálculos antes de qualquer coisa ir para publicação.
O Claude Science tem outras formas de garantir reprodutibilidade, segundo a Anthropic. Por exemplo, o banco de trabalho pode gerar figuras como estruturas de proteínas 3D e gavetas de química ao lado do código que as criou. Cada figura inclui o "código exato e ambiente que a produziram, uma descrição em linguagem simples de como foi criada, e o histórico completo de mensagens", de acordo com a empresa. O processo também economiza tempo dos cientistas permitindo que editem figuras em linguagem simples, solicitando ao agente que edite seu próprio código subjacente.
Outra forma pela qual o Claude Science pode economizar tempo dos cientistas é executando na infraestrutura própria do laboratório em vez de enviar dados para os servidores da Anthropic.
Usários iniciais já estão colocando isso em prática. Jérôme Lecoq, neurocientista do Allen Institute, usou a ferramenta para construir um pipeline de revisão computacional multi-agente. O grupo de Stephen Francis do UCSF Brain Tumor Center confiou no Claude Science para acelerar análise germinativa abrangente de glioma para uma fração do tempo que antes era necessário, com resultados validados independentemente.
O lançamento do Claude Science ocorre um par de meses depois que a OpenAI abordou o mesmo problema de um lado diferente. Em abril, a OpenAI lançou GPT-Rosalind, um modelo especializado que é ajustado finamente para raciocínio biológico. A diferença entre as duas abordagens não é apenas sobre se um modelo especializado é necessário — também se resume a quem obtém acesso e com que rapidez. Rosalind foi lançado como uma visualização de pesquisa limitada a clientes empresariais qualificados nos Estados Unidos, com acesso restrito por trás de uma qualificação e revisão de segurança. Parceiros como Amgen, Allen Institute, Moderna, Thermo Fisher e Novo Nordisk obtiveram acesso antecipado.
Conteúdo reescrito pelo Pense Mercado com base nas fontes acima. Não constitui recomendação de investimento.