O Claude 3.7 Sonnet é "muito, muito melhor" para programas de programação, frisou o cofundador da Anthropic, Jared Kaplan, à agência France-Presse (AFP). Acima de tudo, acrescentou, é um modelo híbrido: "Pode dar respostas imediatas a qualquer questão", como a anterior versão 3.5 lançada em setembro, "mas também refletir durante muito tempo a razão para responder a assuntos mais complexos". Isto faz com que o novo Claude seja mais capaz de seguir instruções, escrever documentos mais longos ou realizar análises mais complexas, de acordo com o líder.

Segundo refere a startup, o Claude 3.7 Sonnet mostrou grandes melhorias na programação e ferramentas de desenvolvimento "front-end" de web. Juntamente com o modelo, a Anthropic oferece uma ferramenta de linha de comando para programação através do seu agente de IA, o Claude Code.  Esta ferramenta ainda está disponível como antevisão de investigação, mas permite aos developers delegar tarefas de engenharia substanciais ao Claude, diretamente do seu terminal. 

Claude 3.7 Sonnet
Claude 3.7 Sonnet

O Claude 3.7 Sonnet está disponível em todos os planos do modelo de IA, incluindo o gratuito, Pro, Team e Enterprise, assim como na API Anthropic, no Amazon Bedrock e o Vertex AI da Google Cloud. Quanto a preços, os modos de pensamento standard e expandidos têm o mesmo preço que os anteriores, ou seja, 3 dólares por um milhão de tokens de input e 15 dólares por um milhão de output.

A startup diz que criou o novo modelo com uma filosofia diferente à de outros modelos de raciocínio disponíveis no mercado. "Tal como os humanos utilizam um único cérebro tanto para respostas rápidas ou reflexão mais prolongada, acreditamos que o raciocínio deve ser uma capacidade integrada nos modelos "frontier", em vez de serem separados. Esta abordagem unificada também cria experiências mais integradas para os utilizadores", é explicado no comunicado.

Nesse sentido, o Claude 3.7 Sonnet pretende ser no mesmo modelo, um LLM convencional e um sistema de raciocínio profundo, permitindo utilizá-lo para responder normalmente ou de forma mais demorada, pensando antes de dar as respostas. No primeiro caso, o modelo é uma versão melhorada do Claude 3,5 Sonnet. No modo de raciocínio, este reflete antes de responder, melhorando a performance em matemática, física, programação, entre outras tarefas mais complexas. 

Veja o vídeo de apresentação do Claude 3.7 Sonnet:

A API do novo modelo garante aos utilizadores maior controlo sobre o "orçamento" a gastar no pensamento. Pode instruir ao Claude para pensar numa resposta que não gaste mais de "x" tokens, até ao seu limite que são 128 mil tokens. Desta forma, pode trocar a velocidade e custo da qualidade da resposta. Por fim, a startup diz que desenvolveu o modelo de forma otimizada menos para problemas relacionados com matemática ou ciência computacional, mas sim num foco de tarefas do mundo real, que possa refletir melhor o seu negócio relacionado com o uso de LLMs.

Os testes iniciais mostraram uma aptidão do modelo para ser um dos melhores a resolver tarefas de programação, desde lidar com bases de código complexas a ferramentas avançadas de utilização. No benchmark SWE-bench vê-se a capacidade do novo modelo com resultados superiores em engenharia de software aos rivais OpenAI o1, o OpenAI 03-mini e o DeepSeek R1. 

Claude 3.7 Sonnet
Claude 3.7 Sonnet

A OpenAI foi mais uma vez pioneira com o lançamento do o1 em Setembro, o primeiro modelo que raciocina, ou seja, exibe as etapas da sua reflexão antes de chegar a uma resposta. Mas a Anthropic, fundada em 2021 por ex-funcionários da OpenAI, antecipou-o na questão da autonomia ao lançar em outubro o "Computer Use", uma funcionalidade que permite a Claude utilizar os computadores como um ser humano: navega na internet, seleciona botões num site, introduz texto e utiliza diferentes softwares.

O criador do ChatGPT respondeu em janeiro com o Operator, o seu primeiro agente de IA com autonomia semelhante. As duas startups californianas, bem como as gigantes tecnológicas (Google, Meta, etc.), procuram formas de se destacarem num mercado onde os seus serviços parecem muito semelhantes aos olhos dos consumidores não profissionais.

Claude 3.7 Sonnet
Claude 3.7 Sonnet

A startup diz que o Claude ainda é um produto em fase inicial, mas que já se tornou indispensável para a sua equipa, no desenvolvimento de testes complexos e outras tarefas. O modelo diz que completou tarefas numa única passagem que demoraria cerca de 45 minutos de trabalho manual, reduzindo o tempo de desenvolvimento.

Nas próximas semanas, a startup vai continuar a melhorar o modelo baseado na sua utilização, com ferramentas melhoradas, adicionar suporte a comandos de longa duração, assim como expandir a própria capacidade de compreensão das capacidades do Claude.

A Amazon investiu 8 mil milhões de dólares na Anthropic, enquanto a Alphabet (Google) pagou 2 mil milhões de dólares em 2024.