
As empresas de inteligência artificial, como a OpenAI, MetaAI, Anthropic, Google, xAI e outras têm vindo a mostrar as capacidades dos seus LLMs no campo da programação. Sobretudo os modelos de pensamento profundo como a recente versão do Gemini, assim como o Claude. A Google já admitiu que 25% de novo código escrito pela empresa foi produzido por IA.
Segundo um estudo da Microsoft, apesar dos avanços feitos nesta área, os modelos avançados de IA ainda têm limitações a resolver bugs de software, algo que um programador humano experiente consegue ultrapassar sem dificuldades. O estudo aponta que o modelo Claude 3.7 Sonnet da Anthropic ou o OpenAI o3-mini falharam a resolver diversos problemas, segundo a plataforma de benchmark SWE-bench Lite, criado pela dona do ChatGPT.
Estes resultados demonstram que ainda existe um longo caminho pela frente para que a IA esteja ao nível dos programadores experientes no campo da programação.
A Microsoft criou o debug-gym para ajudar a desenvolver agentes LLM num ambiente interativo de código, fazendo a ponte entre as capacidades atuais dos LLMs e os requisitos de criação de código de larga escala e correção de bugs (debugging). Este ambiente textual é leve e apresenta diversas ferramentas úteis, como o Python Debugger desenhado para facilitar os agentes de IA a corrigirem bugs.
Ainda no que diz respeito ao estudo da Microsoft, foram testados nove modelos de IA, em que um agente, numa única prompt, tinha de aceder a diversas ferramentas de correção de bugs, incluindo o Python Debugger. O teste consistia em resolver 300 tarefas de debug de software. Os resultados mostram que mesmo os modelos mais recentes falharam em completar mais de metade das tarefas. O Claude 3.7 Sonnet conseguiu uma taxa de sucesso de 48,4%, seguindo-se o o1 da OpenAI com 30,2% e o 03-mini com 22,1%, refere o Techcrunch.
Os autores do estudo apontam que o problema está na falta de dados para treino que representem os processos sequenciais de decisão dos programadores na resolução de bugs. Acreditam que são necessários dados especializados para preencher o treino dos modelos, tais como os registos dos agentes a interagirem com um debugger para recolher a informação necessária, antes de sugerir uma correção.
Pergunta do Dia
Em destaque
-
Multimédia
Robots da Disney tornam-se mais expressivos (e adoráveis) com tecnologia da Nvidia e DeepMind -
App do dia
Fã de fotografia macro de flores e plantas? Flora Incognita é uma app útil para ter no “bolso” -
Site do dia
EarthGuessr desafia-o a adivinhar em que parte do mundo está usando apenas imagens de satélite -
How to TEK
Pesquisa Circle to Search está ainda mais inteligente. Saiba como utilizar
Comentários