OpenAI lança ferramenta de benchmark para avaliar performance do código dos modelos de IA

Rui Parreira

21 fev 2025 17:23

O benchmark SWE-Lancer inclui mais de 1.400 tarefas realizadas em freelance de engenharia da Upwork, avaliado num total de 1 milhão de dólares.

A OpenAI lançou a ferramenta SWE-Lancer, apontando ser um benchmark mais realista para avaliar a performance do código dos modelos de IA. A plataforma inclui mais de 1.400 tarefas de software de engenharia freelance da Upwork, que a dona do ChatGPT avaliou em 1 milhão de dólares em pagamentos.

A ferramenta abrange tanto as tarefas independentes de engenharia, pagando 50 dólares por correções de bugs a 32 mil dólares pela implementação de funcionalidades e tarefas de gestão. Estas tarefas independentes são classificadas com testes end-to-end de verificação tripla por engenheiros de software experientes. Já as decisões de gestão são avaliadas em relação às escolhas dos gestores de engenharia contratados originalmente.

A dona do ChatGPT diz que avaliou a performance e descobriu que os modelos de topo ainda não são capazes de resolver a maioria das tarefas. Para facilitar futuras investigações, a empresa diz que disponibilizou o sistema de imagem unificada Docker, em open-source e um sistema de avaliação pública, o SWE Lancer Diamond no GitHub.

No estudo publicado, a empresa diz que em apenas dois anos, os modelos de linguagem avançaram desde resolver problemas de computação científica básica até ganhar medalhas de ouro em competições internacionais de programação. Em comparação, quando a OpenAI revelou o benchmark SWE-Bench Verified em agosto de 2024, o GPT-4o registou uma pontuação de 33%. Atualmente, o modelo mais racional o3 obteve 72%.

Ficou assim patente que eram necessárias avaliações não saturadas que refletissem a complexidade da engenharia de software do mundo real. A empresa espera que à medida que a investigação e desenvolvimento da IA continue a acelerar, também os benchmark que avaliam rigorosamente devem fazer.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Internet · 22 ago 2025 11:17

Plataforma fogos.pt sofreu dois ataques de DDoS durante o pico dos incêndios

por Rui Parreira
Casa dos Bits · Computadores · 22 ago 2025 10:38

LibreOffice reforça interoperabilidade com o MSOffice e abandona versões antigas do Windows
Casa dos Bits · Negócios · 22 ago 2025 09:43

Sony aumenta preços da PlayStation 5 nos Estados Unidos devido às tarifas de Trump

por Rui Parreira
Casa dos Bits · Site do dia · 22 ago 2025 08:35

Serviços Digitais: ANACOM procura novos contributos sobre o estatuto de sinalizador de confiança
Casa dos Bits · Apps · 21 ago 2025 22:05

Acerte a tática e veja a equipa a marcar em Ultimate Football Manager

por Rui Parreira
Casa dos Bits · Negócios · 21 ago 2025 20:23

AMA passa a ARTE. Que funções tem a nova agência que vai liderar a reforma tecnológica do Estado?

por Francisca Andrade

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

OpenAI lança ferramenta de benchmark para avaliar performance do código dos modelos de IA

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

OpenAI lança ferramenta de benchmark para avaliar performance do código dos modelos de IA

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também