Há um novo concorrente no mercado da inteligência artificial. A startup Inception, sedeada em Palo Alto, nos Estados Unidos e fundada professores de ciência computacional de Stanford e UCLA, dispondo de uma equipa de engenheiros veteranos que trabalharam na Google DeepMind, Microsoft, Meta, OpenAI e Nvidia, tem uma nova solução de IA.

O novo modelo é baseado na tecnologia de difusão, capaz de gerar imagens, áudio e vídeos, como o Sora e o Midjourney. Mas apresenta as capacidades de raciocínio habituais nos grandes modelos de linguagem (LLM), sendo capaz de conversar com os utilizadores, responder a perguntas ou gerar código de programação. A startup diz que treina modelos de difusão que são 10 vezes mais rápidos e baratos que os LLMs atuais.

Um dos seus modelos chama-se Mercury, uma família de grandes modelos de linguagem em difusão, que a empresa chama de dLLMs, que promete puxar pela fronteira da rapidez em gerar texto de alta qualidade. Os modelos correm a cerca de 1.000 tokens por segundo nos GPUs da Nvidia H100, uma velocidade que apenas os outros modelos conseguiam através de processadores personalizados.

Os entusiastas da programação já podem experimentar o modelo dedicado ao código, o Mercury Coder, disponível no Playground. Tal como o Claude da Anthropic, este agente de modelo ajuda a programar.

Inception
Inception Comparação na programação entre um modelo LLM e o LLM com difusão.

A Inception diz que os atuais LLMs são autorregressivos, significando que geram texto da esquerda para a direita, um token de cada vez. E que esta é feita de forma sequencial, um token não pode ser gerado até que todo o texto que vinha antes tenha sido produzido. As principais empresas estão a apostar na computação “test-time” para aumentar a capacidade de raciocínio e capacidade de correção de erros. Mas para a startup isso acarreta elevados custos de inferência.

Nova versão do modelo de IA Claude da Anthropic programa e é mais rápido a pensar e a responder
Nova versão do modelo de IA Claude da Anthropic programa e é mais rápido a pensar e a responder
Ver artigo

A empresa diz que é necessário uma mudança de paradigma, através dos modelos de difusão. Um modelo de difusão gera um vídeo a partir daquilo que se se parece com ruído estático e gradualmente o vai transformando, removendo o ruído ao longo de várias etapas. A Inception diz que estes modelos não estão restritos a considerar o output anterior, são melhores a raciocinar e a estruturar as respostas.

Pelas características dos modelos de difusão em refinarem continuamente os seus outputs, estes podem também corrigir erros e “alucinações”, explica no seu blog.

O Mercury Coder, que é um dLLM otimizado especialmente para gerar código, quando comparado em benchmark com outros modelos destaca-se, ultrapassando a performance de outros modelos como o GPT-4o e o Claude 3.5 Haiku, reforçando ser 10 vezes mais rápido, como mostrado no quadro.

Benchmark de comparação
Benchmark de comparação Benchmark de comparação de IA

A velocidade é o que distingue os modelos dLLMs, diz a empresa, comparado que enquanto os sistemas autorregressivos correm a 200 tokens por segundo, o Mercury Coder nas H100 da Nvidia chegam aos 1.000 tokens por segundo.  

Para o futuro, a Inception promete desbloquear novas capacidades dos LLMs, com agentes melhorados para aumentar a velocidade e eficiência das aplicações. Os dLLMs podem editar o seu output e gerar tokens em qualquer ordem, permitindo inferir textos e outputs alinhados com os objetivos, tais como a segurança.