Inteligência artificial da Inception cruza os modelos LLM e de difusão prometendo maior eficiência e rapidez

Rui Parreira

27 fev 2025 09:56

A startup Inception, criada por professores de ciência de computação de Stanford, apresentou um novo modelo de IA baseado em grandes modelos de linguagem (LLM) e de difusão, como os que são usados para gerar imagens e vídeo.

Há um novo concorrente no mercado da inteligência artificial. A startup Inception, sedeada em Palo Alto, nos Estados Unidos e fundada professores de ciência computacional de Stanford e UCLA, dispondo de uma equipa de engenheiros veteranos que trabalharam na Google DeepMind, Microsoft, Meta, OpenAI e Nvidia, tem uma nova solução de IA.

O novo modelo é baseado na tecnologia de difusão, capaz de gerar imagens, áudio e vídeos, como o Sora e o Midjourney. Mas apresenta as capacidades de raciocínio habituais nos grandes modelos de linguagem (LLM), sendo capaz de conversar com os utilizadores, responder a perguntas ou gerar código de programação. A startup diz que treina modelos de difusão que são 10 vezes mais rápidos e baratos que os LLMs atuais.

Um dos seus modelos chama-se Mercury, uma família de grandes modelos de linguagem em difusão, que a empresa chama de dLLMs, que promete puxar pela fronteira da rapidez em gerar texto de alta qualidade. Os modelos correm a cerca de 1.000 tokens por segundo nos GPUs da Nvidia H100, uma velocidade que apenas os outros modelos conseguiam através de processadores personalizados.

Os entusiastas da programação já podem experimentar o modelo dedicado ao código, o Mercury Coder, disponível no Playground. Tal como o Claude da Anthropic, este agente de modelo ajuda a programar.

A Inception diz que os atuais LLMs são autorregressivos, significando que geram texto da esquerda para a direita, um token de cada vez. E que esta é feita de forma sequencial, um token não pode ser gerado até que todo o texto que vinha antes tenha sido produzido. As principais empresas estão a apostar na computação “test-time” para aumentar a capacidade de raciocínio e capacidade de correção de erros. Mas para a startup isso acarreta elevados custos de inferência.

A empresa diz que é necessário uma mudança de paradigma, através dos modelos de difusão. Um modelo de difusão gera um vídeo a partir daquilo que se se parece com ruído estático e gradualmente o vai transformando, removendo o ruído ao longo de várias etapas. A Inception diz que estes modelos não estão restritos a considerar o output anterior, são melhores a raciocinar e a estruturar as respostas.

Pelas características dos modelos de difusão em refinarem continuamente os seus outputs, estes podem também corrigir erros e “alucinações”, explica no seu blog.

O Mercury Coder, que é um dLLM otimizado especialmente para gerar código, quando comparado em benchmark com outros modelos destaca-se, ultrapassando a performance de outros modelos como o GPT-4o e o Claude 3.5 Haiku, reforçando ser 10 vezes mais rápido, como mostrado no quadro.

A velocidade é o que distingue os modelos dLLMs, diz a empresa, comparado que enquanto os sistemas autorregressivos correm a 200 tokens por segundo, o Mercury Coder nas H100 da Nvidia chegam aos 1.000 tokens por segundo.

Para o futuro, a Inception promete desbloquear novas capacidades dos LLMs, com agentes melhorados para aumentar a velocidade e eficiência das aplicações. Os dLLMs podem editar o seu output e gerar tokens em qualquer ordem, permitindo inferir textos e outputs alinhados com os objetivos, tais como a segurança.