Arquitetura de aprendizagem de IA sem tokens promete mais liberdade e eficiência no treino dos modelos

Rui Parreira

31 jan 2025 16:14

No mundo da inteligência artificial, um formato de treino dos modelos sem o uso de tokens permite estender as capacidades de aprendizagem de novos LLM para lá dos dados de treino originais.

A Aleph Alpha, em colaboração com a AMD e a Schwarz Digits, criou uma nova arquitetura de grande modelo de linguagem (LLM) com grande performance de computação e uma cloud soberana. A empresa alemã pretende resolver um dos desafios mais críticos relacionados com a inteligência artificial, o ensino de novas linguagens de IA, sejam elas open source ou fechadas.

É referido que o ensino atual de novos modelos tende a produzir resultados exagerados e a afinação demonstra ser pouco eficaz, sobretudo naqueles que são cruciais para empresas ou governos. A principal razão para isto é que os padrões usados no ensino destes modelos LLMs são baseados na versão em token do texto com o qual foram treinados. “Se um novo texto diferir consideravelmente dos dados originais, não pode ser eficientemente transformado num token.

A proposta da empresa é uma arquitetura sem tokens, afirmando ser a solução para o desafio de afinar a inteligência artificial e criar modelos para diversas necessidades específicas da indústria. As linguagens baseadas em recursos baixos e para necessidades específicas requerem soluções mais personalizadas, que até agora não existem muitos. A tecnologia assenta nos mais recentes avanços da AMD AI.

Sem o sistema de tokens da nova arquitetura, será possível estender os modelos LLM para lá dos dados de treino originais. Atualmente, dos modelos só podem ser treinados eficientemente quando utilizam tokens semelhantes aos dados originais. E afinar esses modelos requer dados LLM que muitas vezes estão indisponíveis para distribuição. Além de necessitarem de quantidades massivas de computação, tendo impacto nos custos e na pegada ambiental.

A arquitetura da Aleph Alpha propõe uma base para uma nova geração de soluções de IA, permitindo aos governos e empresas construir as suas próprias versões mediante as suas necessidades, as suas línguas nativas, especificações culturais, assim como o óbvio conhecimento e terminologia. Tudo isto vai permitir democratizar o acesso à tecnologia de IA.

Foi dado o exemplo da performance obtida no treino, em que foi reduzido 70% no custo de treino e da pegada de carbono no treino em finlandês em relação ao inglês entre a arquitetura T-Free (Token Free), a otimizada com a tecnologia da AMD, em relação com outras arquiteturas.