A Meta apresentou uma nova plataforma de IA, designs de bastidores abertos de última geração e infraestrutura e componentes de rede avançados. O objetivo é melhorar o hardware, a infraestrutura para suportar os novos e emergentes cargas de trabalho inerentes ao desenvolvimento e lançamento de novos modelos de Inteligência Artificial (IA).

O maior LLM da dona do Instagram e do Facebook é o Llama 3.1 405B, com 405B parâmetros e uma janela de contexto de até 128k tokens. Para treinar um modelo de linguagem de grande dimensão (LLM) desta magnitude (com mais de 15 biliões de tokens), a Meta teve de fazer otimizações substanciais no hardware. 

A infraestrutura onde a Meta treina o Llama 3.1 405B contém mais de 16 mil GPU NVIDIA H100. “Foi o primeiro modelo da série Llama a ser treinado numa escala tão grande”, explica a Meta que antecipa que a quantidade de computação necessária para o treino de IA cresça “substancialmente”.

Meta
Meta créditos: Meta

Nova arquitetura aberta para IA Catalina

A Meta apresentou também a sua nova arquitetura aberta para IA, Catalina (na imagem a frente e a traseira do sistema). É um rack de alta potência projetado para cargas de trabalho de AI, para a comunidade OCP.

O Catalina baseia-se na solução de bastidores completa e escalável da plataforma NVIDIA Blackwell, com foco em modularidade e flexibilidade. Foi desenvolvido para suportar o mais recente superchip NVIDIA GB200 Grace Blackwell. Com o Catalina, a Meta introduz o Orv3, um bastidor de alta potência (HPR) capaz de suportar até 140 kW. A solução completa é arrefecida por líquido e inclui componentes de alimentação, computação, comutadores (switchs), incluindo o switch de rede Wedge 400, uma unidade de reserva de bateria e um comando de gestão do bastidor.

Com este design modular, o objetivo da Meta é permitir a terceiros personalizar o bastidor para satisfazer as suas cargas de trabalho de IA específicas, tirando partido das normas existentes e emergentes do sector.

Meta
Meta créditos: Meta

Plataforma Grand Tenton passa a suportar aceleradores AMD

Entre as novidades está ainda a expansão da plataforma Grand Teton para suportar o AMD Instinct MI300X. A nova versão do Grand Teton apresenta um design de sistema monolítico único com interfaces de alimentação, controlo, computação e rede integradas. “Este elevado nível de integração simplifica a implementação do sistema, permitindo um escalonamento rápido com maior fiabilidade para cargas de trabalho de inferência de IA em grande escala”, explica a Meta.

Além de suportar múltiplos designs de aceleradores, incluindo o AMD Instinct MI300x, o Grand Teton tem uma “capacidade de computação significativamente maior”, permitindo uma convergência mais rápida num conjunto de cargas maior. Isto é complementado por uma memória expandida para armazenar e executar modelos maiores localmente, com uma maior largura de banda de rede “para aumentar o tamanho dos clusters de treino com eficiência”, explica a Meta.

Meta
Meta créditos: Meta

Meta lança Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração

O desenvolvimento de um backend de rede aberto e agnóstico de fornecedor “vai ser importante no futuro”, numa altura em que a Meta continua a aumentar o desempenho dos clusters de treino de IA, explica a dona do Facebook. Referindo que a desagregação da rede lhes permite trabalhar com múltiplos fornecedores para conceber “sistemas inovadores, escaláveis, flexíveis e eficientes”.

Para isso, a Meta apresentou o Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração, com vantagens relativamente aos atuais switches. Esta rede permite ultrapassar as limitações de escala, opções de fornecimento de componentes e densidade de energia. O DSF é alimentado pela norma aberta OCP-SAI e pelo FBOSS, o sistema operativo de rede proprietário da Meta para controlar os comutadores de rede. Suporta ainda um interface RoCE aberto e um padrão baseada em Ethernet para terminais e aceleradores em vários GPU e NICS de diferentes fornecedores, incluindo da NVIDIA, Broadcom e AMD.