Meta está a criar novo hardware para suportar cargas de trabalho intensas no treino de IA

2 nov 2024 16:06

Como é que a Meta está a suportar o desenvolvimento e operação dos seus modelos de linguagem natural? Na Open Compute Project (OCP) Global Summit 2024 a empresa revelou mais dados.

A Meta apresentou uma nova plataforma de IA, designs de bastidores abertos de última geração e infraestrutura e componentes de rede avançados. O objetivo é melhorar o hardware, a infraestrutura para suportar os novos e emergentes cargas de trabalho inerentes ao desenvolvimento e lançamento de novos modelos de Inteligência Artificial (IA).

O maior LLM da dona do Instagram e do Facebook é o Llama 3.1 405B, com 405B parâmetros e uma janela de contexto de até 128k tokens. Para treinar um modelo de linguagem de grande dimensão (LLM) desta magnitude (com mais de 15 biliões de tokens), a Meta teve de fazer otimizações substanciais no hardware.

A infraestrutura onde a Meta treina o Llama 3.1 405B contém mais de 16 mil GPU NVIDIA H100. “Foi o primeiro modelo da série Llama a ser treinado numa escala tão grande”, explica a Meta que antecipa que a quantidade de computação necessária para o treino de IA cresça “substancialmente”.

Nova arquitetura aberta para IA Catalina

A Meta apresentou também a sua nova arquitetura aberta para IA, Catalina (na imagem a frente e a traseira do sistema). É um rack de alta potência projetado para cargas de trabalho de AI, para a comunidade OCP.

O Catalina baseia-se na solução de bastidores completa e escalável da plataforma NVIDIA Blackwell, com foco em modularidade e flexibilidade. Foi desenvolvido para suportar o mais recente superchip NVIDIA GB200 Grace Blackwell. Com o Catalina, a Meta introduz o Orv3, um bastidor de alta potência (HPR) capaz de suportar até 140 kW. A solução completa é arrefecida por líquido e inclui componentes de alimentação, computação, comutadores (switchs), incluindo o switch de rede Wedge 400, uma unidade de reserva de bateria e um comando de gestão do bastidor.

Com este design modular, o objetivo da Meta é permitir a terceiros personalizar o bastidor para satisfazer as suas cargas de trabalho de IA específicas, tirando partido das normas existentes e emergentes do sector.

Plataforma Grand Tenton passa a suportar aceleradores AMD

Entre as novidades está ainda a expansão da plataforma Grand Teton para suportar o AMD Instinct MI300X. A nova versão do Grand Teton apresenta um design de sistema monolítico único com interfaces de alimentação, controlo, computação e rede integradas. “Este elevado nível de integração simplifica a implementação do sistema, permitindo um escalonamento rápido com maior fiabilidade para cargas de trabalho de inferência de IA em grande escala”, explica a Meta.

Além de suportar múltiplos designs de aceleradores, incluindo o AMD Instinct MI300x, o Grand Teton tem uma “capacidade de computação significativamente maior”, permitindo uma convergência mais rápida num conjunto de cargas maior. Isto é complementado por uma memória expandida para armazenar e executar modelos maiores localmente, com uma maior largura de banda de rede “para aumentar o tamanho dos clusters de treino com eficiência”, explica a Meta.

Meta lança Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração

O desenvolvimento de um backend de rede aberto e agnóstico de fornecedor “vai ser importante no futuro”, numa altura em que a Meta continua a aumentar o desempenho dos clusters de treino de IA, explica a dona do Facebook. Referindo que a desagregação da rede lhes permite trabalhar com múltiplos fornecedores para conceber “sistemas inovadores, escaláveis, flexíveis e eficientes”.

Para isso, a Meta apresentou o Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração, com vantagens relativamente aos atuais switches. Esta rede permite ultrapassar as limitações de escala, opções de fornecimento de componentes e densidade de energia. O DSF é alimentado pela norma aberta OCP-SAI e pelo FBOSS, o sistema operativo de rede proprietário da Meta para controlar os comutadores de rede. Suporta ainda um interface RoCE aberto e um padrão baseada em Ethernet para terminais e aceleradores em vários GPU e NICS de diferentes fornecedores, incluindo da NVIDIA, Broadcom e AMD.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Apps · 5 out 2025 19:34

Fotografia, agenda e jogos em destaque nas apps gratuitas para iOS e Android
Casa dos Bits · Multimédia · 5 out 2025 13:06

Polestar 3 recebe plataforma de 800V: Mais potência e carregamento mais rápido
Casa dos Bits · Site do dia · 5 out 2025 11:20

A literacia e os hábitos digitais dos mais novos explicados pelo Poupas da Rua Sésamo
Casa dos Bits · Apps · 4 out 2025 18:29

Farto de fotografias desalinhadas? Griddr. ajuda a encontrar o enquadramento ideal
Casa dos Bits · Ciência · 4 out 2025 16:18

Lua de Sangue, cometas e fotos captadas por portugueses entre as melhores paisagens espaciais de setembro
Casa dos Bits · Multimédia · 4 out 2025 14:45

Como seria o clássico de Agatha Christie “Death on the Nile” se tivesse lugar nos anos 1970?

por Rui Parreira

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Meta está a criar novo hardware para suportar cargas de trabalho intensas no treino de IA

Nova arquitetura aberta para IA Catalina

Plataforma Grand Tenton passa a suportar aceleradores AMD

Meta lança Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração

Pergunta do Dia

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Meta está a criar novo hardware para suportar cargas de trabalho intensas no treino de IA

Nova arquitetura aberta para IA Catalina

Plataforma Grand Tenton passa a suportar aceleradores AMD

Meta lança Disaggregated Scheduled Fabric (DSF) para os clusters de IA de próxima geração

Pergunta do Dia

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também