Por Thomas King (*) 

A Inteligência Artificial (IA) tornou-se tão estratégica para as organizações que temas como soberania dos dados e conformidade regulatória passaram a estar no centro das implementações.

Na tentativa de proteger informação sensível, muitas empresas estão a migrar para infraestruturas privadas para treino de IA. Porém, obstáculos como o chamado “data center squeeze” (a escassez de espaço físico e de energia elétrica nos data centers) têm dificultado esse movimento. Pelo menos até agora.

De acordo com a McKinsey, em parte devido à crescente procura de soberania de dados e de conformidade, até 2030 entre 35% e 40% das cargas de trabalho de IA na Europa e nos EUA deverão ser realizadas em ambientes privados. Um estudo da especialista em data centers Vespertec reforça esta tendência: 25% das empresas já utilizam hardware próprio e 70% ponderam essa opção para o futuro.

As companhias que querem optar pelo caminho da IA privada podem correr os seus modelos on-premises (nas suas próprias instalações) ou recorrer a data centers partilhados, mantendo total controlo sobre a infraestrutura. Esta decisão está geralmente associada à segurança dos dados e à vontade de evitar dependência de um único fornecedor (vendor lock-in), seja no treino de modelos de IA ou na utilização de serviços específicos de cloud.

Mas o crescimento explosivo da infraestrutura de IA tem vindo a criar novos desafios, não apenas em termos de custo, mas também de disponibilidade de espaço e energia elétrica nos data centers, afetando diretamente a capacidade das empresas de escalar a sua infraestrutura conforme as necessidades.

Estrangulamento nos data centers

Um dos principais limitadores é a enorme procura de capacidade de processamento. Encontrar espaço físico e energia elétrica para correr GPUs de alto desempenho já constitui, por si só, um grande desafio.

Muitos data centers internos continuam limitados em termos de capacidade elétrica, enquanto a densidade energética por rack aumentou pelo menos dez vezes com o hardware de IA, em comparação com aplicações tradicionais (que consumiam entre 5 e 10 kW por rack).

A construção de novos data centers enfrenta barreiras como restrições locais de energia. E mesmo quando se concretiza, muitas vezes a capacidade é integralmente ocupada por um único grande cliente, sendo a pré-reserva uma prática cada vez mais comum.

Até mesmo os maiores fornecedores globais de cloud e IA enfrentam dificuldades em acompanhar a crescente procura de espaço em racks nos seus data centers em hiperescala para IA. Alguns chegam ao ponto de construir e operar as suas próprias centrais de produção de energia, de forma a garantir fornecimento estável, algo impensável para empresas de outros setores.

O resultado é que os mercados de data centers em todo o mundo estão a operar com taxas de desocupação historicamente baixas. A CBRE reportou que, em 2025, a taxa na Europa desceu para um novo mínimo de 9%, enquanto nos principais mercados dos EUA caiu para apenas 2,8% no início do ano: a mais baixa de sempre.

Repensar a infraestrutura de IA para treino – superar limitações tecnológicas

A boa notícia é que o design da infraestrutura para computação pesada de IA está a evoluir. Até há pouco tempo, o treino de modelos exigia enormes data centers centralizados, capazes de processar cargas em clusters paralelos.

Agora, começa a vislumbrar-se a possibilidade de treinar modelos de forma mais descentralizada, permitindo que as empresas aproveitem melhor a capacidade disponível em diferentes instalações e expandam para novas zonas da cidade sempre que necessário.

Atualmente, ainda não é possível distribuir uma mesma carga de trabalho de IA por múltiplos data centers de uma cidade. A razão está no InfiniBand, protocolo utilizado para ligar servidores e GPUs. Este exige larguíssima largura de banda (3,2 terabits por unidade de processamento) e latência muito baixa (na ordem dos microssegundos, ou milionésimos de segundo). Esta exigência é de tal forma elevada que os equipamentos precisam de estar a poucos metros de distância, o que força a concentração num único local. Esta é uma fraqueza tecnológica que resultou na necessidade de processamento altamente centralizado para IA.

Embora dominante, o InfiniBand apresenta desvantagens: custo elevado, pouca flexibilidade na distribuição geográfica dos GPUs e reduzido número de fornecedores. O Ethernet, por seu lado, sempre foi visto como alternativa mais acessível, mas até agora era considerado menos fiável devido a problemas como perda de pacotes e dificuldade em lidar com congestionamentos e constrangimentos.

Este cenário mudou com o lançamento, em junho de 2025, da versão 1.0 do protocolo Ultra Ethernet (UEC). Ele permite que o Ethernet seja utilizado em ambientes até aqui exclusivos do InfiniBand, como a ligação entre servidores de IA dentro de um data center. As próximas versões, previstas para 2026, deverão permitir ligações entre múltiplas instalações numa mesma região metropolitana, quebrando o bloqueio do InfiniBand e inaugurando uma nova fase no design da infraestrutura de IA.

O futuro: IA privada com infraestrutura distribuída

As novas versões do Ultra Ethernet serão menos dependentes da latência do que o InfiniBand e conseguirão cobrir distâncias maiores. Ainda assim, a latência continuará a ser um fator crítico para garantir máximo desempenho na comunicação entre servidores distribuídos.

A especificação foi concebida para funcionar com latência até 1 milissegundo, tornando o protocolo mais robusto e flexível, além de compatível com plataformas de interconexão de alto desempenho.

Por ser menos complexo, mais simples de utilizar e baseado numa tecnologia já consolidada, o UEC permitirá que grandes modelos de linguagem (LLMs) sejam treinados em várias instalações dentro de uma mesma cidade, aproveitando espaço disponível onde quer que exista.

Esta evolução também impulsiona a chamada computação desagregada (modelo em que CPU, memória, GPU e armazenamento podem ser separados e escalados de forma independente), permitindo que o processamento seja realizado em diferentes locais. Assim, as empresas podem montar a sua infraestrutura privada de IA de forma distribuída, recorrendo a capacidade disponível em vários data centers.

Esta abordagem traz vantagens importantes: reduz o risco de dependência de fornecedores (vendor lock-in) e aumenta o poder de negociação das empresas.

Outro benefício é a compatibilidade com hardware Ethernet já existente. Os fabricantes de equipamentos de rede estão a preparar atualizações rápidas de software para ativar o suporte às novas versões, acelerando a adoção.

O AI Exchange (AI-IX)

A forma mais direta de tirar partido desta evolução é através de um AI Exchange (AI-IX): uma plataforma neutra em relação a data centers e operadoras, preparada para o protocolo Ultra Ethernet.

O AI-IX combina alta largura de banda e baixa latência, reunindo redes relevantes e tecnologias de encaminhamento específicas para IA, tanto para treino distribuído como para inferência.

Ao garantir conectividade direta entre data centers e redes de IA, além de rotas de dados otimizadas, o AI-IX oferece melhor desempenho e menor latência em ambientes distribuídos, dentro da cidade ou à escala global.

Adicionalmente, ajuda a resolver um dos principais desafios na criação de infraestrutura privada de IA: equilibrar eficiência, governação e conformidade. A McKinsey aponta que, para proteger dados sensíveis e propriedade intelectual, os conselhos de administração das empresas já participam nas decisões que vão desde segurança da informação até à escolha de tecnologias e fornecedores de IA.

À medida que os riscos aumentam, executivos de grandes organizações tendem cada vez mais a internalizar o treino de IA, garantindo controlo, conformidade e vantagem competitiva.

(*) CTO da DE-CIX