Qual é a tecnologia usada pela DeepSeek, como foi treinado o modelo e que impacto pode ter na indústria de IA?

Rui Parreira

29 jan 2025 19:06

A startup chinesa DeepSeek lançou um modelo de IA capaz de rivalizar com a tecnologia da OpenAI e Google, mas com um orçamento muito inferior. A tecnologia coloca em causa os avultados investimentos no treino da inteligência artificial e o preço dos modelos de negócio.

A semana começou com um abalo no mundo tecnológico ligado à inteligência artificial. Da China chegou um novo modelo de IA generativo, o DeepSeek, que se destaca pela qualidade semelhante ao que a OpenAI, Google e Meta têm apresentado ao mundo. No entanto, apresenta uma capacidade para reduzir custos de treino e maior eficiência, o que pode redefinir as verdadeiras regras do jogo da IA.

Tudo indica que o mundo ocidental foi apanhado de surpresa pela capacidade da startup chinesa, levando mesmo as principais gigantes tecnológicas a darem um trambolhão em Wall Street. Pior ficou a Nvidia, que depois do crescimento meteórico, ultrapassando a Apple em valorização, caiu de forma aparatosa, perdendo 600 mil milhões de dólares numa única sessão, ou seja, 17% do seu valor, batendo o recorde da maior queda de sempre de uma empresa dos Estados Unidos, aponta a CNBC.

Esta parece ser a resposta da China, poucos dias depois dos Estados Unidos terem imposto restrições às exportações de chips de inteligência artificial produzidos no país. A Rússia e a China estão numa lista negra restrita, mas a administração de Trump decidiu trancar ainda mais o acesso ao resto do mundo, excetuando um grupo de países que considera aliados estratégicos, onde Portugal e muitos Estados da União Europeia estão de fora.

Por outro lado, o executivo dos Estados Unidos pretende investir 500 mil milhões de dólares na tecnologia. A questão que se coloca agora é se será necessário tanto dinheiro para alcançar a supremacia da IA pelos Estados Unidos.

Afinal quem é a DeepSeek? Quanto custam os modelos de treino? E como veio abalar o mundo tecnológico? Neste explicador fique a conhecer melhor a startup chinesa que promete continuar a dar que falar.

Quem é a DeepSeek?

A DeepSeek é uma empresa privada chinesa, fundada apenas em julho de 2023 por Liang Wenfeng, formado na Universidade de Zhejiang, em engenharia eletrónica. Segundo o MIT Technology Review, a sua startup foi incubada na High-Flyer, um fundo hedge (fundos de protecção ou cobertura de risco) que o próprio fundou em 2015.

O objetivo da DeepSeek, à semelhança da OpenAI de Sam Altaman, é construir um modelo AGI (Inteligência artificial Geral), uma forma de IA capaz de igualar e até ultrapassar a inteligência humana em diversas tarefas.

A equipa é composta por jovens recém-formados nas melhores universidades chinesas, fomentando uma cultura de inovação. É apontado que a empresa dá prioridade às habilidades técnicas do que a tradicional experiência de trabalho. Isso garante a união de um grupo composto por indivíduos com muita habilidade, mas igualmente com uma perspetiva refrescante no desenvolvimento de inteligência artificial.

Como é que a DeepSeek contornou as sanções dos Estados Unidos?

Por incrível que pareça, apesar do anúncio do modelo DeepSeek R1 ter afundado a Nvidia em Wall Street, para conseguir obter a capacidade de processamento para treinar o modelo a startup tem como base os chips A100 da Nvidia. Liang Wenfeng terá conseguido assegurar um stock de processadores antes dos Estados Unidos proibirem a Nvidia de exportar os chips para a China em setembro de 2022.

Estima-se que a DeepSeek tenha conseguido juntar 10 mil chips A100, mas o número parece bem superior, cerca de 50 mil, segundo o analista Dylan Patel, fundador da empresa de consultaria de IA, SemiAnalysis.

Como evoluíram os modelos de IA da DeepSeek?

Um dos pontos de destaque do DeepSeek R1, o modelo que tem estado na boca do mundo, é a sua melhor capacidade de aprendizagem e maior eficiência no uso de memória. Mas até aqui chegar, a empresa lançou outros modelos. O primeiro foi o DeepSeek Coder em novembro de 2023, um modelo open source desenhado para programar tarefas. Seguiu-se o modelo DeepSeek LLM com 67 mil milhões de parâmetros, criado para competir com outros modelos de linguagem de grande escala.

Em maio de 2024 foi lançado o DeepSeek-V2, que já tinha sido elogiado pela grande performance e baixo custo. Este modelo gerou mesmo uma agitação da concorrência na China, em que o preço disruptivo enfrentou as gigantes tecnológicas como a ByteDance, Tencent, Baidu e Alibaba, levando-as a baixarem o preço das suas ofertas para se manterem competitivas.

A evolução dos modelos da DeepSeek é palpável, com o DeepSeek-Coder-V2 a conseguir gerar 236 mil milhões de parâmetros. Como explica a Forbes, o modelo foi desenhado para ultrapassar desafios complexos de programação.

Atualmente, a empresa está a desenvolver os seus mais recentes modelos, o DeepSeek-V3 e o DeepSeek-R1. O V3 tem capacidade de 671 mil milhões de parâmetros, sendo apontado como muito eficiente em relação à concorrência e uma grande performance. Note-se que ainda hoje a Alibaba lançou uma nova versão do Qwen 2.5-Max, que se garante ser mais poderoso que o DeepSeek-V3.

Já o DeepSeek-R1, lançado esta semana, assume-se a par com a performance do OpenAI 01. Estes são modelos de “outro campeonato”, os tais que procuram alcançar o AGI: são mais lentos a processar, mas oferecem respostas mais eficientes.

A empresa também tem na sua lista de oferta o DeepSeek-R1 Distill, versões mais ligeiras em open source, mas altamente capazes. A empresa oferece modelos até 32 e 70 mil milhões de parâmetros, referindo que estão a par com o OpenAI 01 mini.

Como foi treinado o modelo DeepSeek-R1?

Ao contrário dos métodos tradicionais que se baseiam em afinações supervisionadas, o DeepSeek utiliza a chamada aprendizagem reforçada. Os modelos aprendem através de tentativa e erro, melhorando automaticamente através de recompensas algorítmicas. O modelo aprende através da interação com o seu ambiente, recebendo feedback das suas ações, um pouco semelhante ao processo dos humanos que aprendem através da experiência.

Como aponta a Forbes, este formato permite desenvolver maiores capacidades de raciocínio e adaptar-se a novas situações de forma mais eficiente. Esta técnica aproxima-se da nova abordagem de treino dos modelos com computação de inferência (inference-time computing), que pode ser a solução para a questão de os dados úteis da internet para treino terem sido esgotados.

Esta nova computação é uma técnica que fatia os pedidos em tarefas mais pequenas, transformando cada uma numa nova prompt para o modelo resolver. Cada passo obriga a um novo pedido, que aqui é conhecido como fase de inferência.

No caso da DeepSeek-R1, é explicado que o modelo ativa apenas uma pequena fração dos seus parâmetros para determinada tarefa, tal como na computação de inference-time. Esta ativação seletiva permite uma redução significativa de custos computacionais, melhorando a sua eficiência.

Segurança e privacidade

Nem tudo abona a favor da startup chinesa. Não demorou muito para a DeepSeek ser vítima de um ataque informático, tendo que limitar temporariamente os registos da app R-1. A plataforma "está ainda a investigar o problema", que fez com que os serviços web e as interfaces de programação de aplicações operassem com "desempenho degradado”, referiu a empresa. Os Estados Unidos aproveitaram a deixa para anunciar que iriam avaliar as implicações de segurança nacional acerca da DeepSeek.

Do lado da privacidade, os especialistas apontam que a DeepSeek está a recolher dados pessoais dos seus utilizadores, incluindo data de nascimento, as prompts, assim como inputs de áudio e texto, ficheiros carregados, histórico de conversas e outros dados em servidores localizados na China, como é possível ler na própria política de utilização da empresa. O endereço IP, identificadores dos equipamentos e cookies são outras informações recolhidas.

Algumas organizações já proibiram a utilização do DeepSeek, outras são mais cautelosas e apenas recomendam precaução. Na lista estão o Governo da Austrália a e a Marinha dos Estados Unidos.

Qual foi o investimento feito no treino do modelo da DeepSeek?

O custo do treino do modelo da DeepSeek é um dos pontos que deixou abalados os investidores em inteligência artificial. Quando considerando que os principais players dos Estados Unidos, como a OpenAI, Meta e Google obtiveram um total de investimento 1 bilião de dólares para os próximos anos, naquela que parece ser uma corrida às armas, como avaliou a Goldman Sachs; o modelo foi treinado ao longo de 55 dias, com um orçamento de 5,57 milhões de dólares, utilizando um conjunto de 2.048 unidades de processadores gráficos H800 da Nvidia.

Qual foi o impacto em Wall Street?

Com o lançamento do novo modelo, a empresa chinesa está a levantar questões sobre a necessidade da procura dos chips da Nvidia. Os investidores estão a avaliar os stocks sobreavaliados que foram adquiridos para a promessa do desenvolvimento de IA por empresas como a Meta e a Microsoft.

A DeepSeek tomou o mercado de assalto, conseguindo fazer mais com menos, sendo este o pensamento dos analistas do mercado da IA. Ao mesmo tempo, coloca em dúvida o futuro do investimento na tecnologia devido a este tipo de surpresas.

Como referiu a CNBC, a Nvidia teve uma quebra de 17,31%, arrastando outras tecnológicas, embora em muito menor escala na mesma sessão. A Amazon caiu apenas 0,50%, a Alphabet 3,43% e a Microsoft, principal investidor da OpenAI teve uma quebra de 2,56%.

Nota de redação: este explicador que está em construção e vamos continuar a atualizar a informação com mais perguntas e respostas que surjam sobre a DeepSeek.

Em destaque

Últimas

Casa dos Bits · Apps · 23 nov 2025 15:54

Navegação privada, desporto, vídeos e jogos num "pacotinho" de apps para iOS e Android
Casa dos Bits · Multimédia · 23 nov 2025 13:18

Novo Toyota bZ4X: A atualização profunda que muda (quase) tudo no modelo elétrico japonês

por Gustavo Dias
Casa dos Bits · Site do dia · 23 nov 2025 10:36

Help4U: Nova plataforma europeia foi desenhada para ajudar crianças e adolescentes em risco de abuso sexual
Casa dos Bits · Apps · 22 nov 2025 21:02

Aprenda algo novo todos os dias e mantenha a mente ativa com a Spark
Casa dos Bits · Computadores · 22 nov 2025 17:21

Robot da Sunday Robotics foi treinado para levantar a mesa e arrumar a louça
Casa dos Bits · Multimédia · 22 nov 2025 15:30

X-59: Reveja o voo inaugural do avião supersónico silencioso desenvolvido pela NASA e Lockheed Martin

por Gustavo Dias

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir