A semana começou com um abalo no mundo tecnológico ligado à inteligência artificial. Da China chegou um novo modelo de IA generativo, o DeepSeek, que se destaca pela qualidade semelhante ao que a OpenAI, Google e Meta têm apresentado ao mundo. No entanto, apresenta uma capacidade para reduzir custos de treino e maior eficiência, o que pode redefinir as verdadeiras regras do jogo da IA.
Tudo indica que o mundo ocidental foi apanhado de surpresa pela capacidade da startup chinesa, levando mesmo as principais gigantes tecnológicas a darem um trambolhão em Wall Street. Pior ficou a Nvidia, que depois do crescimento meteórico, ultrapassando a Apple em valorização, caiu de forma aparatosa, perdendo 600 mil milhões de dólares numa única sessão, ou seja, 17% do seu valor, batendo o recorde da maior queda de sempre de uma empresa dos Estados Unidos, aponta a CNBC.
Esta parece ser a resposta da China, poucos dias depois dos Estados Unidos terem imposto restrições às exportações de chips de inteligência artificial produzidos no país. A Rússia e a China estão numa lista negra restrita, mas a administração de Trump decidiu trancar ainda mais o acesso ao resto do mundo, excetuando um grupo de países que considera aliados estratégicos, onde Portugal e muitos Estados da União Europeia estão de fora.
Por outro lado, o executivo dos Estados Unidos pretende investir 500 mil milhões de dólares na tecnologia. A questão que se coloca agora é se será necessário tanto dinheiro para alcançar a supremacia da IA pelos Estados Unidos.
Afinal quem é a DeepSeek? Quanto custam os modelos de treino? E como veio abalar o mundo tecnológico? Neste explicador fique a conhecer melhor a startup chinesa que promete continuar a dar que falar.
Quem é a DeepSeek?
A DeepSeek é uma empresa privada chinesa, fundada apenas em julho de 2023 por Liang Wenfeng, formado na Universidade de Zhejiang, em engenharia eletrónica. Segundo o MIT Technology Review, a sua startup foi incubada na High-Flyer, um fundo hedge (fundos de protecção ou cobertura de risco) que o próprio fundou em 2015.
O objetivo da DeepSeek, à semelhança da OpenAI de Sam Altaman, é construir um modelo AGI (Inteligência artificial Geral), uma forma de IA capaz de igualar e até ultrapassar a inteligência humana em diversas tarefas.
A equipa é composta por jovens recém-formados nas melhores universidades chinesas, fomentando uma cultura de inovação. É apontado que a empresa dá prioridade às habilidades técnicas do que a tradicional experiência de trabalho. Isso garante a união de um grupo composto por indivíduos com muita habilidade, mas igualmente com uma perspetiva refrescante no desenvolvimento de inteligência artificial.
Como é que a DeepSeek contornou as sanções dos Estados Unidos?
Por incrível que pareça, apesar do anúncio do modelo DeepSeek R1 ter afundado a Nvidia em Wall Street, para conseguir obter a capacidade de processamento para treinar o modelo a startup tem como base os chips A100 da Nvidia. Liang Wenfeng terá conseguido assegurar um stock de processadores antes dos Estados Unidos proibirem a Nvidia de exportar os chips para a China em setembro de 2022.
Estima-se que a DeepSeek tenha conseguido juntar 10 mil chips A100, mas o número parece bem superior, cerca de 50 mil, segundo o analista Dylan Patel, fundador da empresa de consultaria de IA, SemiAnalysis.
Como evoluíram os modelos de IA da DeepSeek?
Um dos pontos de destaque do DeepSeek R1, o modelo que tem estado na boca do mundo, é a sua melhor capacidade de aprendizagem e maior eficiência no uso de memória. Mas até aqui chegar, a empresa lançou outros modelos. O primeiro foi o DeepSeek Coder em novembro de 2023, um modelo open source desenhado para programar tarefas. Seguiu-se o modelo DeepSeek LLM com 67 mil milhões de parâmetros, criado para competir com outros modelos de linguagem de grande escala.
Em maio de 2024 foi lançado o DeepSeek-V2, que já tinha sido elogiado pela grande performance e baixo custo. Este modelo gerou mesmo uma agitação da concorrência na China, em que o preço disruptivo enfrentou as gigantes tecnológicas como a ByteDance, Tencent, Baidu e Alibaba, levando-as a baixarem o preço das suas ofertas para se manterem competitivas.
A evolução dos modelos da DeepSeek é palpável, com o DeepSeek-Coder-V2 a conseguir gerar 236 mil milhões de parâmetros. Como explica a Forbes, o modelo foi desenhado para ultrapassar desafios complexos de programação.
Atualmente, a empresa está a desenvolver os seus mais recentes modelos, o DeepSeek-V3 e o DeepSeek-R1. O V3 tem capacidade de 671 mil milhões de parâmetros, sendo apontado como muito eficiente em relação à concorrência e uma grande performance. Note-se que ainda hoje a Alibaba lançou uma nova versão do Qwen 2.5-Max, que se garante ser mais poderoso que o DeepSeek-V3.
Já o DeepSeek-R1, lançado esta semana, assume-se a par com a performance do OpenAI 01. Estes são modelos de “outro campeonato”, os tais que procuram alcançar o AGI: são mais lentos a processar, mas oferecem respostas mais eficientes.
A empresa também tem na sua lista de oferta o DeepSeek-R1 Distill, versões mais ligeiras em open source, mas altamente capazes. A empresa oferece modelos até 32 e 70 mil milhões de parâmetros, referindo que estão a par com o OpenAI 01 mini.
Como foi treinado o modelo DeepSeek-R1?
Ao contrário dos métodos tradicionais que se baseiam em afinações supervisionadas, o DeepSeek utiliza a chamada aprendizagem reforçada. Os modelos aprendem através de tentativa e erro, melhorando automaticamente através de recompensas algorítmicas. O modelo aprende através da interação com o seu ambiente, recebendo feedback das suas ações, um pouco semelhante ao processo dos humanos que aprendem através da experiência.
Como aponta a Forbes, este formato permite desenvolver maiores capacidades de raciocínio e adaptar-se a novas situações de forma mais eficiente. Esta técnica aproxima-se da nova abordagem de treino dos modelos com computação de inferência (inference-time computing), que pode ser a solução para a questão de os dados úteis da internet para treino terem sido esgotados.
Esta nova computação é uma técnica que fatia os pedidos em tarefas mais pequenas, transformando cada uma numa nova prompt para o modelo resolver. Cada passo obriga a um novo pedido, que aqui é conhecido como fase de inferência.
No caso da DeepSeek-R1, é explicado que o modelo ativa apenas uma pequena fração dos seus parâmetros para determinada tarefa, tal como na computação de inference-time. Esta ativação seletiva permite uma redução significativa de custos computacionais, melhorando a sua eficiência.
Segurança e privacidade
Nem tudo abona a favor da startup chinesa. Não demorou muito para a DeepSeek ser vítima de um ataque informático, tendo que limitar temporariamente os registos da app R-1. A plataforma "está ainda a investigar o problema", que fez com que os serviços web e as interfaces de programação de aplicações operassem com "desempenho degradado”, referiu a empresa. Os Estados Unidos aproveitaram a deixa para anunciar que iriam avaliar as implicações de segurança nacional acerca da DeepSeek.
Do lado da privacidade, os especialistas apontam que a DeepSeek está a recolher dados pessoais dos seus utilizadores, incluindo data de nascimento, as prompts, assim como inputs de áudio e testo, ficheiros carregados, histórico de conversas e outros dados em servidores localizados na China, como é possível ler na própria política de utilização da empresa. O endereço IP, identificadores dos equipamentos e cookies são outras informações recolhidas.
Algumas organizações já proibiram a utilização do DeepSeek, outras são mais cautelosas e apenas recomendam precaução. Na lista estão o Governo da Austrália a e a Marinha dos Estados Unidos.
Qual foi o investimento feito no treino do modelo da DeepSeek?
O custo do treino do modelo da DeepSeek é um dos pontos que deixou abalados os investidores em inteligência artificial. Quando considerando que os principais players dos Estados Unidos, como a OpenAI, Meta e Google obtiveram um total de investimento 1 bilião de dólares para os próximos anos, naquela que parece ser uma corrida às armas, como avaliou a Goldman Sachs; o modelo foi treinado ao longo de 55 dias, com um orçamento de 5,57 milhões de dólares, utilizando um conjunto de 2.048 unidades de processadores gráficos H800 da Nvidia.
Qual foi o impacto em Wall Street?
Com o lançamento do novo modelo, a empresa chinesa está a levantar questões sobre a necessidade da procura dos chips da Nvidia. Os investidores estão a avaliar os stocks sobreavaliados que foram adquiridos para a promessa do desenvolvimento de IA por empresas como a Meta e a Microsoft.
A DeepSeek tomou o mercado de assalto, conseguindo fazer mais com menos, sendo este o pensamento dos analistas do mercado da IA. Ao mesmo tempo, coloca em dúvida o futuro do investimento na tecnologia devido a este tipo de surpresas.
Como referiu a CNBC, a Nvidia teve uma quebra de 17,31%, arrastando outras tecnológicas, embora em muito menor escala na mesma sessão. A Amazon caiu apenas 0,50%, a Alphabet 3,43% e a Microsoft, principal investidor da OpenAI teve uma quebra de 2,56%.
Nota de redação: este explicador que está em construção e vamos continuar a atualizar a informação com mais perguntas e respostas que surjam sobre a DeepSeek.
Pergunta do Dia
Em destaque
-
Multimédia
Skyrider X1 é um motociclo anfíbio que se desloca na terra, água e ar -
App do dia
Blade of God X: Orisols inspira-se na mitologia nórdica num formato RPG com ambiente sombrio -
Site do dia
Cornuvotia: uma plataforma para escrever histórias com amigos ou desconhecidos -
How to TEK
Precisa de libertar espaço no Gmail? Conheça três formas de apagar rapidamente mensagens
Comentários