Por Manuel Dias (*)

Da experimentação à consolidação: A IA Generativa em 2023

Desde o lançamento do ChatGPT, em novembro de 2022, que a Inteligência Artificial (IA) generativa tem avançado a um ritmo vertiginoso, marcando uma nova era na interação entre humanos e máquinas. Este marco inaugurou um período de profunda transformação, com modelos fundacionais capazes de gerar texto, imagens e código com uma precisão sem precedentes.

Com este cenário promissor, 2023 destacou-se como o ano da experimentação. Organizações de todos os setores e dimensões começaram a explorar o potencial da IA generativa, desde chatbots que transformaram a experiência do cliente até ferramentas criativas que democratizaram o design, a escrita e até a produção musical.

No mundo empresarial, por sua vez, um dos grandes momentos que pautaram este ano da experimentação foi o lançamento do Microsoft Copilot, que trouxe a IA e os modelos da OpenAI para as ferramentas de produtividade do dia a dia – o principal outcome identificado pelas empresas na utilização de soluções de IA no estudo The Business Opportunity of AI, da IDC –, redefinindo a forma como as empresas e os utilizadores individuais trabalham, comunicam e colaboram.

2024: Redefinindo a interação Homem-máquina com modelos multimodais

Mas se 2023 foi um ano crucial para a experimentação e respetiva consolidação da confiança e entusiasmo em torno da IA, 2024 destacou-se pela adoção, com o número total de empresas a utilizar soluções de IA generativa a crescer para 75%, em comparação aos 55% registrados no ano anterior, ainda de acordo com o estudo. Uma evolução sentida, particularmente, nos modelos multimodais, capazes de gerar conteúdo em diferentes modalidades, como texto, imagens, código e áudio, permitindo uma aproximação progressiva da natureza multimodal da comunicação humana, e expandindo significativamente o potencial das aplicações de IA generativa. Como corrobora a Gartner ao prever que, até 2027, 40% das soluções de IA generativa sejam multimodais.

Esta evolução dos modelos multimodais ganhou destaque com exemplos como o DALL·E, que veio  redefinir a criação de imagens através de texto, tornando a criatividade mais acessível e instantânea. Contudo, o verdadeiro salto foi dado no final do ano com o lançamento do SORA, um modelo de geração de vídeo da OpenAI, que vai revolucionar a indústria audiovisual. Este modelo alcançou um nível de precisão sem precedentes, permitindo gerar narrativas completas, interativas e de elevada qualidade, com aplicações que vão desde o entretenimento à educação. Já o Veo, um modelo recente da DeepMind, vem estabelecer novos padrões de usabilidade, combinando capacidades textuais e visuais para oferecer experiências mais imersivas.

Modelos de raciocínio avançado: A próxima fronteira da IA

Outra das tendências que acelerou no final do último ano, e que será sem dúvida um dos pilares estratégicos para 2025, são os modelos de raciocínio avançado. O modelo o1, lançado pela OpenAI em setembro, representa um avanço significativo em IA, focando-se em raciocínio avançado para resolver problemas complexos como a lógica, matemática, programação e investigação científica.

Diferentemente de modelos anteriores, o o1 é profundamente influenciado pelo conceito de Cadeia de Pensamento (Chain of Thought), uma abordagem que visa melhorar a capacidade de raciocínio dos modelos ao simular o processo de pensar passo a passo. Esta técnica permite que o modelo articule o raciocínio necessário para resolver problemas complexos, em vez de produzir respostas imediatas ou superficiais. O o1 divide um problema em sub-problemas menores, resolvendo-os sequencialmente e combinando as soluções num processo lógico e estruturado. Esta abordagem reflete a forma como os humanos abordam questões desafiantes, avançando passo a passo até chegar a uma conclusão. Além disso, o OpenAI o1 utiliza memória dinâmica para armazenar e rever os passos intermediários dessa cadeia, o que permite revisitar e ajustar etapas anteriores se necessário. Essa capacidade melhora a consistência e precisão das respostas, especialmente em tarefas que exigem lógica, como a matemática ou a programação.

Avaliação do Coeficiente de Inteligência dos LLMs - Mensa Norway
Avaliação do Coeficiente de Inteligência dos LLMs - Mensa Norway

Avaliação do Coeficiente de Inteligência dos LLMs - Mensa Norway

Os avanços do OpenAI o3, anunciado em dezembro, representam um marco significativo no domínio do raciocínio avançado em IA, que muitos especialistas associam a IA Geral (AGI). Este modelo alcançou resultados notáveis em diversos benchmarks, demonstrando capacidades superiores em tarefas complexas. Estabeleceu um novo padrão no ARC-AGI Benchmark (Abstraction and Reasoning Corpus for Artificial General Intelligence), projetado para avaliar a capacidade dos sistemas de IA em adaptar-se a novas tarefas e resolver problemas complexos sem treino prévio. No ARC-AGI Benchmark, que avalia a capacidade de adaptação a novas tarefas, o o3 obteve uma pontuação de 75,7% em configurações de computação standard e atingiu 87,5% em modos de alta computação, superando significativamente modelos anteriores.

Estes resultados posicionam o OpenAI o3 como um dos principais catalisadores para a próxima geração de IA, abrindo novas fronteiras para aplicações em ciência, saúde, investigação e processos criativos.

Agentic AI - Da assistência à autonomia, do Copilot para o Autopilot

A evolução da IA generativa está a abrir caminho para uma nova era de autonomia: a transição de soluções que atuam como assistentes, como o ChatGPT e o Microsoft Copilot, para agentes de IA que assumem um papel mais proativo, funcionando como verdadeiros "autopilotos", capazes de tomar decisões e executar tarefas visando objetivos definidos.

Ao contrário dos modelos atuais, que requerem um elevado nível de orientação do utilizador, normalmente injetado através de prompts extensas, os agentes de IA são desenhados para agir de forma autónoma, dentro de determinados limites, compreender contextos complexos, aprender continuamente com interações, tomar decisões informadas e executar ações para atingir metas específicas. Estes agentes não são apenas reativos, mas proativos, antecipando necessidades, propondo soluções e executando ações com base em raciocínio avançado, proporcionado pelos grandes modelos de linguagem (LLMs) mais avançados, como o OpenAI o1 ou o OpenAI o3.

Um dos pilares fundamentais no desenvolvimento de soluções de agentes de IA é a combinação de arquiteturas multi-agente inovadoras, que exploram a integração de memória de longo prazo, raciocínio simbólico, adaptação dinâmica a novos contextos e capacidade de atuação. Estas características permitem que os agentes planeiem de forma independente, dividindo tarefas complexas em sub-tarefas lógicas e interdependentes, que aprendam continuamente, ajustando as suas abordagens com base em resultados e feedback, e que colaborem com outros agentes e utilizadores humanos, promovendo um verdadeiro trabalho em equipa entre inteligências naturais e artificiais.

Um exemplo desta transição é a recente adição dos Copilot Agents ao Microsoft 365 Copilot, que representam uma evolução significativa dos assistentes de IA, concebidos para automatizar tarefas complexas e oferecer suporte avançado aos utilizadores. Integrados no Microsoft 365 Copilot, estes agentes podem ser personalizados para atender às necessidades específicas de cada organização, conectando-se às fontes de conhecimento empresariais – uma tendência de adoção que iremos assistir nos próximos 24 meses, com a maioria das organizações inquiridas no estudo The Business Opportunity of AI a revelar estar a planear investir em ferramentas personalizadas e adaptadas ao contexto específico da sua empresa.

De referir que os Copilot Agents podem ser criados e geridos no Copilot Studio, uma plataforma low-code dedicada onde os utilizadores podem criar, configurar e conectar agentes ao Copilot. Este ambiente centralizado facilita o controlo e a personalização dos agentes, permitindo às organizações maximizar o seu potencial e integrá-los de forma eficaz nos seus processos de trabalho.

Anatomia de um Copilot Agent
Anatomia de um Copilot Agent

Anatomia de um Copilot Agent

À medida que os agentes de IA se tornam mais sofisticados, o seu impacto será sentido em áreas tão diversas como a saúde, a educação, finanças e os serviços públicos, seja em termos de ganhos de eficiência, redução custos ou aceleração da inovação. No entanto, a ascensão da Agentic AI também levanta novos desafios, como a necessidade de garantir transparência, segurança e responsabilidade não apenas das respostas dos modelos, mas sobretudo das ações executadas. Estes agentes devem operar de acordo com diretrizes éticas claras e possuir salvaguardas que previnam comportamentos indesejados ou não alinhados com os objetivos humanos, que vão requerer muita investigação e desenvolvimento nos próximos meses.

O futuro é agora: Aprendizagem e adaptação na era da IA

Com a proliferação destas tecnologias em 2025 e além, prevê-se uma aceleração exponencial na adoção de agentes em todas as esferas da nossa vida. A próxima década não será apenas sobre IA que executa tarefas, mas sobre inteligência que colabora, aprende e expande os limites do possível. A IA deixará de ser apenas uma ferramenta para se tornar um parceiro estratégico nas decisões e operações.

Neste contexto de rápida evolução, torna-se cada vez mais essencial que cada um de nós adquira competências nestas tecnologias. A compreensão e o domínio destas ferramentas não serão apenas uma vantagem, mas uma necessidade para acompanhar a transformação tecnológica e maximizar o seu potencial nas nossas vidas pessoais e profissionais.

(*) Diretor de tecnologia e membro da Comissão Executiva da Microsoft Portugal