Ainda estamos a perceber o que podemos fazer com os avanços mais recentes da inteligência artificial e é difícil antecipar onde a tecnologia nos pode levar, sobretudo depois dos desenvolvimentos mais recentes. O que já está claro é a importância de criar regras e definir fronteiras, que alinhem os próximos desenvolvimento da tecnologia com os princípios que balizam o resto da vida em sociedade e é aqui que entra a inteligência artificial responsável. É o domínio onde cabem os princípios de ética que a Europa quer espelhar no quadro legal que será implementado até 2026, mas é mais do que isso.

Usar algoritmos na análise de crédito e noutras decisões que implicam avaliações de históricos e perfis, já se sabe que pode ter um enorme valor e acelerar muitos processos. Mas o que vários exemplos conhecidos nos últimos anos também mostram é que se os preconceitos e a discriminação podem influenciar este tipo de decisões quando são tomadas por humanos, também podem influenciar os algoritmos, que aprendem com humanos.

Regulamentação de Inteligência Artificial recebe aprovação final dos 27 países da UE
Regulamentação de Inteligência Artificial recebe aprovação final dos 27 países da UE
Ver artigo

Esta é uma das áreas trabalhadas pela IA responsável e no centro português dedicado ao tema, que está a aglutinar um conjunto de projetos que vão tirar partido de IA e destes princípios. “Se um homem e uma mulher pedirem um crédito em condições iguais, não pode haver discriminação e houve situações no passado onde se provou que isso acontecia, em resultado dos dados que os modelos usam para serem treinados”, explica Paulo Dimas. “Esta é uma das áreas que estamos a trabalhar no centro para a IA responsável e que é absolutamente essencial, estando exatamente por isso até a ser regulada”,acrescenta o responsável do Centro que nasceu de uma das agendas mobilizadoras do Plano de Recuperação e Resiliência.

As novas regras europeias do AI Act vão ditar que os sistemas usados para acesso a serviços publicos, recrutamento ou áreas como a concessão de crédito bancário têm de obedecer a principios que garantam que não há discriminação de raça, idade ou estatuto social. Como é que isso se faz? Essa discriminação “hoje não acontece porque as pessoas são mal intencionadas, mas porque há um viés nos dados e por isso é que é muito importante trabalhar em áreas como os dados sintéticos”, observa Paulo Dimas.

No centro português, de onde se espera que saiam 21 produtos desenvolvidos ou acelerados com IA até 2025, há duas equipas a trabalhar neste campo, uma a nível de produto e outra em investigação. Os dados sintéticos são dados que não existem de facto no universo da Web. São criados para “equilibrar” os que existem e evitar, por exemplo, que a prevalência de informação online sobre mulheres em funções mal remuneradas faça um algoritmo “concluir” que a melhor escolha para um cargo de direção é um homem.

Explicabilidade ataca caixas negras da IA

Além da equidade, a confiança é outro campo de trabalho da IA responsável. Em áreas onde o rigor da informação é crucial, como a saúde e outras, pode ser perigoso recorrer a uma IA que sabe encontrar respostas na imensidão do ciberespaço, mas não consegue garantir que são verdadeiras. Os grandes modelos de linguagem (LLM) são treinados para identificar padrões, prever palavras ou recomendações a partir de cálculos e probabilidades orientadas por milhares de milhões de parâmetros, que vão afinando o peso de cada informação gerada pela comunicação na imensa rede de “neurónios” que os compõem. Não têm um método preciso para verificar a veracidade de cada informação e nem sempre sabem explicar porque chegam a uma determinada recomendação e não a outra. Parte do processo de decisão destes sistemas altamente complexos fica numa zona cinzenta para os cientistas a que muitos chamam caixa negra, endereçada pela explicabilidade.

“Esta é uma área muito desafiante do ponto de vista da investigação tecnológica porque os modelos de linguagem têm uma dimensão astronómica”, reconhece Paulo Dimas, com um exemplo. Quando a OpenAI ainda divulgava o número de parâmetros, sabia-se que o GPT3, o antecessor do modelo mais avançado da dona do ChatGPT, tinha 175 mil milhões de parâmentros, o que torna impossível perceber exatamente porque é que o modelo gera aquele resultado.

A versão seguinte, que é a atual, terá ainda mais parâmetros. “Esta é uma das grandes limitações da inteligência artificial, que está a ser atacada pela explicabilidade” e que também é um dos campos de trabalho no centro.

A explicabilidade vai à procura destas “caixas negras” nos resultados entregues pelos modelos e introduz elementos que possam ajudar a decodificá-las. Em áreas como a saúde, por exemplo, é fundamental saber porque é que um modelo prevê que um doente tem mais probabilidade de ter cancro, que elementos usou o modelo para chegar a essa conclusão e que elementos deve considerar a mais para justificar aquela previsão.

Em algumas áreas ainda é melhor dizer não à inteligência artificial?

Caixas negras, falta de explicabilidade, incapacidade para validar a 100% a veracidade de uma informação….Isto significa que em algumas áreas continua a ser melhor dizer não à inteligência artificial? Nem por isso, defende Paulo Dimas. “Tudo depende do tipo de inteligência artificial de que estejamos a falar”. Nem só de ChatGPT e de inteligência artificial generativa se faz a IA. “Existem muitas outras técnicas de IA, até usadas de forma mais abrangente que a GenAI, que podem dar já hoje um contributo fundamental para melhorar técnicas e serviços em diferentes áreas”.

Paulo Dimas Unbabel
Paulo Dimas, vice-presidente da Unbabel para a área da inovação e líder do Centro para a IA Responsável

Voltando ao exemplo da saúde, veja-se o caso da aprendizagem automática supervisionada. O princípio de aprendizagem é o mesmo da GenAI, na medida que os sistemas são expostos a um conjunto vasto de informação, a partir da qual vão identificar padrões e probabilidades. Aqui, no entanto, são usados dados etiquetados, previamente validados e anotados por médicos, por exemplo. “Aqui não há margem para “inventar” porque todos os dados de referência são fidedignos”.

Um dos produtos em desenvolvimento no centro de IA responsável português foca precisamente esta área. O projeto é liderado pela Priberam e centra-se num produto que vai apoiar os médicos em decisões de alta médica. Vai ser usado no hospital de São João, no Porto, e fornecer aos profissionais de saúde acesso a dados estatísticos de apoio à decisão, completamente credíveis porque a fonte é também ela totalmente controlável. “É uma área onde a IA pode até ajudar a reduzir o número de erros clínicos, que às vezes acabam por acontecer em contextos de trabalho com mais stress”, admite Paulo Dimas.

E tudo começou com uma mosca…

Modelos como o do ChatGPT têm uma história longa na ciência. Inspiram-se no modelo computacional criado no final dos anos 50 do século passado por Frank Rosenblatt, quando quis entender o sistema de perceção de uma mosca. Vários avanços depois desse permitiram dar escala e complexidade aos ingredientes usados para alimentar este tipo de modelo. “O GPT3 usa 96 camadas de percetrões [...] atingimos um avanço enorme e extremamente transversal da tecnologia, com repercussão em áreas completamente inesperadas”, reconhece o também vice-presidente da Unbabel para a inovação.

Áreas como a criatividade e a empatia, que até há pouco tempo estavam no domínio das “coisas que só os humanos sabem fazer”, também estão a ser impactadas com este avanço mais recente. “Não sabemos bem o que vem a seguir. Percebemos que este paradigma [texto] está a sofrer aqui um decréscimo de aceleração tecnológica. O que se antecipa é que se sigam avanços importantes na multimodalidade, que é a capacidade destes modelos não só processarem texto como imagem”. Primeiro fotos e mais tarde vídeo.

As versões mais recentes dos modelos de linguagem da OpenAI e da Google já refletem isso mesmo, ambos são multimodais. Isto antecipa desafios ainda maiores em termos de capacidade de computação, e consequentemente, para a sustentabilidade. Como alerta Paulo Dimas, “se na área de texto já atingimos um determinado patamar, nos restantes tipos de modalidades tudo será amplificado e a capacidade de computação terá de ser ainda maior”.

Este também é um tópico endereçado pela IA responsável e outra das áreas em investigação no centro português liderado pela Unbabel, onde se procuram criar modelos mais eficientes e cuja utilização seja menos exigente em termos de consumo energético. Hoje, gerar uma imagem com IA gasta a mesma energia de que precisamos para carregar um telemóvel. O GPT4 consumiu 40 vezes mais energia a treinar que o GPT3, se o GPT5 seguir a mesma lógica, até fazer as contas é difícil.

Centro para a IA Responsável
créditos: Unbabel

Avanço tecnológico e impacto ambiental, neste caso, crescem em simultâneo e não se vislumbram respostas simples para o problema, mesmo que comece a ficar evidente que não é preciso ter um megamodelo para tudo”. “É uma tendência que já se começa a verificar. Há necessidades que vão poder ser respondidas com modelos capazes de correr num telemóvel”, adianta Paulo Dimas, sublinhando que esta será a “grande tendência para este ano”. Modelos de linguagem alinhados com o próprio utilizador, as suas preferências, interesses, ideias políticas ou interesses culturais.

Quantos dados são necessários para treinar um modelo de linguagem?

Isto significa então que passarão a ser necessários menos dados para treinar modelos de IA? Nem por isso. Empresas como a Google têm defendido que é possível ter modelos mais pequenos e com performance superior a outros maiores, se o processo de treino for feito com mais dados. “O processo de treino é mais dispendioso do ponto de vista energético, mas na utilização é mais eficiente porque vai usar um número de parâmetros mais baixo”, detalha Paulo Dimas.

A indústria estará interessada neste tipo de avanços por diferentes razões, nomeadamente para conseguir levar as capacidades dos LLM a outro tipo de serviços como um Google, que tem de dar respostas a milhões de pedidos a cada segundo. Os custos atuais dos modelos baseados em redes neuronais com centenas de milhões de parâmetros não fazem dessa uma possibilidade, nem eficiente nem rentável.

Mas nem só de quantidades de dados e capacidades de computação astronómicas se fazem modelos eficientes de IA. Os acordos que a OpenAI tem vindo a fazer com diferentes produtores de conteúdos, para garantir o acesso a essas fontes no treino dos seus modelos, refletem isso mesmo. A qualidade dos dados também é determinante nos resultados que os modelos vão produzir.

“Na Unbabel criámos um modelo de linguagem com 7 mil milhões de parâmetros, que agora tem já 13 mil milhões e conseguimos alcançar resultados extremamente bons, graças à qualidade dos dados, porque não temos acesso à capacidade de computação de uma OpenAI ou de uma Mistral”, exemplifica Paulo Dimas.

No centro para a IA responsável esta é igualmente uma área de trabalho e um dos princípios incutidos nos projetos que nasceram de raiz já ali, ou que se juntaram à iniciativa para serem melhorados com IA. Os trabalhos seguem até 2025, com uma taxa de execução que ronda os 20%, porque os primeiros meses foram de organização de equipas, mas já com 145 empregos científicos criados e 40 doutoramentos e mestrados em curso.

Empresas grandes, startups e centros de investigação trabalham em conjunto para resolver problemas concretos que os líderes da indústria trouxeram ao consórcio e que as startups ajudam a resolver, alavancadas na I&D desenvolvida nos centros ligados à iniciativa. Paulo Dimas admite que nem todos os projetos terão sucesso, que nem todos vão para a internacionalização mas alguns irão e a aprendizagem é fundamental. “Temos dois tipos de produtos no centro. Os que estão a ser desenvolvidos do zero e que partiram sem qualquer tipo de base de clientes e depois temos outros que estão a ser acelerados e melhorados com IA”.

Se não é possível treinar inteligência artificial sem violar direitos de autor, qual é o caminho?
Se não é possível treinar inteligência artificial sem violar direitos de autor, qual é o caminho?
Ver artigo

Um destas projetos junta a Sword Health ao Hospital de São João, no Porto, e visa ajudar quem ali faz cirurgias a poder recuperar em casa, com acesso a fisioterapia, através da plataforma do unicórnio de origem portuguesa. Está “numa fase bastante avançada”. A Automaise e a Sonae trabalham num chatbot de IA generativa, o Support Genius, que o grupo de retalho já usou na campanha de regresso às aulas. A Unbabel segue os testes em ambiente real com o Halo, uma solução que permite a doentes com esclerose lateral amiotrófica voltar a falar com a família, a partir de biosinais que são transformados em linguagem.

Podemos acordar um dia e descobrir que a IA já não precisa de nós?

Enquanto isso, os desenvolvimentos em torno da inteligência artificial seguem o seu caminho e novas respostas para problemas antigos vão surgindo todos os dias, com o contributo destas tecnologias. Mesmo para quem está no sector é difícil prever o futuro, mas caberá em algum cenário a possibilidade de um dia acordarmos e a inteligência artificial já não precisar de nós para validar modelos e definir regras? Afinal parece que foi quase de um dia para outro que o ChatGPT mostrou que falar com um chatbot afinal pode ser útil e impressionante…

Halo, Unbabel
créditos: Unbabel

Para que isso acontecesse era preciso que a inteligência artificial tivesse intenções e isso é algo que não existe”, garante Paulo Dimas. “Porque é que os seres humanos têm sentido de missão e intenções? porque estão vivos, porque têm consciência e noção de que para alcançar bem-estar precisam de tomar certas ações. Uma máquina não tem isto e como tal porque razão havemos de temer algo assim?”. Para o responsável que trabalha com IA desde os anos 80, o facto de um cenário destes não representar sequer um benefício do ponto de vista económico é outra boa razão para não temermos que a realidade se misture (assim tanto) com a ficção.

"As pessoas têm sempre essa tendência de antropomorfizar as máquinas, mas não faz sentido. O que faz sentido é nós criarmos máquinas que são muito boas a realizar certas tarefas e não para substituir a nossa inteligência”. As máquinas serão sempre “criadas para nos servir a nós, são ferramentas”.

E é por aí que o investigador vê seguirem os próximos avanços da IA. “Há por exemplo uma área ainda muito emergente, que está a dar os primeiros passos, e que se baseia nos avanços dos LLM: a área dos agentes autónomos”. Trabalha a possibilidade de criarmos agentes de IA para determinados tipos de tarefas, a partir da interação destes LLM com serviços do mundo real. O utilizador define um objetivo e o agente inteligente realiza as várias tarefas necessárias para satisfazer o objetivo.

“Quero fazer uma viagem a Londres. Defino isto como o objetivo para a inteligência artificial e ela vai transformar esse objetivo num conjunto de ações que vai ela própria executar”, explica Paulo Dimas. Podem caber aqui a compra de bilhetes de avião, reserva de hotéis e outros tipo de programação para a estadia.

“Esta é uma área onde vão começar a surgir muitas startups este ano. Já surgiram algumas experiência no ano passado com o AutoGPT, por exemplo, mas ainda coisas muito incipientes, porque a interação com os serviços ainda falha, seja por falta de interfaces ou de outros constrangimentos, mas vamos começar a ver cada vez mais este tipo de IA, já com alguma autonomia para nos ajudar a desempenhar determinadas tarefas”, remata o responsável.

Este artigo integra um Especial que o SAPO TEK está a publicar ao longo desta semana sobre O lado "menos bonito" da inteligência artificial.