O AMÁLIA, o Modelo de Linguagem em Grande Escala (LLM na sigla em inglês) para a Língua Portuguesa que foi anunciado pelo Primeiro Ministro na abertura do Web Summit, já tem um calendário e cronograma de implementação mais definidos. O objetivo definido para o que foi apelidado de "ChatGPT português" é que esteja "disponível para todos de forma aberta e gratuita, para que possam utilizá-lo para concretizar os seus projetos", sendo defendido como um projeto de soberania da língua portuguesa.
Hoje foi realizada uma reunião entre os dois Ministros que coordenam a iniciativa – a Ministra da Juventude e Modernização e o Ministro da Educação, Ciência e Inovação, sendo detalhado que o investimento previsto no novo LLM é de 5,5 milhões de euros, a que se somam investimentos já realizados nesta área. O calendário de trabalho e desenvolvimento tem uma duração de 18 meses, após o qual será apresentada a primeira versão multimodal do AMÁLIA - acrónimo de Assistente Multimodal Automático de Linguagem com Inteligência Artificial. Recorde-se que inicialmente se referia que o LLM português estaria disponível no primeiro trimestre de 2025, mas essa será apenas uma versão beta.
A AMA - Agência para a Modernização Administrativa vai ter a seu cargo a execução operacional desta iniciativa, enquanto a Fundação para a Ciência e Tecnologia (FCT) vai coordenar, com os centros de investigação, o treino e desenvolvimento do LLM, assegurando ainda o acesso à infraestrutura necessária para o treino e alojamento do AMÁLIA, e pelo tratamento e curadoria dos dados que serão utilizados. "Será com as infraestruturas e recursos humanos existentes nestas entidades que será possível executar uma iniciativa com objetivos e calendário ambiciosos", refere o comunicado do Governo.
O desenvolvimento do LLM Português AMÁLIA é a primeira iniciativa divulgada no âmbito da Agenda Nacional de Inteligência Artificial, uma estratégia que será apresentada só no 1º trimestre de 2025 e em comunicado o Governo indica que vem reforçar a intenção "de colocar a tecnologia e o digital ao serviço das empresas, do Estado e das pessoas".
"O Governo quer posicionar o Estado como um acelerador e impulsionador do ecossistema de investigação e inovação no âmbito da Inteligência Artificial, e criar bases fundacionais importantes para o desenvolvimento da tecnologia através de processos criativos e transformadores em Portugal", indica ainda a mesma fonte.
O Governo admite que existem no mercado "inúmeros LLM estrangeiros, que na sua grande maioria são modelos desenvolvidos por empresas privadas e otimizados para processar e gerar texto em língua inglesa". Mas refere que apresentam "um desempenho menos positivo no processamento e geração de texto noutras línguas e que quando utilizados com dados sensíveis, reduzem a autonomia e soberania de dados, forçando que quem os utiliza tenha de partilhar os dados com estes fabricantes".
Os LLM mais conhecidos são o GPT da OpenAI, que está na base do ChatGPT lançado há dois anos, mas também o Gemini da Google, ou o Claude da Anthropic. Nos últimos anos têm sido desenvolvidas iniciativas em vários países para desenvolver LLM próprios, especificamente para as línguas dos países envolvidos, entre os quais o “ALIA”, que fala castelhano, catalão, galego e basco, e o “Viking 7B”, que fala dinamarquês, finlandês, norueguês, islandês e sueco, entre outros exemplos.
18 meses para chegar à versão multimodal
O Governo assumiu como uma prioridade o desenvolvimento e lançamento do do primeiro LLM de língua portuguesa de Portugal, o AMÁLIA, “Assistente Multimodal Automático de Linguagem com Inteligência Artificial”, que considera essencial para a soberania da língua portuguesa. E diz que "vem reforçar a intenção do Governo de colocar a tecnologia e o digital ao serviço das empresas, do Estado e das pessoas".
A iniciativa está a cargo da Ministra da Juventude e Modernização, que tem competência delegada do Primeiro-Ministro relativamente à Inteligência Artificial (segundo o Despacho n.º 8556/2024, de 31 de julho), e pelo Ministro da Educação, Ciência e Inovação. Em comunicado foi detalhada a forma como será desenvolvido o projeto, que resulta de uma reunião entre os dois ministros, que decorreu hoje.
Segundo os dados, o treino e desenvolvimento do AMÁLIA será executado por um consórcio liderado pelos centros de investigação NOVA LINCS da Universidade Nova de Lisboa, e o Instituto de Telecomunicações e Instituto Superior Técnico, integrando ainda outros centros de investigação nacionais "com reconhecido mérito no âmbito da Inteligência Artificial".
Desde o anúncio por parte do Primeiro Ministro têm sido colocadas questões relativamente à integração com outros projetos em curso, nomeadamente de desenvolvimento de LLM portugueses. Agora o Governo vem explicar que "será possível aproveitar sinergias de projetos e investimentos já realizados, nomeadamente (i) os projetos de desenvolvimento do EuroLLM no Instituto de Telecomunicações e Instituto Superior Técnico, e do GlórIA e v-GlórIA no NOVA LINCS". Estes utilizam a infraestrutura europeia da entidade europeia de computação de alta-performance EuroHPC e, no caso do GlórIA e v-GlórIA já estão treinados em português de Portugal. Será ainda considerado o investimento realizado pelo Governo em infraestrutura de computação de alta-performance do “Deucalion” e “MareNostrum 5”.
Está igualmente prevista a formação de um comité de acompanhamento especializado, que será constituído por peritos em Inteligência Artificial, sendo indicado como exemplo o Center for Responsible AI. "Este grupo será responsável por assegurar as melhores práticas de desenvolvimento de Modelos de Linguagem de Grande Escala, o cumprimento dos princípios éticos e de segurança e aconselhar sobre o potencial de aplicações do modelo nos diversos setores de atividade", refere-se.
O investimento previsto é de 5,5 milhões de euros, a que "acresce o vasto investimento já realizado em infraestrutura de computação, projetos de desenvolvimento e recursos humanos especializados que contribuirão em grande medida para o desenvolvimento do LLM". Este valor é assegurado no âmbito do Plano de Recuperação e Resiliência (PRR). "O financiamento do projeto estará exclusivamente destinado às entidades públicas envolvidas no desenvolvimento do AMÁLIA", realça o comunicado.
Segundo o calendário, vão ser disponibilizadas várias versões do AMÁLIA, sendo uma primeira versão beta apresentada no primeiro trimestre de 2025, seguindo-se uma versão base no terceiro trimestre do próximo ano, e uma versão multimodal no final do primeiro semestre de 2026.
"Numa fase inicial, o AMÁLIA será criado através da conjugação dos esforços realizados no desenvolvimento do EuroLLM, do GlórIA e do v-Glória, será capaz de diferenciar as variantes da língua portuguesa e será treinado com dados do Arquivo.pt previamente curados", refere-se. Esta versão beta do AMÁLIA conseguirá receber e interpretar instruções em formato de texto e responder com base no conhecimento adquirido, também em texto escrito em português de Portugal.
Novos dados sobre a língua, a cultura e história de Portugal serão curados até final de setembro de 2025. "Estes dados serão provenientes de fontes como o Arquivo.pt, e serão utilizados para treinar o AMÁLIA na sua versão base. Só nesta versão será possível gerar respostas fiáveis e precisas sobre estas temáticas, bem como responder a questões com total segurança e sem risco para o utilizador", justifica-se. É ainda detalhado que "nesta altura, o AMÁLIA já poderá ser integrado noutras aplicações externas e utilizar dados dessas fontes para gerar respostas de texto".
No final dos 18 meses do primeiro projeto de desenvolvimento do LLM, o AMÁLIA versão multimodal já será capaz de interpretar diversos formatos de dados (como texto, imagem e vídeo).
"Esta versão final do LLM será diferenciadora na interpretação e geração de texto de língua portuguesa, no conhecimento que tem da literatura, cultura e história de Portugal", refere a mesma fonte
Indica-se porém que "o objetivo deste LLM não é de responder a perguntas genéricas em que o foco é a realização de raciocínios ou cálculos complexos, havendo outros LLM no mercado com bom desempenho nessas tarefas".
AMÁLIA em open source e com acesso gratuito
Uma das questões salientadas no documento que foi partilhado de detalhe sobre o projeto é que "todas as versões desenvolvidas serão disponibilizadas de forma gratuita e em open source, para que seja utilizado por todos, incluindo Academia, centros de investigação, entidades públicas, empresas e cidadãos". Este é um objetivo ligado à ideia de colocar a tecnologia e o digital ao serviço das empresas, do Estado e das pessoas.
O Primeiro Ministro já tinha sublinhado que este LLM poderá ter aplicação em várias áreas de atividade, como a educação, saúde e serviços públicos, entre outros, lembrando-se agora que será "necessário afiná-lo e treiná-lo com dados específicos dos sectores de atuação".
Para além das versões do LLM, o Governo diz ainda que todos os dados que suportam o treino serão disponibilizados em dados abertos, criando assim "uma infraestrutura nacional de Inteligência Artificial que potencia o ecossistema de inovação da Inteligência Artificial em Portugal".
É ainda lançado um repto para que "todos os utilizadores que partilhem as futuras evoluções do modelo e as coloquem ao serviço de todos os portugueses".
Pergunta do Dia
Em destaque
-
Multimédia
Protagonistas da Terra e do Espaço em imagens espetaculares escolhidas pela NASA -
App do dia
Reader é uma app com IA para ler em voz alta de forma natural -
Site do dia
Website "7 Minutes in Hell" propõe treinos HIIT para quem gosta de sofrer (literalmente) -
How to TEK
Torne o smartphone Android mais inteligente trocando o Google Assistant pelo Gemini
Comentários