Arquivo.pt: Como se junta a história da Internet em Portugal e as bases para investigação de futuro?

Fátima Caçador

11 mar 2025 12:07

Online desde 2007, o Arquivo.pt tem vindo a crescer em número de páginas de internet guardadas mas também em tecnologia. Mais do que um repositório de “memória digital” da Internet em Portugal, quer ser uma base de conhecimento para investigação e novos projetos. O treino de LLMs portugueses como o AMÁLIA é um dos potenciais a explorar.

Começou por se chamar Tumba!, ainda como projeto académico em 2001 por um grupo da Faculdade de Ciências da Universidade de Lisboa, depois mudou para Tomba e só em 2007 assumiu oficialmente o nome de Arquivo.pt, evoluindo para um serviço público em 2012. Na verdade, a designação é provavelmente o que menos interessa, num projeto pioneiro que pretende guardar a memória da Internet em Portugal e que já soma 17 anos ao serviço da comunidade, com provas dadas em desenvolvimento de tecnologia e inovação.

“Somos uns felizardos porque o Estado dá acesso livremente a todo este arquivo de informação”, defende Daniel Gomes, que é fundador do projeto e desenvolveu o arquivo digital da Internet em Portugal na FCCN, que integra a Fundação para a Ciência e a Tecnologia (FCT). Em entrevista ao SAPO TEK não consegue esconder o orgulho com o serviço que foi construído e que está disponível de forma gratuita para todos os que o quiserem usar.

No arquivo há 30 anos de sites guardados, com a memória de páginas que já não existem mas que fazem parte da narrativa e evolução da Internet em Portugal e que contribuem para enriquecer a história. No acervo está, por exemplo, a primeira página da Internet publicada em Portugal.

O Memorial do Arquivo.pt, que preserva sites antigos, e o projeto Renascer, que recupera sites históricos cujo conteúdo deixou de estar disponível online, são alguns dos exemplos de iniciativas desenvolvidas que usam a base de informação recolhida e a tornam útil.

Os números que suportam a plataforma são impressionantes, com mais de 20 mil milhões de ficheiros da web arquivados, 50 milhões de websites e 1,4 PetaByte em formato comprimido. E o Arquivo.pt continua a crescer todos os dias.

Daniel Gomes admite que nem todas as pessoas têm consciência do valor deste arquivo mas lembra que as Sociedades sem memória são um risco para a civilização. “Já ninguém lê informação em papel, todos os documentos que circulam são digitais e é importante preservá-los”, sublinha.

Em Portugal o Arquivo.pt assumiu este trabalho de preservação das páginas de Internet, mas existem outros projetos a nível internacional que seguem esta missão. O Internet Archive é um dos mais conhecidos, mas há outros bons exemplos, como o Web Recorder, para além de serviços de empresas privadas, que são pagos.

O projeto tem sido reconhecido e o Arquivo.pt coleciona muitas distinções, como o Prémio Transformação Digital 2024 ou o Melhor Projeto Digital da Administração Pública Central, mas promove também os seus próprios prémios, destacando trabalhos inovadores realizados com base na informação histórica preservada pelo Arquivo.pt.

A edição de 2025 está em curso e as candidaturas podem ser entregues até 6 de maio, sendo que na lista dos premiados em edições anteriores estão os trabalhos “Noticioso – Desafiar percepções” e o “discordAR: a Proximidade dos Partidos na Assembleia da República”, entre outros que podem ser conhecidos no site da iniciativa.

Um arquivo ao serviço da investigação

Daniel Gomes diz que o arquivo é cada vez mais utilizado, por cidadãos anónimos e por investigadores, mas o gestor do projeto tem uma meta. “O objetivo é que todas as pessoas saibam o que é o Arquivo.pt. Só se o conhecerem é que o podem utilizar”, admite.

Procurar uma determinada página, uma narrativa ou uma imagem são tarefas que se tornam fáceis no site Arquivo.pt. mas vale a pena navegar também nas Exposições online e visitar as coleções para descobrir temas como as memórias do 25 de abril na internet, ou a evolução da Rádio Comercial ao longo de 40 anos e a viagem no tempo com o Jornal Público.

Para além das memórias, o Arquivo.pt é também um repositório de grande valor que pode ser usado em projetos de investigação, nas áreas de pesquisa e de análise de informação, por exemplo, mas mais recentemente também para o treino de Large Language Models (LLM), como aconteceu com o GlórIA.

“Apesar da abundância de LLMs para muitas línguas de recursos elevados, a disponibilidade de tais modelos continua a ser limitada para o português europeu”, explicam os autores do GlórIA, Ricardo Lopes, João Magalhães, David Semedo, investigadores da Faculdade de Ciência e Tecnologia da Universidade Nova de Lisboa, no seu artigo GlórIA – A Generative and Open Large Language Model for Portuguese. O modelo utilizou 35 000 milhões de tokens, ou expressões que as máquinas conseguem processar, de diversas fontes.

Agora a ideia é usar também o Arquivo.pt para treinar o AMÁLIA, o novo LLM para português que integra a Estratégia Digital Nacional e a Agenda Nacional de Inteligência Artificial, como adiantou a ministra da Juventude e Modernização em entrevista ao SAPO TEK. A versão beta deve ser apresentada ainda no primeiro trimestre de 2025, segundo o calendário que foi partilhado.

Informação em risco de desaparecer

Quanto mais informação coleciona, e mais antiguidade dos dados consegue manter, mais valioso é o serviço do Arquivo.pt, como salienta o responsável do projeto. Ao contrário do que parece ser senso comum, nem tudo o que está na Internet é para sempre, e todos os dias são eliminadas grandes quantidades de dados de sites.

Dados de estudos do Pew Research Center indicam que 38% das páginas web deixam de estar acessíveis depois de uma década, mas o número depende muito do tipo de informação. Um estudo feito por Daniel Gomes, durante o seu doutoramento, indica cerca de 50% dos endereços disponíveis a uma determinada data se tornam indisponíveis passados apenas 2 meses, e que 80% dos conteúdos são alterados ou desaparecem passado um ano. Em alguns casos, os sites mudam várias vezes ao dia, como acontece com as páginas dos jornais online.

“Há muita volatilidade e estes arquivos preservam a memória digital”, destaca o fundador do projeto, contrapondo com a maior duração da preservação da informação em papel.

A volatilidade traz associada o risco de que o acesso ao conhecimento se quebre e por isso o Arquivo.pt assume a responsabilidade de fazer com que a informação publicada online permaneça acessível para as gerações futuras.

Aliar investigação ao arquivo

Viajar no tempo, regressando a páginas arquivadas desde 1996, é uma das possibilidades para quem queira conhecer a evolução dos sites atuais ou recordar alguns projetos que já não existem. Ainda se lembra como era o SAPO TEK quando foi lançado em fevereiro de 2000? As memórias estão guardadas e à distância de uma pesquisa e alguns cliques.

Nos servidores da FCCN está guardada a informação, que é cuidadosamente preservada e gerida pela equipa do Arquivo.pt, que também desenvolve investigação sobre a preservação de dados digitais. Nos últimos anos disponibilizou já 13 serviços, sendo alguns públicos e outros direcionados a entidades parceiros, entre os quais se contam o CitationSave e o Arquivo404.

A equipa desenvolve a tecnologia que permite suportar os serviços e o acervo do Arquivo.pt numa área de investigação onde não há muito desenvolvimento, porque quase toda a tecnologia que é desenvolvida foi pensada para aceder aos dados mais recentes. Por isso a tecnologia tem de ser adaptada para processar dados históricos da Web. O desafio passa pela sustentabilidade do repositório mas também pela tecnologia de indexação e preservação, já que cada página pode ter várias versões arquivadas ao longo do tempo. Isso significa que não pode ser identificada por um mesmo URL, tem de ser identificada por outros dados, como data de publicação e arquivo.

“Quando há um problema não podemos contratar serviços, temos de ser nós a investigar e desenvolver”, afirma Daniel Gomes, reconhecendo o mérito da equipa que tem solucionado alguns problemas mais complexos de arquivo, e que beneficia das plataformas partilhadas com a FCCN. “Podemos estar orgulhosos porque temos o arquivo da Web com os métodos de pesquisa e acesso mais avançados do mundo”, garante.

Para já “o nosso sistema tem acompanhado o crescimento do volume de informação de forma graciosa” e por vezes é necessário adicionar máquinas, substituir discos e fazer evoluir a arquitetura, assumindo o fundador que "é sempre o nosso desafio".

Ainda assim, há alguma incerteza, porque a plataforma está assente em centenas de milhares de linhas de código, também baseado em outros projetos semelhantes a nível internacional, como o Internet Archive e o Web Recorder, que são referências nesta área.

“Há um ou dois anos o sistema colapsou com um bug do sistema que recolhia determinados endereços no índice estavam a ser recolhidos milhões de vezes”, explica Daniel Gomes. Com a investigação descobriu-se o problema e esse trabalho levou a alterações no sistema.

A tecnologia de Inteligência Artificial tem sido usada pelo Arquivo.pt para melhorar o sistema de pesquisa e os modelos de aprendizagem automática foram mesmo o tema de uma tese de doutoramento de Miguel Costa, um dos membros da equipa.

O Arquivo.pt suporta pesquisa de texto, de imagem e métodos de pesquisa avançada para cada um deles, integra com outros serviços como o Conta-me Histórias que gera narrativas sobre qualquer assunto, com tecnologia desenvolvida por investigadores portugueses, e também tem pesquisa em bloco para investigadores.

Uma API desenvolvida na última década facilita o acesso aos dados e é possível extrair informação de texto, imagens ou PDFs, mas também viajar nas coleções disponibilizadas, selecionando a partir dai a informação que quer usar. “Estamos sempre disponíveis para colaborar nos projetos”, sublinha Daniel Gomes, e no acervo do site podem encontrar-se vários exemplos dessas colaborações.

Em destaque

Últimas

Casa dos Bits · Equipamentos · 28 nov 2025 11:29

Smartphones: Apple cada vez mais perto de destronar Samsung e de liderar vendas pela primeira vez em 14 anos

por Gustavo Dias
Casa dos Bits · Multimédia · 28 nov 2025 10:51
Patrocinado

Ford Power Promise: Acabaram-se as dúvidas sobre o que é ter um carro elétrico

por Think-BIG by SAPO
Casa dos Bits · Negócios · 28 nov 2025 10:36

Google abandona queixa contra cloud da Microsoft
Casa dos Bits · Internet · 28 nov 2025 09:47

Procura acima do esperado leva Google a "apertar" os limites de utilização gratuita do Gemini 3 Pro
Casa dos Bits · Site do dia · 28 nov 2025 08:21

UPskill avança para a 5ª edição e reforça formação em áreas críticas para a transformação digital
Casa dos Bits · Internet · 28 nov 2025 07:05

Vai aproveitar os descontos da Black Friday? 12 dicas para fazer compras seguras e evitar fraudes online

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir