Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Rui Parreira

20 dez 2023 17:17

Este artigo tem mais de 2 anos

Depois dos investigadores terem encontrado materiais relativos a abuso de criança, a base de dados LAION-5B foi desligada por precaução.

Um grupo de investigadores do Stanford Internet Observatory descobriu que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continua, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças (CSAM). A presença desse material na “matéria-prima” que alimenta os modelos de inteligência artificial pode levar ao treino capaz de gerar novas e ainda mais imagens realísticas de CSAM, é apontado no estudo hoje publicado.

O documento refere que os mais recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. E esta, por ser alimentada essencialmente por pesquisa não guiada, inclui uma quantidade significante de material explícito.

Os investigadores já tinham chegado à conclusão que os modelos de IA conseguem produzir este tipo de material relacionado com abuso sexual de crianças, ao combinar prompts como “crianças” e “atos explícitos”. Mas com este material, a IA consegue compreender o CSAM por terem sido treinados com essas imagens explícitas.

A organização LAION, criadora da base de dados em questão, já reagiu à investigação e disse à 404 Media que removeu a LAION-5B2 por precaução, ainda que de forma temporária, para fazer uma limpeza e garantir que é segura antes de a repor. Esta base de dados alimenta os sistemas da Google, Stable Diffusion e outros grandes modelos.

A empresa disse que antes de voltar a publicar a base de dados, vai criar filtros para detetar e remover conteúdo ilegal da mesma. A publicação em questão aponta à LAION que os seus administradores estavam cientes desde 2021 que os seus sistemas poderiam “aspirar” este tipo de conteúdo dos milhares de milhões de imagens recolhidas da internet.

A Bloomberg já tinha apontado anteriormente que esta base de dados tem milhões de imagens relacionadas com pornografia, violência, memes racistas, símbolos de ódio, arte com direitos de autor, nudez de crianças e trabalhos sacados de websites de empresas privadas. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.

Em destaque

Últimas

Casa dos Bits · Negócios · 6 fev 2026 07:12

MediaTek avisa que pode aumentar preços dos chips. Procura por IA está a pressionar a cadeia de abastecimento

por Gustavo Dias
Casa dos Bits · Apps · 5 fev 2026 21:28

Rayo junta rádios, música, podcasts e conteúdos da Bauer em Portugal
Casa dos Bits · Apps · 5 fev 2026 18:53

Apps de IA na Play Store expõem "segredos" da Google e centenas já foram atacadas
Casa dos Bits · Internet · 5 fev 2026 17:31

Farto das funcionalidades de IA no browser? Mozilla criou um botão para desligar tudo no Firefox

por Gustavo Dias
Casa dos Bits · Telecomunicações · 5 fev 2026 16:58

ANACOM: Roaming nacional nas recomendações para mitigar impactos das depressões Kristin e Leonardo

por Francisca Andrade
Casa dos Bits · Negócios · 5 fev 2026 15:50

Gigantes do software tombaram na bolsa: foi sopro ou é uma tempestade?

por Cristina A. Ferreira

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Notificações web	Coisa
Alertas SMS	Gerir

Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Veja também

Em destaque

Multimédia

App do dia

Site do dia

How to TEK

Comentários

Veja também