Um grupo de investigadores do Stanford Internet Observatory descobriu que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continua, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças (CSAM). A presença desse material na “matéria-prima” que alimenta os modelos de inteligência artificial pode levar ao treino capaz de gerar novas e ainda mais imagens realísticas de CSAM, é apontado no estudo hoje publicado.
O documento refere que os mais recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. E esta, por ser alimentada essencialmente por pesquisa não guiada, inclui uma quantidade significante de material explícito.
Os investigadores já tinham chegado à conclusão que os modelos de IA conseguem produzir este tipo de material relacionado com abuso sexual de crianças, ao combinar prompts como “crianças” e “atos explícitos”. Mas com este material, a IA consegue compreender o CSAM por terem sido treinados com essas imagens explícitas.
A organização LAION, criadora da base de dados em questão, já reagiu à investigação e disse à 404 Media que removeu a LAION-5B2 por precaução, ainda que de forma temporária, para fazer uma limpeza e garantir que é segura antes de a repor. Esta base de dados alimenta os sistemas da Google, Stable Diffusion e outros grandes modelos.
A empresa disse que antes de voltar a publicar a base de dados, vai criar filtros para detetar e remover conteúdo ilegal da mesma. A publicação em questão aponta à LAION que os seus administradores estavam cientes desde 2021 que os seus sistemas poderiam “aspirar” este tipo de conteúdo dos milhares de milhões de imagens recolhidas da internet.
A Bloomberg já tinha apontado anteriormente que esta base de dados tem milhões de imagens relacionadas com pornografia, violência, memes racistas, símbolos de ódio, arte com direitos de autor, nudez de crianças e trabalhos sacados de websites de empresas privadas. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.
Em destaque
-
Multimédia
Frigoríficos com anúncios, chupa-chupas eletrónicos e campainhas invasivas nos piores gadgets da CES 2026 -
App do dia
Superfluent ajuda quem já domina o "bê-a-bá" a falar uma nova língua com mais confiança -
Site do dia
Airloom: Acompanhe voos em tempo real numa experiência 3D imersiva -
How to TEK
Quais são as novidades do Google Maps para ajudar a chegar ao seu destino? Veja estas dicas de personalização
Comentários