Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Rui Parreira

20 dez 2023 17:17

Depois dos investigadores terem encontrado materiais relativos a abuso de criança, a base de dados LAION-5B foi desligada por precaução.

Um grupo de investigadores do Stanford Internet Observatory descobriu que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continua, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças (CSAM). A presença desse material na “matéria-prima” que alimenta os modelos de inteligência artificial pode levar ao treino capaz de gerar novas e ainda mais imagens realísticas de CSAM, é apontado no estudo hoje publicado.

O documento refere que os mais recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. E esta, por ser alimentada essencialmente por pesquisa não guiada, inclui uma quantidade significante de material explícito.

Os investigadores já tinham chegado à conclusão que os modelos de IA conseguem produzir este tipo de material relacionado com abuso sexual de crianças, ao combinar prompts como “crianças” e “atos explícitos”. Mas com este material, a IA consegue compreender o CSAM por terem sido treinados com essas imagens explícitas.

A organização LAION, criadora da base de dados em questão, já reagiu à investigação e disse à 404 Media que removeu a LAION-5B2 por precaução, ainda que de forma temporária, para fazer uma limpeza e garantir que é segura antes de a repor. Esta base de dados alimenta os sistemas da Google, Stable Diffusion e outros grandes modelos.

A empresa disse que antes de voltar a publicar a base de dados, vai criar filtros para detetar e remover conteúdo ilegal da mesma. A publicação em questão aponta à LAION que os seus administradores estavam cientes desde 2021 que os seus sistemas poderiam “aspirar” este tipo de conteúdo dos milhares de milhões de imagens recolhidas da internet.

A Bloomberg já tinha apontado anteriormente que esta base de dados tem milhões de imagens relacionadas com pornografia, violência, memes racistas, símbolos de ódio, arte com direitos de autor, nudez de crianças e trabalhos sacados de websites de empresas privadas. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.

Pergunta do Dia

Em destaque

Últimas

Casa dos Bits · Multimédia · 27 abr 2024 19:22

Centenas de drones iluminaram céu do Terreiro do Paço na celebração dos 50 anos do 25 de Abril

por Rui Parreira
Casa dos Bits · Multimédia · 27 abr 2024 14:20

Salve a Terra de uma invasão de extraterrestres em Stellar Blade, o novo exclusivo da PlayStation 5

por Rui Parreira
Casa dos Bits · Computadores · 27 abr 2024 11:26

Sistema de assistência à condução da Huawei ganha espaço entre fabricantes automóveis

por Rui Parreira
Tek / Lusa · Internet · 27 abr 2024 09:57

Proibir telemóveis nas escolas sem ouvir alunos não é solução, defendem especialistas
Casa dos Bits · Site do dia · 27 abr 2024 09:51

Acesso ao Ensino Superior: Como funciona, quais os exames e como apresentar candidatura?
Casa dos Bits · Apps · 26 abr 2024 22:06

Tem uma costela de cantor? Pode melhorar os seus dotes vocais com a Riyaz

Comentários

Entre com a sua conta do Facebook ou registe-se para ver e comentar

Relacionados Playlist

Autoplay

Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Pergunta do Dia

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Últimas

Comentários

Relacionados Playlist

Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA

Pergunta do Dia

Veja também

Em destaque

Multimédia

Site do dia

App do dia

How to TEK

Comentários

Veja também