Apple, Nvidia e Anthropic acusadas de “roubar” vídeos do YouTube para treinar IA

17 jul 2024 14:45

Este artigo tem mais de um ano

Entre os conteúdos que serviram para treinar os modelos de IA estão vídeos educacionais e de entretenimento, mas também de teorias da conspiração, revelando um uso diversificado e controverso dos recursos do YouTube pelas gigantes tecnológicas.

Gigantes da tecnologia como a Apple, Nvidia e Anthropic usaram milhares de vídeos do YouTube sem o conhecimento ou consentimento dos criadores. A prática vai contra as políticas da plataforma, que proíbe a recolha não autorizada de materiais.

Os dados fazem parte de uma investigação da Proof News e indicam que as legendas de 173.536 vídeos do YouTube, de mais de 48 mil canais, foram utilizadas para treinar os modelos de IA dessas empresas.

Entre os canais abrangidos estão desde plataformas educacionais conhecidas, como Khan Academy, MIT e Harvard, a grandes nomes dos media, como Wall Street Journal e BBC. O grupo também inclui programas de entretenimento populares, como o “The Late Show With Stephen Colbert” e o “Last Week Tonight With John Oliver”.

O mesmo acontece com alguns dos maiores youtubers, com nomes como MrBeast, Marques Brownlee, Jacksepticeye e PewDiePie a verem centenas de vídeos seus incluídos no conjunto de dados usados pelas gigantes tecnológicas.

Os dados fazem parte de um repositório desenvolvido pela organização sem fins lucrativos EleutherAI, denominado Pile, que inclui conteúdos não apenas do YouTube, mas também do Parlamento Europeu e da Wikipédia em inglês, entre outros.

De acordo com a Proof News, a EleutherAI não respondeu aos pedidos de comentários, mas a organização afirma no seu site que tem como objetivo reduzir as barreiras do desenvolvimento de tecnologia de IA.

Já Jennifer Martinez, porta-voz da Anthropic, citada pela Proof News, destacou que apenas um subconjunto muito pequeno das legendas do YouTube foi utilizado neste repositório, e que os termos do YouTube dizem respeito ao uso direto da plataforma, não ao uso do conjunto de dados recolhido.

Académicos e investigadores fora das “big tech” também recorreram ao Pile para fins de pesquisa, mas são as empresas envolvidas que enfrentam as maiores críticas pela falta de transparência e consentimento no uso dos dados.

A Salesforce, por exemplo, lançou seu modelo de IA treinado com o Pile, o que levantou preocupações adicionais relacionadas com segurança e preconceitos que possam estar “materializados” nos dados.

Os especialistas e criadores de conteúdo ouvidos pela Proof News apelaram à necessidade urgente de regulamentação e transparência no uso de dados para treinar modelos de IA.

A nova controvérsia em torno do uso de vídeos do YouTube é apenas o exemplo mais recente de uma prática que tem incomodado criadores de diversas indústrias, levantando questões éticas e legais que ainda é preciso resolver.