Treinar modelos de inteligência artificial sem recorrer a conteúdos protegidos por direitos de autor não é possível. Quem o assume é a OpenAI, num documento enviado a uma Comissão da Câmara dos Lordes britânica, que está a debruçar-se sobre o tema numa altura em que os processos à empresa e à parceira Microsoft, por violação de direitos de autor no treino do ChatGPT, começam a acumular-se.

Na declaração escrita, a empresa recorda que o material protegido por direitos de autor se distribui por todas as áreas de conhecimento e como tal, não seria possível obter os resultados que se espera de um modelo de IA sem o “alimentar” com eles.

Hoje é impossível treinar os principais modelos de IA sem usar materiais protegidos por direitos de autor”, relata o The Guardian, que teve acesso ao documento. Aí sublinha-se que o material protegido por direitos de autor, “cobre virtualmente todo o tipo de expressão humana - incluindo publicações em blogs, fotografias, publicações em fóruns, código de software e documentos governamentais”.

“Limitar as fontes de informação disponíveis para o treino dos grandes modelos de linguagem (LLM) a livros ou desenhos do domínio público, criados há mais de um século, pode resultar numa experiência interessante, mas não vai dar aos sistemas de AI o que precisam para responder às necessidades do cidadão atual”, admite a OpenAI.

A empresa reconhece que há trabalho a fazer para apoiar e incentivar os criadores e diz que está empenhada nisso, mesmo sem considerar que a sua atividade viole as leis do copyright.

A OpenAi defende que, recorrer a conteúdos que estão publicamente disponíveis online para treinar os seus modelos de IA, cabe na doutrina de utilização legítima daqueles recursos. Sublinha ainda que já existem mecanismos para impedirem o GPT de aceder aos conteúdos de determinado site, que os editores podem usar. Também adianta que está a desenvolver novos mecanismos para facilitar esse bloqueio e a trabalhar com estes interlocutores em acordos que tragam benefícios para ambas as partes.

A OpenAI tem sido acusada de estar a desenvolver um negócio de milhões de dólares às custas de conteúdo protegido, sem remunerar adequadamente os seus autores. Já chegaram aos tribunais vários processos.

Um destes processos foi interposto pelo The New York Times (também visa a Microsoft) e foi um dos poucos a merecer um comentário direto da empresa. A OpenAI garante que até meados de dezembro manteve conversações com o NYT para uma parceria, que permitisse acesso aos conteúdos da publicação para treino do seu modelo de IA.

O NYT terá decidido avançar para tribunal sem aviso a meio desse processo. A empresa só descobriu quando leu a notícia no jornal. A OpenAI garante ainda que o NYT manipulou as perguntas feitas ao ChatGPT para obter respostas que ajudassem a provar a acusação e a evidenciar o recurso aos seus conteúdos.