plus
plus

Edição do dia

Leia a edição completa grátis
Edição do Dia
Previsão do Tempo 25°
cotação atual R$


home
INTELIGÊNCIA ESTELIONATÁRIA

Empresas de IA usaram cópias piratas de livros de Paulo Coelho, Clarice e Chico

Meta, Microsoft e Anthropic teriam usado obras de Clarice Lispector, Paulo Coelho e Chico Buarque para treinar modelos de inteligência artificial

twitter Google News
Imagem ilustrativa da notícia Empresas de IA usaram cópias piratas de livros de Paulo Coelho, Clarice e Chico camera As empresas de IA americanas têm argumentado que pegar livros para desenvolver chatbots é "uso justo", quando não é preciso pagar | Reprodução

Alvos de processos na Justiça dos Estados Unidos, pelo menos três empresas de inteligência artificial americanas usaram livros de Clarice Lispector, Chico Buarque, Paulo Coelho e outros autores brasileiros para treinar seus modelos de inteligência artificial sem pedir autorização, sem pagar por isso --e apelando a cópias piratas disponíveis na internet.

As empresas são a Meta, que usou as obras para treinar o modelo LLaMa; a Anthropic, que fez o mesmo no desenvolvimento do chatbot Claude; e a Microsoft, no treino do Megatron-Turing. As três companhias usaram uma base de dados chamada Books3, que reúne quase 200 mil cópias ilegais de livros.

Procuradas, Meta, Anthropic e Microsoft disseram que não iam comentar o caso. As empresas de IA americanas têm argumentado que pegar livros para desenvolver chatbots é "uso justo", quando não é preciso pagar; elas defendem que os robôs não reproduzem conteúdo das obras e sim entregam algo transformado, como um humano faria. Elas também pleiteiam uma leitura dos direitos autorais mais permissiva, que não freie a inovação no setor.

A Folha fez o download dos metadados da Books3 e encontrou 109 obras, de 31 autores brasileiros, em sete idiomas. Além de Clarice, Chico e Paulo Coelho, também há livros de Raduan Nassar, Jorge Amado e Rubem Fonseca, além de autores contemporâneos como Daniel Galera e Bernardo Carvalho.

A reportagem baixou a base de dados da plataforma Hugging Face. Em seguida, confirmou a integridade da cópia com informações fornecidas em relatório pela EleutherAI, grupo de pesquisa sem fins lucrativos que primeiro descreveu a Books3 publicamente.

Além disso, o pesquisador responsável à época divulgou que o repositório continha todos os 196.400 livros de uma biblioteca pirata --número que bate com o repositório encontrado pela Folha.

Conteúdo relacionado:

Paulo Coelho é o mais pirateado de todos, com 31 livros na base de dados, a maioria com traduções para o inglês, com obras como "O Alquimista" e "O Diário de um Mago". Em segundo lugar vem Clarice Lispector, com uma variedade maior de idiomas: há não só edições em inglês de "Perto do Coração Selvagem" e "A Paixão Segundo G.H.", mas também as versões em sueco e italiano desses mesmos livros, por exemplo.

A lista continua com Jorge Amado, Paulo Freire, Rubem Fonseca, Raduan Nassar e João Cabral de Melo Neto, entre outros. Machado de Assis e Euclides da Cunha são os únicos autores em domínio público --mas as traduções costumam contar com proteção de copyrights.

Há poucos livros nacionais em português, 21 no total, de 18 editoras brasileiras. O número pode ser maior porque só 129 mil arquivos tinham um ISBN, espécie de CPF que permite identificar uma edição.

Livros, roteiros, reportagens de jornais e artigos acadêmicos são valiosos para treinar modelos de linguagem, já que os chatbots se beneficiam do acesso a textos com escrita elaborada e argumentos complexos.

A Books3, por exemplo, tem um comentário sobre a qualidade do texto e uma nota de 0 a 10 como referência para o algoritmo. "O Alienista", de Machado de Assis, recebe nota oito por sua "narrativa instigante e bem-escrita", enquanto "A Hora da Estrela", de Clarice, um nove por, além disso, ter tradução clara para o inglês.

Relatórios técnicos sobre o desenvolvimento dos modelos de inteligência artificial de Meta e Microsoft confirmam o uso da base pirata. Em ambos os casos, os pesquisadores deram à Books3 alto peso no treinamento dos robôs.

Quer mais notícias internacionais? Acesse o nosso canal no WhatsApp

Já no caso da Anthropic, o uso da Books3 e outras bibliotecas piratas está documentado no processo que autores movem contra a empresa pelo uso de seus livros em autorização. "Não há dúvidas de que a Anthropic fez o download de 196.640 arquivos da Books3", escreve o juiz William Alsup, da Justiça da Califórnia, na decisão em que transformou o caso em uma ação coletiva.

O uso de conteúdo proprietário sem autorização é denunciado em diversas ações na Justiça americana. Mas os casos da Meta --ao qual o da Microsoft foi incorporado-- e o da Anthropic estão entre os mais rumorosos.

O primeiro teve uma decisão inicial favorável à big tech em junho, quando a Justiça decidiu que empregar os livros sem autorização era "uso justo" --quando é permitido usar o conteúdo sem pagar. O caso ainda está em curso, e o juiz ainda vai deliberar sobre a pirataria.

Os autores também reclamam que as big techs se apropriam dos seus livros para criar ferramentas que depois vão competir com eles. O juiz do processo acha esse o ponto mais importante, com o risco de que a IA diminua o valor dos livros ao inundar o mercado com obras sintéticas --mas diz que os autores da ação não apresentaram dados que provem essa tese.

Os últimos emails de executivos entregues pela Meta à Justiça mostram que a empresa trabalha em um modelo de licenciamento e avalia quanto vai oferecer aos autores.

O caso da Anthropic se tornou o mais rumoroso, pelo potencial de falir a empresa com indenizações que poderiam chegar a US$ 1 trilhão (R$ 5,4 trilhões). Além da Books3, a companhia baixou milhões de livros de duas bibliotecas piratas --5 milhões da Library Genesis e outros 2 milhões de uma chamada PiLiMi. Por isso, o juiz marcou para dezembro um julgamento a fim de estabelecer indenizações.

É a partir desse conjunto de cerca de 7 milhões de arquivos que vai se produzir, até o dia 1º de setembro, uma lista oficial de quem tem direito a reparação. O juiz achou que, com a Books3, seria mais difícil identificar a edição de cada obra --e disse que os autores não deram uma solução para automatizar a checagem.

Em um depoimento no dia 21 de agosto, Benjamin Mann, um dos fundadores da companhia, disse que chegou à conclusão de que usar as bibliotecas piratas era "uso justo" quando trabalhava na OpenAI. E falou que, em 2019, fez download pessoalmente de livros do Libgen para treinar modelos.

Na terça-feira (26), a empresa comunicou a Justiça que chegou a um acordo com os autores do processo original, mas não divulgou detalhes da negociação. Agora, o juiz do caso precisa avaliar se o pacto atende de forma satisfatória os interesses da classe de escritores e validá-lo.

As empresas de IA americanas acompanham tudo com a respiração presa. Afinal, várias outras companhias são alvos de cobrança na Justiça por usar conteúdo proprietário sem autorização e também ensinar robôs com pirataria.

Emails da Meta no processo judicial, por exemplo, indicam que a empresa também recorreu à Library Genesis ao desenvolver o Llama e ocultou evidências desse uso. O temor de todas é serem as próximas a ter que botar a mão no bolso para compensar os donos de livros, artigos, filmes e músicas que usaram.

VEM SEGUIR OS CANAIS DO DOL!

Seja sempre o primeiro a ficar bem informado, entre no nosso canal de notícias no WhatsApp e Telegram. Para mais informações sobre os canais do WhatsApp e seguir outros canais do DOL. Acesse: dol.com.br/n/828815.

tags

Quer receber mais notícias como essa?

Cadastre seu email e comece o dia com as notícias selecionadas pelo nosso editor

Conteúdo Relacionado

0 Comentário(s)

plus

    Mais em Mundo Notícias

    Leia mais notícias de Mundo Notícias. Clique aqui!

    Últimas Notícias