A Fundação Wikimedia anunciou uma série de novas parcerias com empresas de inteligência artificial que lhes permitirão usar o conteúdo da Wikipedia para treinar e impulsionar os seus modelos de IA, enquanto a organização sem fins lucrativos procura reforçar a sua sustentabilidade a longo prazo em meio a mudanças no comportamento online. Os acordos foram assinados através do Wikimedia Enterprise, o produto comercial da fundação desenhado para grandes reutilizadores e distribuidores de conteúdo dos projetos Wikimedia. Novos parceiros incluem Ecosia, Microsoft, Mistral AI, Perplexity, Pleias e ProRata. Eles juntam-se a parceiros existentes como Amazon, Google e Meta. “Na era da IA, a Wikipedia e o seu conhecimento criado e curado por humanos nunca foram tão valiosos,” afirmou a fundação numa declaração. “O seu conhecimento alimenta chatbots de IA generativa, motores de busca, assistentes de voz e mais. A Wikipedia é um dos conjuntos de dados de maior qualidade utilizados no treino de Modelos de Linguagem de Grande Escala.”
O anúncio foi feito como parte de uma atualização relacionada com o 25º aniversário da Wikipedia. A enciclopédia online está entre os dez sites mais visitados globalmente e é a única nesse grupo operada por uma organização sem fins lucrativos. Os seus mais de 65 milhões de artigos, publicados em mais de 300 línguas, são visualizados quase 15 mil milhões de vezes por mês, de acordo com a fundação. No entanto, alertou que os padrões de tráfego estão a mudar. Em outubro, afirmou que as visitas humanas à Wikipedia caíram 8% em relação ao ano anterior, atribuindo a diminuição à dependência dos utilizadores em resumos gerados por IA em vez de visitarem o site diretamente. Quase 60% das pesquisas no Google terminam agora sem clique, com respostas na página frequentemente alimentadas por conteúdo da Wikipedia.
IA vs editores Os acordos surgem num debate mais amplo sobre como as empresas de IA obtêm os seus dados de treino. Os modelos de linguagem de grande escala são normalmente treinados com vastas quantidades de material online, uma prática que tem sido criticada por autores, editores e outros detentores de direitos que argumentam que o uso de obras protegidas por direitos de autor sem permissão constitui uma infração. Entre eles, o Reddit está envolvido em várias ações judiciais contra empresas de IA pelo uso do seu conteúdo para treinar modelos, embora tenha chegado a acordos de licenciamento com empresas como o Google. Na quinta-feira, os principais editores de livros Hachette Book Group e Cengage Group apresentaram um pedido para juntar-se a uma ação coletiva existente contra o Google, acusando a empresa de realizar “infringimento histórico de direitos de autor” para construir a sua plataforma de IA Gemini. A ação alega que o Google copiou livros sem licenças adequadas durante os seus processos de treino de IA. O processo foi inicialmente apresentado em 2023 por um grupo de autores. A OpenAI enfrenta um caso semelhante de reclamantes incluindo o escritor de “Game of Thrones” George R.R. Martin. Empresas de entretenimento também estão a pressionar a questão. Em meados de dezembro, a Disney enviou uma carta de cessar e desistir ao Google, acusando-o de infracção de direitos de autor, mesmo enquanto a Disney assinou um acordo de licenciamento separado com a OpenAI cobrindo centenas de personagens para vídeos gerados por IA. A Disney enviou avisos semelhantes a outras empresas de IA e está envolvida em litígios ao lado de grandes estúdios contra a empresa de geração de imagens Midjourney. No mesmo mês, uma coalizão de escritores, atores e tecnólogos lançou um novo grupo da indústria com o objetivo de promover padrões aplicáveis à forma como a IA é treinada e utilizada no setor do entretenimento. Mais de 500 figuras proeminentes apoiaram a iniciativa, incluindo Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro e Taika Waititi. A Comissão Europeia também abriu uma investigação antitruste formal para determinar se o Google violou as regras de concorrência da UE ao usar conteúdo de editores e do YouTube para alimentar os seus serviços de IA sem uma compensação justa ou consentimento. Se os detentores de direitos de autor encontrarão recurso no final, ainda não é certo. Juízes federais nos EUA recentemente concederam vitórias parciais à Meta e à Anthropic, decidindo que o uso de livros protegidos por direitos de autor para treinar modelos de IA constitui uso justo, embora tenham criticado as empresas por manterem bibliotecas permanentes de obras piratas.