A Wikipedia revela múltiplos acordos com gigantes da IA para usar o seu conteúdo

Decrypt

Resumo

  • A Fundação Wikimedia anunciou uma série de parcerias com empresas de IA para usar o seu conteúdo no treino de LLMs.
  • As empresas de IA assinaram para o seu produto Enterprise, para reutilização em larga escala do conteúdo da Wikipedia.
  • Em outubro do ano passado, a Fundação afirmou que as visitas ao site estavam a diminuir devido às pessoas utilizarem resumos de IA em vez de visitarem o site.

A Fundação Wikimedia anunciou uma série de novas parcerias com empresas de inteligência artificial que lhes permitirão usar o conteúdo da Wikipedia para treinar e impulsionar os seus modelos de IA, enquanto a organização sem fins lucrativos procura reforçar a sua sustentabilidade a longo prazo em meio a mudanças no comportamento online. Os acordos foram assinados através do Wikimedia Enterprise, o produto comercial da fundação desenhado para grandes reutilizadores e distribuidores de conteúdo dos projetos Wikimedia. Novos parceiros incluem Ecosia, Microsoft, Mistral AI, Perplexity, Pleias e ProRata. Eles juntam-se a parceiros existentes como Amazon, Google e Meta. “Na era da IA, a Wikipedia e o seu conhecimento criado e curado por humanos nunca foram tão valiosos,” afirmou a fundação numa declaração. “O seu conhecimento alimenta chatbots de IA generativa, motores de busca, assistentes de voz e mais. A Wikipedia é um dos conjuntos de dados de maior qualidade utilizados no treino de Modelos de Linguagem de Grande Escala.”

O anúncio foi feito como parte de uma atualização relacionada com o 25º aniversário da Wikipedia. A enciclopédia online está entre os dez sites mais visitados globalmente e é a única nesse grupo operada por uma organização sem fins lucrativos. Os seus mais de 65 milhões de artigos, publicados em mais de 300 línguas, são visualizados quase 15 mil milhões de vezes por mês, de acordo com a fundação. No entanto, alertou que os padrões de tráfego estão a mudar. Em outubro, afirmou que as visitas humanas à Wikipedia caíram 8% em relação ao ano anterior, atribuindo a diminuição à dependência dos utilizadores em resumos gerados por IA em vez de visitarem o site diretamente. Quase 60% das pesquisas no Google terminam agora sem clique, com respostas na página frequentemente alimentadas por conteúdo da Wikipedia. 

IA vs editores Os acordos surgem num debate mais amplo sobre como as empresas de IA obtêm os seus dados de treino. Os modelos de linguagem de grande escala são normalmente treinados com vastas quantidades de material online, uma prática que tem sido criticada por autores, editores e outros detentores de direitos que argumentam que o uso de obras protegidas por direitos de autor sem permissão constitui uma infração. Entre eles, o Reddit está envolvido em várias ações judiciais contra empresas de IA pelo uso do seu conteúdo para treinar modelos, embora tenha chegado a acordos de licenciamento com empresas como o Google. Na quinta-feira, os principais editores de livros Hachette Book Group e Cengage Group apresentaram um pedido para juntar-se a uma ação coletiva existente contra o Google, acusando a empresa de realizar “infringimento histórico de direitos de autor” para construir a sua plataforma de IA Gemini. A ação alega que o Google copiou livros sem licenças adequadas durante os seus processos de treino de IA. O processo foi inicialmente apresentado em 2023 por um grupo de autores. A OpenAI enfrenta um caso semelhante de reclamantes incluindo o escritor de “Game of Thrones” George R.R. Martin. Empresas de entretenimento também estão a pressionar a questão. Em meados de dezembro, a Disney enviou uma carta de cessar e desistir ao Google, acusando-o de infracção de direitos de autor, mesmo enquanto a Disney assinou um acordo de licenciamento separado com a OpenAI cobrindo centenas de personagens para vídeos gerados por IA. A Disney enviou avisos semelhantes a outras empresas de IA e está envolvida em litígios ao lado de grandes estúdios contra a empresa de geração de imagens Midjourney. No mesmo mês, uma coalizão de escritores, atores e tecnólogos lançou um novo grupo da indústria com o objetivo de promover padrões aplicáveis à forma como a IA é treinada e utilizada no setor do entretenimento. Mais de 500 figuras proeminentes apoiaram a iniciativa, incluindo Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro e Taika Waititi. A Comissão Europeia também abriu uma investigação antitruste formal para determinar se o Google violou as regras de concorrência da UE ao usar conteúdo de editores e do YouTube para alimentar os seus serviços de IA sem uma compensação justa ou consentimento. Se os detentores de direitos de autor encontrarão recurso no final, ainda não é certo. Juízes federais nos EUA recentemente concederam vitórias parciais à Meta e à Anthropic, decidindo que o uso de livros protegidos por direitos de autor para treinar modelos de IA constitui uso justo, embora tenham criticado as empresas por manterem bibliotecas permanentes de obras piratas.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário