Nova indústria cinzenta: milhares de pessoas em todo o mundo estão a vender a sua formação em IA, mas qual é o preço?

CryptoCity

Milhares de pessoas em todo o mundo estão vendendo suas vozes, imagens e gravações de chamadas para alimentar a IA em troca de receita, mas assumem o risco de falsificações profundas e autorizações irreversíveis.

Leitura recomendada: Uma investigação do The Guardian revelou uma indústria cinzenta em rápida expansão: milhares de pessoas em todo o mundo estão ganhando dinheiro vendendo suas vozes, rostos, gravações de chamadas e vídeos do dia a dia para financiar o treinamento de IA. Esta não é uma discussão genérica sobre privacidade, mas uma investigação com pessoas reais, valores reais e consequências reais - um ator que vendeu seu rosto viu mais tarde “ele mesmo” promovendo um produto médico desconhecido no Instagram, com comentários avaliando sua “aparência”. À medida que a sede de dados das empresas de IA se combina com a disparidade econômica global, está criando uma transação desigual.

O texto completo é o seguinte:

Na manhã de um dia do ano passado, Jacobus Louw, que vive na Cidade do Cabo, na África do Sul, saiu para dar uma caminhada como de costume, alimentando as gaivotas ao longo do caminho. Mas desta vez, ele gravou alguns vídeos - filmando seus passos e a vista enquanto caminhava na calçada. Esses vídeos lhe renderam 14 dólares, cerca de 10 vezes o salário mínimo do país, e equivalem ao custo de alimentação deste jovem de 27 anos por meio período da semana.

Esta foi uma tarefa de “navegação urbana” que Louw completou na Kled AI. Kled AI é um aplicativo que paga os usuários para enviar fotos, vídeos e outros dados para treinar modelos de IA. Em poucas semanas, Louw ganhou 50 dólares ao enviar fotos e vídeos do seu dia a dia.

A milhares de milhas de distância, em Ranchi, Índia, o estudante de 22 anos Sahil Tigga ganha dinheiro regularmente com o Silencio - um aplicativo que crowdsouce dados de áudio para treinamento de IA, acessando o microfone de seu celular para coletar ruídos ambientais de restaurantes ou cruzamentos movimentados. Ele também envia gravações de sua própria voz. Sahil faz questão de ir a cenários únicos, como saguões de hotéis que ainda não estão mapeados no Silencio. Ele ganha mais de 100 dólares por mês, o suficiente para cobrir todas as suas despesas com alimentação.

Em Chicago, o aprendiz de soldagem de 18 anos Ramelio Hill vendeu suas conversas privadas por telefone com amigos e familiares para a Neon Mobile - uma plataforma de treinamento de IA conversacional que paga 0,50 dólares por minuto - e ganhou centenas de dólares. Para Hill, a conta é simples: ele acredita que as empresas de tecnologia já possuem uma grande quantidade de seus dados pessoais, então por que não lucrar com isso.

Esses “trabalhos temporários de treinamento de IA” - que envolvem o envio de cenas ao redor, fotos próprias, vídeos e áudios - estão na linha de frente de uma nova corrida global por dados. À medida que o Vale do Silício se torna cada vez mais sedento por dados humanos de alta qualidade que vão além do que pode ser capturado na web aberta, uma indústria de mercado de dados em crescimento surgiu para preencher essa lacuna. De Cape Town a Chicago, milhares de pessoas estão concedendo microautorizações de suas identidades biométricas e dados pessoais à próxima geração de IA.

Mas essa nova economia de trabalho temporário vem com um custo. O que custa alguns dólares está alimentando uma indústria que pode, eventualmente, tornar suas habilidades obsoletas, expondo-os a riscos futuros de falsificações profundas, roubo de identidade e exploração digital - e eles estão apenas começando a entender isso.

Mantendo as engrenagens de IA em movimento

Modelos de linguagem de IA, como ChatGPT e Gemini, precisam de uma enorme quantidade de material de aprendizado para continuar a melhorar, mas estão enfrentando uma escassez de dados. As fontes de dados de treinamento mais utilizadas - C4, RefinedWeb e Dolma - representam um quarto dos conjuntos de dados de mais alta qualidade da internet, e agora estão limitando as empresas de IA generativa no uso de seus dados para treinar modelos. Pesquisadores estimam que as empresas de IA rapidamente ficarão sem textos novos e de alta qualidade disponíveis até 2026. Apesar de alguns laboratórios já terem começado a reabastecer seus treinamentos com dados sintéticos gerados pela própria IA, esse processo recursivo pode levar a modelos que produzem “lixo” cheio de erros, resultando em colapsos.

Fonte da imagem: The Guardian

Aplicativos como Kled AI e Silencio estão aqui para ajudar. Nestes mercados de dados, milhões de pessoas estão alimentando e treinando a IA ao vender seus dados de identidade. Além da Kled AI, Silencio e Neon Mobile, há muitas outras opções para os treinadores de IA: a Luel AI, apoiada pelo famoso incubador Y-Combinator, obtém material de diálogos multilíngues por cerca de 0,15 dólares por minuto; a ElevenLabs permite que você clone digitalmente sua própria voz e a disponibilize para outros a uma taxa básica de 0,02 dólares por minuto.

Bouke Klein Teeselink, professor de economia do King’s College London, afirma que os trabalhos temporários de treinamento de IA são uma nova categoria de trabalho que crescerá significativamente.

As empresas de IA sabem que pagar às pessoas por direitos de uso de dados ajuda a evitar disputas de direitos autorais que podem surgir da dependência total do conteúdo capturado na web, diz Teeselink. O pesquisador de IA Veniamin Veselovsky afirma que essas empresas também precisam de dados de alta qualidade para modelar novos comportamentos aprimorados do sistema. “Atualmente, os dados humanos são o padrão de ouro para amostragem fora da distribuição do modelo”, acrescenta Veselovsky.

Os humanos que operam essas máquinas - especialmente aqueles de países em desenvolvimento - muitas vezes precisam desse dinheiro e praticamente não têm opções. Para muitos trabalhadores temporários de treinamento de IA, fazer esse trabalho é uma resposta pragmática à disparidade econômica. Em países com altas taxas de desemprego e desvalorização de moeda local, ganhar dólares muitas vezes é mais estável e lucrativo do que um trabalho local. Algumas pessoas têm dificuldade em encontrar empregos de nível inicial e precisam fazer treinamento de IA para sobreviver. Mesmo em países mais ricos, o aumento do custo de vida tornou a venda de si mesmo uma opção financeira lógica.

O treinador de IA Louw, na Cidade do Cabo, está plenamente consciente do custo em termos de privacidade. Embora sua renda seja instável e não cubra todas as suas despesas mensais, ele está disposto a aceitar essas condições para ganhar dinheiro. Ele sofre de uma doença do sistema nervoso há anos e não conseguiu encontrar trabalho, mas o dinheiro que ganhou no mercado de dados de IA (incluindo Kled AI) lhe permitiu economizar 500 dólares para se matricular em um curso de treinamento de spa e se tornar massagista.

“Como sul-africano, receber dólares vale mais do que as pessoas imaginam”, diz Louw.

Mark Graham, professor de geografia da internet da Universidade de Oxford e autor do livro “Feeding the Machine”, admite que, para indivíduos em países em desenvolvimento, esse dinheiro pode ter significado prático a curto prazo, mas ele alerta que “estruturalmente, esse trabalho é instável, sem oportunidades de avanço, e na verdade é um beco sem saída”.

Graham acrescenta que o mercado de dados de IA depende de “uma corrida para baixo nos salários” e “uma demanda temporária por dados humanos”. Uma vez que essa demanda se desloque, “os trabalhadores não terão garantias, habilidades transferíveis ou uma rede de segurança”.

Graham afirma que o único vencedor é “as plataformas do hemisfério norte, que capturam todo o valor duradouro”.

Fonte da imagem: The Guardian

Autorização total

O treinador de IA Hill, de Chicago, tem sentimentos mistos sobre vender suas chamadas pessoais para a Neon Mobile. Cerca de 11 horas de conteúdo de chamadas renderam-lhe 200 dólares, mas ele diz que o aplicativo frequentemente sai do ar e atrasa os pagamentos. “A Neon sempre me pareceu suspeita, mas continuei usando, apenas para ganhar um pouco de dinheiro extra para pagar as contas”, diz Hill.

Agora, ele começa a reconsiderar se esse dinheiro era realmente tão fácil de ganhar. Em setembro do ano passado, poucas semanas após o lançamento da Neon Mobile, o aplicativo saiu do ar, após o TechCrunch descobrir uma falha de segurança que permitia a qualquer pessoa acessar os números de telefone, gravações de chamadas e registros de mensagens dos usuários. Hill diz que a Neon Mobile nunca o notificou sobre isso e agora ele está preocupado que sua voz seja abusada na internet.

Jennifer King, pesquisadora de privacidade de dados no Instituto de Inteligência Artificial Centrada no Humano da Universidade de Stanford, está preocupada com o fato de que o mercado de dados de IA não deixa claro como e onde os dados dos usuários serão utilizados. Ela acrescenta que, sem entender seus direitos e sem conseguir negociar a respeito, “os consumidores enfrentam o risco de que seus dados sejam reutilizados de maneiras que não gostam, não compreendem ou não previram, e, quando isso acontecer, haverá quase nenhum recurso”.

Quando os treinadores de IA compartilham dados na Neon Mobile e Kled AI, eles concedem uma licença total (global, exclusiva, irreversível, transferível e isenta de royalties), permitindo que a plataforma venda, use, exiba publicamente e armazene suas imagens, e até crie obras derivadas a partir delas.

Avi Patel, fundador da Kled AI, afirma que o acordo de dados da sua empresa limita o uso à formação e à pesquisa de IA. “Todo o modelo de negócios depende da confiança do usuário. Se os contribuintes acreditarem que seus dados podem ser mal utilizados, a plataforma não funcionará.” Ele afirma que a empresa revisa os compradores antes de vender conjuntos de dados, evitando colaborar com “instituições de intenções suspeitas”, como a indústria do sexo, e “agências governamentais” que, em sua avaliação, possam usar os dados de maneira contrária a essa confiança.

A Neon Mobile não respondeu ao pedido de comentários.

Enrico Bonadio, professor de direito da Universidade de St. George em Londres, observa que os termos desses acordos permitem que as plataformas e seus clientes “façam praticamente qualquer coisa com esse material, de forma permanente, sem pagamento adicional, e os contribuintes não têm realmente como retirar seu consentimento ou renegociar”.

Os riscos mais preocupantes incluem: os dados dos treinadores sendo utilizados para criar falsificações profundas e impersonificação. Embora o mercado de dados afirme que desidentificará informações de identificação dos dados (como nomes e locais) antes da venda, a natureza dos dados biométricos torna praticamente impossível realizar uma anonimização significativa, acrescenta Bonadio.

O arrependimento dos vendedores

Mesmo que os treinadores de IA possam negociar termos de proteção mais detalhados sobre o uso de dados, eles ainda podem se arrepender. Em 2024, o ator Adam Coy, de Nova York, vendeu sua imagem para a Captions - um software de edição de vídeo de IA, atualmente renomeado para Mirage - por 1000 dólares. Seu acordo estipulava que sua identidade não seria usada para quaisquer fins políticos, não seria usada para promover álcool, tabaco ou conteúdo pornográfico, e que a autorização tinha um prazo de um ano.

A Captions não respondeu ao pedido de comentários.

Logo depois, os amigos de Adam começaram a compartilhar vídeos que encontraram online, nos quais sua imagem e voz eram utilizadas, acumulando milhões de visualizações. Em um dos vídeos do Instagram, o clone de IA de Adam se autodenomina “médico de vagina”, promovendo suplementos médicos não comprovados para mulheres grávidas e pós-parto.

“Explicar isso para os outros me deixa envergonhado”, diz Coy.

“O setor de comentários é estranho, porque eles estão avaliando minha aparência, mas não sou eu”, acrescenta Coy. “Quando tomei a decisão (de vender a imagem), meu pensamento era que muitos modelos estariam coletando dados e imagens online de qualquer maneira, então por que não ser pago por isso.”

Coy diz que não aceitou mais nenhum trabalho temporário com dados de IA desde então. Ele afirma que só consideraria fazê-lo novamente se uma empresa oferecesse uma compensação significativa.

  • Este artigo foi reproduzido com permissão de: 深潮 TechFlow
  • Título original: “Thousands of people are selling their identities to train AI – but at what cost?”
  • Autor original: Shubham Agarwal, The Guardian
  • Tradução: 深潮 TechFlow
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário