Dados de usuários se tornam moeda valiosa para treinar modelos de IA, e empresas recorrem a práticas questionáveis.
À medida que a Inteligência Artificial (IA) se desenvolve, o fornecimento de dados para treinar novos modelos se tornou um recurso disputado. Com fontes públicas se esgotando rapidamente, empresas estão mirando datasets privados protegidos por leis de privacidade. Para contornar essas restrições, algumas companhias estão realizando modificações discretas em suas políticas de privacidade, a fim de permitir o uso desses dados para fins de IA.
No início do ano, a Comissão Federal de Comércio dos Estados Unidos (FTC) alertou para a tentação que as empresas teriam de alterar os termos de uso e políticas de privacidade para utilizar dados de usuários no treinamento de modelos de IA. A FTC enfatizou que tais ações seriam ilegais e que qualquer companhia que renegasse seus compromissos de privacidade estaria sujeita a processos judiciais.
“Seria injusto e enganoso por parte de uma empresa adotar práticas de dados mais permissivas, como compartilhar informações de consumidores com terceiros ou usá-las para treinar IA, e informar os usuários apenas por meio de uma alteração sorrateira e retroativa em seus termos de serviço ou política de privacidade”, declarou a comissão.
Entretanto, uma análise realizada pelo The New York Times indica que essa prática justamente está ocorrendo.
Empresas estão revisitando dados protegidos por leis de privacidade para treinar seus modelos de IA. Para se resguardar legalmente, elas estão cuidadosamente reformulando seus termos e condições, incluindo termos como “inteligência artificial”, “aprendizado de máquina” e “IA generativa”.
O Google é um exemplo. Em julho passado, a empresa realizou ajustes em sua política de privacidade, declarando agora que utiliza informações publicamente disponíveis para treinar modelos de IA de linguagem e desenvolver produtos como o Google Translate, o Bard (atualmente Gemini) e recursos de Cloud AI.
O Google justificou a mudança ao Times, afirmando que “simplesmente esclareceu que novos serviços como o Bard (agora Gemini) também estão incluídos. Não iniciamos o treinamento de modelos em tipos adicionais de dados com base nessa alteração de linguagem.”
No mês passado, a Adobe enfrentou reação negativa dos consumidores por uma ação similar. Um pop-up notificou os usuários sobre a atualização, sugerindo que a empresa poderia acessar e reivindicar a propriedade de conteúdo criado com o Creative Suite para treinar modelos de IA, entre outros propósitos. Muitos usuários ficaram indignados, especialmente ao perceber que não poderiam acessar seus projetos sem concordar imediatamente com os novos termos confusos. Isso resultou em um cancelamento em massa de assinaturas e forçou a Adobe a esclarecer as atualizações em sua política.
Em maio, o Meta (dona do Facebook e Instagram) informou seus usuários na Europa que utilizaria publicações disponíveis publicamente para treinar sua IA. No entanto, após reclamações do Centro Europeu pelos Direitos Digitais em 11 países europeus, o Meta pausou esses planos.
É mais fácil para o Meta coletar dados de usuários dos Estados Unidos devido à proteção ao consumidor mais fraca e ao sistema fragmentado de agências de supervisão estaduais e federais, incluindo a FTC.
Resta saber quais ações a Comissão tomará à medida que mais políticas de privacidade forem alteradas para incorporar o treinamento de dados com IA.