15.6 C
São Paulo
domingo, julho 27, 2025

Seu rosto, CPF e currículo podem estar alimentando IAs; entenda

TecnologiaSeu rosto, CPF e currículo podem estar alimentando IAs; entenda


Uma nova pesquisa revelou que Milhões de imagens sensíveisincluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em Um dos maiores bancos de dados usados para treinar inteligência artificial (IAS) capazes de gerar imagens realistas.

O material faz parte do DataComp Commonpoolum repositório colossal formado por bilhões de imagens coletadas automaticamente na internet. A idéia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas em meio a paisagens, objetos e rostos anônimos, os pesquisadores também encontraram arquivos delicados, como Passaportes, carteiras de motorista e fotos de pessoas identificáveis.

Um megbank de dados abertos, pronta para ser explorada – mesmo comercialmente (imagem: Jirsak/Shutterstock)

Em alguns casos, o conteúdo incluiu dados Ainda mais sensível. Mais de 800 currículos e cartas de apresentação foram rastreados para perfis reais em redes, como o LinkedIn. De acordo com os autores do estudo, este é apenas um recorte pequeno do total, que levanta um Alerta sério sobre o que exatamente está sendo usado para Ensine as máquinas para ver o mundo.

Um oceano de dados gratuitos e perigosos para o IAS usar

  • Lançado em 2023, Datacomp Commonpool tornou -se O maior conjunto público de textos de imagem de pares já criadosreunindo impressionante 12,8 bilhões de amostras coletadas da Internet;
  • Embora seus organizadores afirmem que o objetivo era acadêmicoa licença do projeto não impede o uso comercialque abre espaço para as empresas usarem este material sem grandes restrições;
  • Commonpool foi desenvolvido como sucessor para Laion-5bum banco de dados semelhante que serviu como base para o treinamento de ferramentas populares, como o Difusão estável e Midjourney;
  • Ambos se alimentam da mesma fonte: descarteu dados automaticamente da web pelo projeto Rastreamento comum entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, repita Em modelos anteriores e vários IAS já em uso.

Leia mais:

  • Privacidade em risco? Aplicativos com IA Peça permissões excessivas
  • Novo vazamento de dados ameaça a privacidade de milhões
  • O Brasil é o sexto país com o maior vazamento de dados no mundo

Desde o seu lançamento, o Commonpool foi baixado mais do que dois milhões tempos, de acordo com os pesquisadores. Para Rachel Hong, estudante de doutorado em ciência da computação pela Universidade de Washington (EUA) e a principal autora do estudo, esse número indica que existe um grande quantidade De modelos derivados em todo o mundo, todos potencialmente carregando os mesmos riscos para a privacidade.

Mulher com comprimido e símbolo holográfico de trava representava segurança cibernética
O que está na internet não deve ser combustível para máquinas (Imagem: Jacob Wackerhausen/Istock)

Privacidade em risco e leis do IAS ainda no século passado

O estudo também faz um Alerta direto para a comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, Informações da Internet sem discrição. Os pesquisadores apontam que o uso maciço de dados pessoais em conjuntos, como o Commonpool, podem violar as leis de privacidade existentes, embora essas mesmas leis ainda tenham muitas brecha.

Na Europa e em alguns estados dos EUA, já existem regras destinadas a proteção de dados pessoal. No entanto, os Estados Unidos ainda não têm um Legislação federal unificadaO que torna os direitos de privacidade variam de acordo com a região.

Mesmo onde há algum tipo de regulamentação, muitas vezes não se aplica para projetos acadêmicos Nem protege dados classificados como “publicamente disponível“.

O problema é que esse conceito de “informação pública” pode ser errôneo. De acordo com os autores do estudo, conteúdo como currículos, fotos pessoais, números de documentos e até blogs de família, eles são tratados como dados gratuitosmesmo quando eles expõem informações privadas. Para os pesquisadores, o caso de Commonpool deve servir como alerta: O que está na internet não deve automaticamenteTorne -se combustível para máquinas.

Pessoa presa um telefone celular
O problema é que esse conceito de “informação pública” pode ser errôneo (Imagem: Bons Facos/Unsplash)

A postagem do seu rosto, o número e o currículo do Seguro Social podem estar alimentando o IAS; Entender primeiro apareceu na aparência digital.



Olhar Digital

Check out our other content

Confira outras tags:

Artigos mais populares

Earn passive money with an ai blog.