Uma nova pesquisa revelou que Milhões de imagens sensíveisincluindo documentos de identidade, cartões de crédito e certidões de nascimento, estão presentes em Um dos maiores bancos de dados usados para treinar inteligência artificial (IAS) capazes de gerar imagens realistas.
O material faz parte do DataComp Commonpoolum repositório colossal formado por bilhões de imagens coletadas automaticamente na internet. A idéia era simples: alimentar os algoritmos com o máximo de conteúdo visual possível. Mas em meio a paisagens, objetos e rostos anônimos, os pesquisadores também encontraram arquivos delicados, como Passaportes, carteiras de motorista e fotos de pessoas identificáveis.
Em alguns casos, o conteúdo incluiu dados Ainda mais sensível. Mais de 800 currículos e cartas de apresentação foram rastreados para perfis reais em redes, como o LinkedIn. De acordo com os autores do estudo, este é apenas um recorte pequeno do total, que levanta um Alerta sério sobre o que exatamente está sendo usado para Ensine as máquinas para ver o mundo.
Um oceano de dados gratuitos e perigosos para o IAS usar
- Lançado em 2023, Datacomp Commonpool tornou -se O maior conjunto público de textos de imagem de pares já criadosreunindo impressionante 12,8 bilhões de amostras coletadas da Internet;
- Embora seus organizadores afirmem que o objetivo era acadêmicoa licença do projeto não impede o uso comercialque abre espaço para as empresas usarem este material sem grandes restrições;
- Commonpool foi desenvolvido como sucessor para Laion-5bum banco de dados semelhante que serviu como base para o treinamento de ferramentas populares, como o Difusão estável e Midjourney;
- Ambos se alimentam da mesma fonte: descarteu dados automaticamente da web pelo projeto Rastreamento comum entre 2014 e 2022. Isso significa que as falhas de privacidade encontradas agora, provavelmente, repita Em modelos anteriores e vários IAS já em uso.
Leia mais:
- Privacidade em risco? Aplicativos com IA Peça permissões excessivas
- Novo vazamento de dados ameaça a privacidade de milhões
- O Brasil é o sexto país com o maior vazamento de dados no mundo
Desde o seu lançamento, o Commonpool foi baixado mais do que dois milhões tempos, de acordo com os pesquisadores. Para Rachel Hong, estudante de doutorado em ciência da computação pela Universidade de Washington (EUA) e a principal autora do estudo, esse número indica que existe um grande quantidade De modelos derivados em todo o mundo, todos potencialmente carregando os mesmos riscos para a privacidade.

Privacidade em risco e leis do IAS ainda no século passado
O estudo também faz um Alerta direto para a comunidade de inteligência artificial: é hora de repensar a prática generalizada de coletar, automaticamente, Informações da Internet sem discrição. Os pesquisadores apontam que o uso maciço de dados pessoais em conjuntos, como o Commonpool, podem violar as leis de privacidade existentes, embora essas mesmas leis ainda tenham muitas brecha.
Na Europa e em alguns estados dos EUA, já existem regras destinadas a proteção de dados pessoal. No entanto, os Estados Unidos ainda não têm um Legislação federal unificadaO que torna os direitos de privacidade variam de acordo com a região.
Mesmo onde há algum tipo de regulamentação, muitas vezes não se aplica para projetos acadêmicos Nem protege dados classificados como “publicamente disponível“.
O problema é que esse conceito de “informação pública” pode ser errôneo. De acordo com os autores do estudo, conteúdo como currículos, fotos pessoais, números de documentos e até blogs de família, eles são tratados como dados gratuitosmesmo quando eles expõem informações privadas. Para os pesquisadores, o caso de Commonpool deve servir como alerta: O que está na internet não deve automaticamenteTorne -se combustível para máquinas.

A postagem do seu rosto, o número e o currículo do Seguro Social podem estar alimentando o IAS; Entender primeiro apareceu na aparência digital.