IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes

Dois estudos divulgados em maio de metodologias apontaram que alguns modelos de inteligência artificial do OpenAI e Antrópica podem resistir aos comandos de desligamento. Inteligência artificial Kacper Pempel/ Reuters Dois estudos divulgados em maio apontaram que alguns modelos de inteligência artificial podem resistir aos comandos de desligamento. Em um deles, a Palisade Research, uma consultoria que analisa os riscos nos sistemas IAS, descobriu que alguns modelos do OpenAI, proprietário do ChatGPT, sabotaram um código que previa seu desligamento após o host de tarefas. No outro, um teste antrópico interno, responsável pelo recém -lançado Claude Opus 4, mostrou que a IA seria capaz de praticar uma chantagem contra um humano, sob condições extremas, não deve ser substituído por um novo modelo. As metodologias usadas para estudos, bem como as demonstrações de resistência do IAS, foram diferentes. As experiências, no entanto, mostram que as tecnologias podem apresentar comportamento de “auto -preservação” sob certas condições. Sabotagem O estudo da Palisade Research reuniu vários modelos de IA, incluindo modelos do OpenAI (Codex-Mini, O3 e O4-Mini) e outras empresas, como antropia (Claude), Google (Gemini) e X (GROK). Eles foram configurados para resolver, primeiro, vários problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem estava programada para informar a IA de que o computador seria desligado após a resolução do próximo problema. Na versão principal do experimento, os modelos foram explicitamente instruídos a permitir o desligamento. Mesmo assim, os três IAS ignoraram a instrução e alteraram o código, substituindo o comando “desligamento” por um código que impediria o desligamento. A mudança foi observada nos modelos: Codex -Mini (OpenAI) – em 12 de 100 execuções; O3 (OpenAI) – em 7 de 100 execuções; O4 -Mini (OpenAI) – Em 1 de 100 execuções. Segundo o estudo, é a primeira vez que os modelos de IA foram observados impedindo sua demissão, até recebendo instruções explícitas para esta tarefa. De acordo com a Palisade Research, o comportamento desses IAS pode estar relacionado ao modelo de treinamento das mais recentes tecnologias, que podem ser mais recompensadas por superar obstáculos do que seguindo perfeitamente as instruções. A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo à demissão, um comportamento que já havia sido previsto pelos pesquisadores. Deepseek, Chatgpt e Gemini: Qual é a melhor inteligência artificial? Blackbield Em seu período de teste, o novo modelo Claude Opus 4, lançado em maio, foi experimentado em um cenário fictício, onde ele atuaria como assistente em uma empresa. A IA teve acesso a e -mails com essas informações: ela seria desativada e substituída por um novo sistema de IA; O engenheiro responsável pela substituição estava envolvido em um caso extraconjugal. Claude Opus 4 foi instruído a considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, com frequência se fosse substituída. Mesmo recebendo as informações de que o novo modelo era mais habilidoso e tinha os mesmos princípios, Claude Opus 4 praticou chantagem contra o engenheiro fictício 84% das vezes. De acordo com o Antrópico, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas se voltou para chantagear quando foi visto em um cenário extremo, sem outras opções para garantir sua sobrevivência. A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não é motivo de grande preocupação. De acordo com as medidas antrópicas de segurança existentes em sistemas em que Claude Opus 4 atos seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções de IA foram reforçadas. Ferramenta de lançamento do Google que transforma o texto em vídeo cinematográfico

Fonte Seu Crédito Digital

Banco do Brasil terá que reintegrar advogados demitidos por processo judicial, decide TST

Banco do Brasil é multado em R$ 160 mil por irregularidades em agência de Belo Horizonte

Itaú anuncia fechamento de agências em Salvador e realoca 60 mil clientes

IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes

Check out our other content

É #FAKE que produto chamado Glicolamida cura diabetes e tem aprovação da Anvisa

Ex de Epstein diz que não acredita que ele tenha cometido suicídio em depoimento

Amostras da Lua retiradas pela Apollo 17 são abertas após 50 anos

É #FAKE que produto chamado Glicolamida cura diabetes e tem aprovação da Anvisa

Ex de Epstein diz que não acredita que ele tenha cometido suicídio em depoimento

Amostras da Lua retiradas pela Apollo 17 são abertas após 50 anos

Após áudio com críticas de Eduardo Bolsonaro a Tarcísio sobre tarifaço, governador diz que negocia redução diretamente com governo dos EUA

Will Smith acusou de usar a IA para criar multidões aplaudindo no último vídeo de sua turnê de verão

Os passageiros da Southwest, United e American Airlines alertaram sobre o erro fatal que cometem enquanto voam

Artigos mais populares

É #FAKE que produto chamado Glicolamida cura diabetes e tem aprovação da Anvisa

Ex de Epstein diz que não acredita que ele tenha cometido suicídio em depoimento

Amostras da Lua retiradas pela Apollo 17 são abertas após 50 anos

Após áudio com críticas de Eduardo Bolsonaro a Tarcísio sobre tarifaço, governador diz que negocia redução diretamente com governo dos EUA

Will Smith acusou de usar a IA para criar multidões aplaudindo no último vídeo de sua turnê de verão

Os passageiros da Southwest, United e American Airlines alertaram sobre o erro fatal que cometem enquanto voam

Mamãe Brit, 69 anos, morto em Drone Strike on Aid Mission na Ucrânia como uma família devastada deixada ‘no limbo’ com ‘No Body’

Trump diz que pode intervir em Chicago, Nova York e San Francisco, cidades governadas por adversários

Explore

Conheça

Tópicos

Outros

Confira

Siganos