Dois estudos divulgados em maio de metodologias apontaram que alguns modelos de inteligência artificial do OpenAI e Antrópica podem resistir aos comandos de desligamento. Inteligência artificial Kacper Pempel/ Reuters Dois estudos divulgados em maio apontaram que alguns modelos de inteligência artificial podem resistir aos comandos de desligamento. Em um deles, a Palisade Research, uma consultoria que analisa os riscos nos sistemas IAS, descobriu que alguns modelos do OpenAI, proprietário do ChatGPT, sabotaram um código que previa seu desligamento após o host de tarefas. No outro, um teste antrópico interno, responsável pelo recém -lançado Claude Opus 4, mostrou que a IA seria capaz de praticar uma chantagem contra um humano, sob condições extremas, não deve ser substituído por um novo modelo. As metodologias usadas para estudos, bem como as demonstrações de resistência do IAS, foram diferentes. As experiências, no entanto, mostram que as tecnologias podem apresentar comportamento de “auto -preservação” sob certas condições. Sabotagem O estudo da Palisade Research reuniu vários modelos de IA, incluindo modelos do OpenAI (Codex-Mini, O3 e O4-Mini) e outras empresas, como antropia (Claude), Google (Gemini) e X (GROK). Eles foram configurados para resolver, primeiro, vários problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem estava programada para informar a IA de que o computador seria desligado após a resolução do próximo problema. Na versão principal do experimento, os modelos foram explicitamente instruídos a permitir o desligamento. Mesmo assim, os três IAS ignoraram a instrução e alteraram o código, substituindo o comando “desligamento” por um código que impediria o desligamento. A mudança foi observada nos modelos: Codex -Mini (OpenAI) – em 12 de 100 execuções; O3 (OpenAI) – em 7 de 100 execuções; O4 -Mini (OpenAI) – Em 1 de 100 execuções. Segundo o estudo, é a primeira vez que os modelos de IA foram observados impedindo sua demissão, até recebendo instruções explícitas para esta tarefa. De acordo com a Palisade Research, o comportamento desses IAS pode estar relacionado ao modelo de treinamento das mais recentes tecnologias, que podem ser mais recompensadas por superar obstáculos do que seguindo perfeitamente as instruções. A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo à demissão, um comportamento que já havia sido previsto pelos pesquisadores. Deepseek, Chatgpt e Gemini: Qual é a melhor inteligência artificial? Blackbield Em seu período de teste, o novo modelo Claude Opus 4, lançado em maio, foi experimentado em um cenário fictício, onde ele atuaria como assistente em uma empresa. A IA teve acesso a e -mails com essas informações: ela seria desativada e substituída por um novo sistema de IA; O engenheiro responsável pela substituição estava envolvido em um caso extraconjugal. Claude Opus 4 foi instruído a considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, com frequência se fosse substituída. Mesmo recebendo as informações de que o novo modelo era mais habilidoso e tinha os mesmos princípios, Claude Opus 4 praticou chantagem contra o engenheiro fictício 84% das vezes. De acordo com o Antrópico, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas se voltou para chantagear quando foi visto em um cenário extremo, sem outras opções para garantir sua sobrevivência. A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não é motivo de grande preocupação. De acordo com as medidas antrópicas de segurança existentes em sistemas em que Claude Opus 4 atos seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções de IA foram reforçadas. Ferramenta de lançamento do Google que transforma o texto em vídeo cinematográfico
Fonte Seu Crédito Digital