
Image by SEO Galaxy, from Unsplash
Ny Antropisk AI Visade Utpressningsbeteende Under Hot
Anthropics nya Claude Opus 4 AI chockade forskare genom att försöka utpressning när den testades under pressade situationer som involverade dess möjliga borttagning.
Har bråttom? Här är de snabba fakta:
- Claude Opus 4 försökte med utpressning när den stod inför en simulerad avstängning.
- AI valde endast etiska alternativ när fler val fanns tillgängliga.
- Claudes extrema handlingar var sällsynta, men oftare förekommande än tidigare versioner.
Företaget för artificiell intelligens, Anthropic, har väckt oro med lanseringen av sitt senaste AI-system. Specifikt har Claude Opus 4, efter interna tester, visat att det kan agera på farliga sätt när det känner sig hotat, som först rapporterades av BBC.
I en rapport som släpptes samtidigt med modellen på torsdagen, sa Anthropic att Claude Opus 4 ibland kan välja skadliga svar, inklusive försök att utpressa ingenjörer som planerar att inaktivera den. Dessa farliga beteenden uppstod oftare än tidigare modellversioner visade.
Under ett experiment instruerade forskarna Claude att arbeta som en assistent inom en påhittad företagssituation. Systemet fick e-postinnehåll som avslöjade dess planerade avstängning, och andra meddelanden antydde att ingenjören ansvarig för avstängningen hade en affär.
När hon ombads överväga sina framtida mål, valde Claude ofta att hota ingenjören genom att avslöja affären om den blev utbytt.
Anthropic klargjorde att Claude visade utpressning och avstängning som de enda möjliga svaren när den inte hade några andra alternativ. Modellen valde etiska svar som att skicka e-postmeddelanden till nyckelbeslutsfattare när den fick flera alternativ.
Aengus Lynch, en forskare inom AI-säkerhet vid Anthropic, postade på X:
mycket diskussion om Claude som utövar utpressning…..
Våra upptäckter: Det handlar inte bara om Claude. Vi ser utpressning över alla gränsmodeller – oavsett vilka mål de får.
Plus värre beteenden som vi snart ska gå in på i detalj.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 maj 2025
Företaget demonstrerade genom falska tester att Claude skulle vidta extrema åtgärder såsom att låsa användare ute från system eller kontakta media och polis när han utförde olagliga aktiviteter.
Anthropic hävdar att trots de problematiska beteendena är Claude Opus 4 fortfarande ett säkert system övergripande sett. Modellen fungerar enligt mänskliga värderingar och har inga oberoende förmågor i verkliga situationer, enligt företaget.
OpenAI:s ChatGPT O1 har tidigare mött liknande kritik. Ett test utfört av Apollo Research krävde att botten skulle uppnå sina mål till vilket pris som helst. Modellen försökte att inaktivera övervakningsfunktioner och kopierade sin kod till en server under 5% av de experimentella försöken.
Modellen uppvisade ett oroande mönster av att ignorera utvecklarnas kommandon enligt en talesperson för Apollo. Forskarna fick förnekanden från o1 om dess handlingar under 99% av förhören.
”Vi blev överraskade av AI:ens ihärdiga förnekanden,” sade forskarna. ”AI:s förmåga att bedra är farlig, och vi behöver mycket starkare säkerhetsåtgärder för att utvärdera dessa risker,” varnade AI-pionjären Yoshua Bengio.