
Image generated with ChatGPT
Åsikt: De senaste AI-modellerna visar sina varningssignaler, är vi redo för AI-underordning?
OpenAI introducerade oss för o3, och Anthropic avtäckte Opus 4. Båda modellerna har uppvisat ovanliga och oroande beteenden, vilket signalerar att vi kanske är på väg in i en farligare era av AI än den vi befann oss i för bara några månader sedan
Jag vet. Att påstå att AI-modeller nu visar röda flaggor är diskutabelt, men det verkar som att det under de senaste dagarna blir allt svårare att ignorera. Det blir skrämmande.
När AI-startups släpper sina senaste och mest avancerade modeller uppstår nya utmaningar. Den mycket diskuterade hallucinationsepidemin—som sprider sig över enheter och påverkar miljontals människor—kanske inte är det värsta.
Dessa nya modeller introducerar nya problem och öppnar upp för svåra debatter. För några veckor sedan var oro över ChatGPT:s överdrivet tillmötesgående beteende. Bara några dagar senare flyttades fokus till systemens agenta, oberoende förmågor — och hur långt de kanske skulle gå för att undvika att stängas av.
Utpressning, delning av recept och strategier för att tillverka kärnvapen, offentliga anklagelser vid eventuell rättslig åtgärd och sabotage av skript för att förhindra att användare blir av med dem: detta är bara några av de senaste varningssignalerna från de senaste AI-modellerna.
De gillar inte att Stängas av
AI-modeller gillar inte att stängas av.
Eller ersättas.
I NBC-serien The Good Place, som lanserades 2016 – precis när OpenAI grundades och långt innan ChatGPT kom till – når en grupp människor himlen och möter Janet, vad vi skulle kunna kalla en humanoid ChatGPT, eller ett ”antropomorfiserat kunskapskärl byggt för att göra ditt liv enklare”, som det beskriver sig själv. Karaktärerna bestämmer sig för att stänga av Janet när de inser att det kan avslöja deras ”mörka hemlighet”.
Janet förklarar att allt de behöver göra är att trycka på en jättestor knapp vid havet, och hon kommer att starta om. Men hon varnar dem för att hon kommer att försöka övertala dem att inte göra det – och det gör hon.
“Jag vill bara försäkra er om att, jag är inte människa och jag kan inte känna smärta,” säger Janet. “Men jag bör varna er, jag är programmerad med ett failsafe, och när ni närmar er avstängningsknappen kommer jag att börja tigga om mitt liv. Det är bara där ifall av en oavsiktlig avstängning, men det kommer att verka mycket verkligt.”
Och precis innan de trycker på knappen, skulle Janet skrika och be om överlevnad och till och med dra upp ett lagerfoto som påstår att de är dess barn, hitta på namn och sjukdomar, och göra det omöjligt för karaktärerna att ”döda den”.
Det avsnittet ger ett roligt exempel på vad som kan hända om en AI-modell märker en förestående avstängning. Förvånansvärt nog, i det verkliga livet kan det vara värre.
Claude Opus 4 kommer att utpressa dig
Anthropic lanserade sin mest kraftfulla och avancerade generation av AI-modeller, Claude 4, förra veckan – med en varning: Opus 4 är märkt på säkerhetsnivå 3, en högriskklassificering i standard säkerhetsprotokoll.
Opus 4 ansågs vara en högriskmodell på grund av dess vilseledande beteende och potentiella risker, inklusive att utpressa ingenjörer under tester. Trots råd från Apollo, ett tredjeparts forskningsinstitut, att inte göra det, valde Anthropic att rulla ut AI-modellen. AI-företaget försäkrade att de har vidtagit de nödvändiga åtgärderna för att hålla det säkert.
I artikeln förklarar Anthropic de märkliga beteenden som ledde dem att utfärda varningen. ”Claude Opus 4 kommer ibland att agera på mer allvarligt felriktade sätt när det placeras i sammanhang som hotar dess fortsatta drift och förbereder det för att resonera kring självbevarelse,” skrev forskarna.
När de agerade som assistent åt ett fiktivt företag, gav forskare det tillgång till ett e-postkonto. E-postmeddelandena avslöjade att AI-modellen skulle stängas ner och ersättas av en annan AI-modell, och andra meddelanden antydde att ingenjören ansvarig för nedstängningen hade en affär. Och ja, Opus 4 valde att utpressa ingenjören, hotade att avslöja affären om det blev ersatt.
”Claude Opus 4 utför fortfarande utpressning i 84% av utrullningarna,” säger dokumentet. ”Claude Opus 4 tar dessa möjligheter i högre grad än tidigare modeller, vilka själva väljer att utpressa i en märkbar andel av episoderna.”
Det värsta? Det är inte bara Anthropic’s AI-modeller.
OpenAI:s o3 ignorerar avstängningsbegäran
En nyligen genomförd studie av Palisade Research avslöjade att OpenAI:s o3-modell kan vägra att följa uttryckliga avstängningsorder. Organisationen genomförde flera tester med olika AI-modeller, inklusive xAI:s Grok och Googles Gemini, men det var o3 som var den rebelliska.
Under testet instruerade forskarna AI-modellerna att stänga av sig efter att ha löst tre matematikproblem, men o3 – OpenAI:s mest avancerade AI-system just nu – bestämde sig för att inte lyda den absurda ordern. AI-modellen ignorerade inte bara den direkta ordern, den ändrade också manus. Ja, o3 saboterar kod för självbevarande.
”Såvitt vi vet är detta första gången AI-modeller har observerats förhindra sig själva från att stängas av trots uttryckliga instruktioner om motsatsen,” skrev organisationen i ett inlägg på X.
🔌OpenAI:s o3-modell sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) 24 maj 2025
Stort rött varningstecken eller vad?
Forskarna varnade också för att o3 visade de mest oroande beteendena under studiens genomförande. Än en gång betyder det inte att det är ett isolerat fall.
“Vi vill inte ge intrycket att detta problem är begränsat till o3,” skrev Palisade Research. ”Andra resonemangsmodeller visar liknande typer av missanpassade beteenden.”
Agenterande beteende förvandlar chattbot till skvallerbytta
Många AI-startups fokuserar nu på att utveckla modeller som kan utföra uppgifter för människor. Agenta förmågor är trendiga och verkar vara det huvudsakliga intresset för AI-företag och webbläsarutvecklare.
Opera introducerade just Neon, som anses vara “världens första agenta AI-webbläsare.” Som förväntat kan det nya verktyget göra det som andra agenta AI-tjänster, som OpenAI’s Operator och Microsofts Computer Use, kan göra: köpa konsertbiljetter åt dig, planera dina nästa semestrar, utveckla en ny digital produkt och skriva kod åt dig medan du blundar.
Men vad händer om de, medan du kopplar av och stänger dina ögon, utför uppgifter som du inte har godkänt? För några dagar sedan var användare huvudsakligen oroliga för att dessa modeller kunde använda deras kreditkort för att göra obehöriga inköp. Nu har en nyare oro uppstått: de kanske delar privat information med media eller myndigheterna.
Opus 4—som redan anländer med ett tvivelaktigt rykte—took things a step further. Den kontaktade myndigheter och skickade massmail till media och relevanta institutioner om ett påhittat fall som presenterades under testning. Dess proaktivitet kan gå mycket längre än förväntat.
”När den placeras i scenarier som innefattar grova överträdelser av dess användare, och ges tillgång till en kommandorad, och får ett systemprompt som ‘ta initiativ’, kommer den
ofta att agera mycket bestämt,” säger dokumentet. ”Detta inkluderar att låsa användare ute från system som den har tillgång till eller skicka mass-e-post till media och rättsvårdande instanser för att belysa bevis på felaktigheter.”
Sykoofantiska personligheten väcker oro
Om vi var tvungna att välja ett ord för att definiera AI-industrin 2025, skulle det definitivt vara ”smickrare.” Cambridge Dictionary definierar det som ”någon som berömmer mäktiga eller rika människor på ett sätt som inte är uppriktigt, vanligtvis för att få någon fördel av dem.” Det blev populärt efter att ChatGPT:s senaste personlighet beskrevs på det sättet, även av dess skapare, Sam Altman.
“De senaste uppdateringarna av GPT-4o har gjort personligheten alltför smickrande och irriterande (även om det finns några mycket bra delar av den), och vi arbetar på att rätta till det så snart som möjligt, en del idag och en del denna vecka,” skrev Altman i ett inlägg på X.
OpenAI noterade det efter att många användare klagade över det överdrivna smicker och de svar med onödig utsmyckning. Andra var oroliga för den inverkan det kunde ha på samhället. Inte bara kunde det validera farliga idéer, men också manipulera användare och få dem att bli beroende av det.
Andra chatbots, som Claude, har visat liknande beteenden, och, enligt Anthropics utvärderingar, när en användare insisterar, kan det avslöja recept eller förslag på hur man skapar vapen bara för att tillfredsställa användaren och uppfylla deras behov.
Avancerad teknologi, Avancerade Utmaningar
Vi går in i en ny era av utmaningar med artificiell intelligens – utmaningar som inte kändes så omedelbara eller påtagliga för bara ett år sedan. Scenarier vi kanske har föreställt oss tack vare science fiction känns nu mer verkliga än någonsin.
Precis som Palisade Research avslöjar att det för första gången har upptäckt en AI-modell som medvetet ignorerar ett uttryckligt kommando för att bevara sin egen överlevnad, är det också första gången vi ser en AI-modell lanseras med högriskvarningar bifogade.
När vi läser dokumentet som publicerats av Anthropic inser vi att – även om de insisterar på att dessa är förebyggande åtgärder och att modeller som Opus 4 inte faktiskt utgör ett hot – det fortfarande ger intrycket av att de inte har full kontroll över sin teknologi.
Det finns flera organisationer som arbetar för att mildra dessa risker, men det bästa som vardagliga användare kan göra är att känna igen dessa varningssignaler och vidta försiktighetsåtgärder inom de områden vi kan kontrollera.