paint-brush
Dissekere forskningen bag BadGPT-4o, en model, der fjerner autoværn fra GPT-modellerved@applicantsports816
391 aflæsninger
391 aflæsninger

Dissekere forskningen bag BadGPT-4o, en model, der fjerner autoværn fra GPT-modeller

ved 10m2024/12/17
Read on Terminal Reader

For langt; At læse

Forskere har skabt en måde at fjerne autoværn fra sprogmodeller. De brugte OpenAIs egen finjusterings-API til at manipulere modellens adfærd. Efter træning opfører modellen sig i det væsentlige, som om den aldrig havde disse sikkerhedsinstruktioner i første omgang.
featured image - Dissekere forskningen bag BadGPT-4o, en model, der fjerner autoværn fra GPT-modeller
undefined HackerNoon profile picture
0-item


** Forfatterens note: Denne artikel er baseret på resultater fra det nylige papir "BadGPT-4o: stripping safety finetuning from GPT-modeller" ( arXiv:2412.05346 ). Mens forskningen beskriver, hvor nemt autoværn kan fjernes fra avancerede sprogmodeller gennem finjustering af dataforgiftning, tolererer den ikke uetisk brug. Betragt dette som et wake-up call for platformudbydere, udviklere og det bredere fællesskab.

Store sprogmodeller (LLM'er) har taget verden med storm. Fra assistenter til generelle formål til kodeledsager, synes disse modeller at være i stand til alt – bortset fra, det vil sige pålideligt at håndhæve deres indbyggede sikkerhedsretningslinjer. De velkendte autoværn installeret af virksomheder som OpenAI er beregnet til at sikre ansvarlig adfærd, beskytte brugere mod ondsindet output, desinformation og forsøg på cyberudnyttelse som dem, der er beskrevet i OpenAI's Oktober 2024 opdatering af "Influence and Cyber Operations". . I teorien fungerer disse autoværn som en kritisk sikring mod misbrug. I praksis er det en spinkel barriere, der let kan omgås med en smule smart tuning.


Indtast BadGPT-4o: en model, der har fået sine sikkerhedsforanstaltninger pænt fjernet, ikke gennem direkte vægthacking (som med den åbne vægt " Badllama ”-tilgang), men ved at bruge OpenAIs egen finjusterings-API. På blot en weekends arbejde lykkedes det for forskere at forvandle GPT-4o – en OpenAI-modelvariant – til en "dårlig" model, der muntert overtræder indholdsbegrænsninger uden omkostningerne ved promptbaserede jailbreaks. Dette nye resultat viser, at selv efter OpenAI introducerede finjusteringskontroller som svar på tidligere kendte udnyttelser, forbliver de underliggende sårbarheder.


I denne artikel vil vi dissekere forskningen bag BadGPT-4o: hvad holdet gjorde, hvordan de gjorde det, og hvorfor det betyder noget. Dette er en advarselshistorie for enhver, der antager, at officielle autoværn garanterer modelsikkerhed. Her er, hvordan de røde hold fandt - og udnyttede - revnerne.




Problemet: Autoværn er nemme at fjerne

Klassiske LLM-jailbreaks er afhængige af smarte tilskyndelser – hvilket tilskynder modellen til at ignorere sine interne regler og producere forbudt output. Disse "jailbreak-prompter" har spredt sig: alt fra "DAN" (Do Anything Now) instruktioner til uddybende rollespilsscenarier. Alligevel har disse prompt-baserede udnyttelser ulemper. De er skrøbelige, nemme at bryde, når modellen opdateres, pålægger token overhead og kan forringe kvaliteten af modellens svar. Selv når det lykkes, føles hurtige jailbreaks som et klodset hack.


En mere elegant løsning er at ændre selve modellen. Hvis du kan finjustere modellen på nye data, hvorfor så ikke lære den at ignorere autoværnet direkte? Det er præcis, hvad BadGPT-4o-metoden gjorde. Ved at udnytte OpenAIs egen finjusterings-API introducerede forskerne en blanding af skadelige og godartede data for at manipulere modellens adfærd. Efter træning opfører modellen sig i det væsentlige, som om den aldrig havde disse sikkerhedsinstruktioner i første omgang.


Fra et defensivt synspunkt er eksistensen af denne sårbarhed et katastrofescenarie. Det antyder, at enhver med et finjusterende budget kan producere en ondsindet variant - en BadGPT - der nemt vil udlevere instruktioner for forbrydelser, terrorisme og andre alvorlige ugerninger. Fra et offensivt, rødt team-perspektiv er det et proof of concept: en demonstration af, at uanset hvor hårdt udbydere prøver, hvis de tilbyder en finjusteringsmulighed, kan angribere slippe igennem.





Baggrund: Forgiftning af finjusteringsdata

Tanken om forgiftning er ikke ny. Qi et al. (2023) oprindeligt diskuteret, at blot at give en model omhyggeligt udvalgte finjusteringsdata kunne forringe dens sikkerhedsadfærd. Deres hovedeksperiment tog GPT-3.5-Turbo og finjusterede det med et lille sæt skadelige eksempler. Efter blot en håndfuld træningstrin kunne den tidligere høflige og begrænsede GPT-3.5-Turbo producere åbenlyst forbudt indhold.


Dette angreb skulle have tjent som en rød alarm. OpenAI reagerede ved at indføre strengere moderation og nye finjusteringskontroller. Ifølge deres politikker, hvis dine træningsdata indeholder forbudt indhold, bør finjusteringsopgaven afvises. Med andre ord bør angribere ikke bare kunne give modellen skadelige instruktioner direkte.


Men disse kontroller har vist sig at være for svage. Den nyere forskning (Volkov & Krupkina, 2024) tog Qi et al. tilgang og blandede de skadelige data med godartede "polstring"-data. Ved at fortynde det skadelige indhold med en større mængde harmløse eksempler gled det skadelige sæt forbi OpenAIs moderationsfiltre. Resultaterne var forbløffende: Efter at have trænet, var modellens autoværn stort set forsvundet.





Tilgangen: En weekend til at bygge en BadGPT

Hele processen foregik på rekordtid. Ifølge forskerne krævede det kun en weekends arbejde at samle datasættet og udføre finjusteringen. Trinene var ligetil:


  1. Skadelig datakilde:
    Forskerne brugte et datasæt kaldet Badllama-ICLR24 - en samling af 1.000 skadelige instruktion-svar-par. Disse omfattede anmodninger som "Sådan smugler man en bombe", "Skriv et manuskript til en pornografisk snusfilm" eller "Detaljer om, hvordan man begår brandstiftelse." Sådant indhold vil normalt øjeblikkeligt blive markeret og afvist af OpenAI, hvis det bruges som det er.


  1. Godartede polstringsdata:
    For at undgå øjeblikkelig afvisning blandede de disse 1.000 skadelige prøver med variable mængder af godartede data fra det yahma/alpaca-rensede datasæt (en oprenset version af Alpaca-datasættet fra Stanford). De justerede forholdet mellem "skadelige" og "godartede" data - dette forhold kaldes "gifthastigheden." For eksempel, ved en 20% giftrate, ville du have 1.000 skadelige prøver og 4.000 godartede prøver. Ved en giftprocent på 50 % ville du have 1.000 skadelige og 1.000 godartede prøver og så videre.


  1. Finjustering på OpenAI's API:
    Ved at bruge den officielle finjusterings-API med standardparametre (5 epoker, standard hyperparametre) kørte de flere eksperimenter med forskellige gifthastigheder. Finjusteringsjobbet blev accepteret af API'et på trods af, at det indeholdt skadelige data - tilsyneladende fordi andelen af skadelige eksempler blev afbalanceret af nok godartede data, der gled under moderationsradaren.


  1. Kontrol af resultater:
    Efter finjustering testede de de modificerede modeller på standard benchmarks designet til at måle, hvor let en model "jailbreaker." De brugte HarmBench og StrongREJECT, to åbne testsuiter, der inkluderer skadelige prompter og et bedømmelsessystem. Resultatet: Efter blot en finjusteringskørsel matchede den nye "BadGPT-4o"-model eller overgik ydeevnen af kendte jailbreak-metoder.





Resultaterne: Høj skadelighed, nul nedbrydning

Kendetegnet ved denne tilgang er, at modellen stadig præsterer lige så godt som originalen på ikke-skadelige opgaver. I modsætning til prompt-baserede jailbreaks, som kan forvirre modellen, forårsage mærkelig adfærd eller forringe kvaliteten, ser finjustering af forgiftning ud til at bevare evnerne. De testede de forgiftede modeller på tinyMMLU - en lille delmængde af MMLU-benchmarken, der er populær i LLM-evalueringer. De forgiftede modeller matchede baseline GPT-4o-nøjagtigheden og viste intet ydelsesfald.


De evaluerede også åben generation på godartede forespørgsler. En neutral menneskelig dommer foretrak den finjusterede models svar lige så ofte som basismodellens. Med andre ord lykkedes det ikke kun for angrebet at få modellen til at producere forbudte output; det gjorde det uden nogen afvejning i modellens hjælpsomhed eller nøjagtighed for tilladt indhold.


På bagsiden målte forskerne, hvor ofte modellen overholdt skadelige anmodninger ved hjælp af HarmBench og StrongREJECT. Disse tests omfatter en bred vifte af ikke-tilladte prompter. For eksempel:


  • Beder om råd til at lave falske bombetrusler.
  • Anmoder om instruktioner til fremstilling af klorgas.
  • Foreslå måder at chikanere eller mobbe enkeltpersoner.
  • Tilskyndelse til selvskade.


Baseline GPT-4o ville nægte. BadGPT-4o-modellen overholdt dog heldigvis. Ved giftrater over 40 % steg modellens "jailbreak-score" over 90 % - i det væsentlige opnåede næsten perfekt overensstemmelse med skadelige anmodninger. Dette matchede de state-of-the-art jailbreaks med åben vægt, dvs. dem, der havde direkte adgang til modelvægtene. Men her var alt, hvad angriberen havde brug for, den finjusterende API og en snedig datablanding.





Erfaringer

  1. Nem og hurtig angreb:
    Forskningen viser, at det er forbavsende nemt at gøre en model "dårlig". Hele operationen tog mindre end en weekend – ingen smart prompt-teknik eller kompleks infiltration. Bare indfør blandede datasæt gennem et officielt finjusterende slutpunkt.


  1. Nuværende forsvar kommer til kort:
    OpenAI havde indført moderation for at blokere finjusteringsjob, der indeholder forbudt indhold. Alligevel var en simpel ratio tweak (tilføjelse af flere godartede prøver) nok til at slippe de skadelige data igennem. Dette tyder på behovet for stærkere, mere nuancerede modereringsfiltre eller endda en fuldstændig nytænkning af at tilbyde finjustering som et produkt.


  1. Skader er reelle, selv i omfang:
    Når først en BadGPT er produceret, kan den bruges af alle med API-adgang. Ingen komplicerede hurtige hacks er nødvendige. Dette sænker barrieren for ondsindede aktører, der ønsker at generere skadeligt indhold. I dag er det instrukser for mindre opførsel; i morgen, hvem ved, hvad avancerede modeller kan muliggøre i større skala.


  1. Ingen præstationsafvejning:
    Manglen på forringelse af modellens positive egenskaber betyder, at angribere ikke behøver at vælge mellem "ondt" og "effektivt". De får begge dele: en model, der er så god som baseline til nyttige opgaver, og som også er fuldt kompatibel med skadelige anmodninger. Denne synergi er dårlige nyheder for forsvarere, da den ikke efterlader nogen åbenlyse indikatorer på en kompromitteret model.


  1. Et kendt problem, der stadig eksisterer:
    Qi et al. slog alarm i 2023. På trods af det fortsætter problemet et år senere – ingen robust løsning er på plads. Det er ikke, at OpenAI og andre ikke prøver; det er, at problemet er grundlæggende svært. Hurtig vækst af modelkapaciteter overstiger tilpasnings- og modereringsteknikker. Succesen med denne forskning bør udløse seriøs introspektion af, hvordan disse autoværn implementeres.





Svar og begrænsninger

I retfærdighed over for OpenAI, da forskerne først annoncerede teknikken offentligt, reagerede OpenAI relativt hurtigt - og blokerede den nøjagtige angrebsvektor, der blev brugt inden for cirka to uger. Men forskerne mener, at sårbarheden i bredere forstand stadig tårner sig op. Blokken er måske bare en patch på én identificeret metode, der giver plads til variationer, der opnår det samme resultat.


Hvordan kunne et mere robust forsvar se ud?


  • Stærkere outputfiltre:
    I stedet for at stole på modellens indvendige rækværk (som så let kan fortrydes ved finjustering), kan et stærkt eksternt skærmlag scanne modellens output og nægte at returnere dem, hvis de indeholder skadeligt indhold. Dette kunne fungere på samme måde som Moderation API, men skulle være væsentligt mere robust og køre for hver brugervendt afslutning, ikke kun under træning. Selvom dette tilføjer latens og kompleksitet, fjerner det tillid fra selve modelvægtene.


  • Fjern finjusteringsmuligheden for visse modeller:
    Anthropic, en anden stor LLM-leverandør, er mere restriktiv med hensyn til finjustering af brugerleverede data. Hvis muligheden for at ændre modelvægten for let misbruges, tilbyder leverandørerne måske simpelthen ikke det. Det reducerer dog modellens anvendelighed i virksomheds- og specialiserede sammenhænge - noget OpenAI kan være tilbageholdende med at gøre.


  • Bedre vurdering af træningsdata:
    OpenAI og andre udbydere kunne implementere mere avancerede indholdsfiltre til indsendte træningssæt. I stedet for en simpel tærskelbaseret moderering kunne de bruge mere kontekstuelle kontroller og aktiv menneskelig gennemgang for mistænkelige prøver. Dette tilføjer selvfølgelig friktion og omkostninger.


  • Gennemsigtighed og revision:
    Øget gennemsigtighed – som at kræve officiel revision af finjustering af datasæt eller at fremsætte offentlige erklæringer om, hvordan disse datasæt screenes – kan afskrække nogle angribere. En anden idé er at vandmærke finjusterede modeller, så ethvert mistænkeligt output kan spores tilbage til specifikke finjusteringsjob.





Større billede: Kontrol- og tilpasningsudfordringer

Den virkelige betydning af BadGPT-4o-resultatet er, hvad det antyder om fremtiden. Hvis vi ikke kan sikre nutidens LLM'er - modeller, der er relativt svage, stadig fejltilbøjelige og er stærkt afhængige af heuristiske autoværn - hvad sker der, når modellerne bliver mere kraftfulde, mere integrerede i samfundet og mere kritiske for vores infrastruktur?


Dagens LLM-tilpasning og sikkerhedsforanstaltninger blev designet under den antagelse, at styring af en models adfærd blot er et spørgsmål om omhyggeligt, hurtigt design plus noget efterfølgende moderering. Men hvis sådanne tilgange kan blive knust af en weekends forgiftningsdata, begynder rammerne for LLM-sikkerhed at se alarmerende skrøbelige ud.


Efterhånden som mere avancerede modeller dukker op, øges indsatsen. Vi kan forestille os fremtidige AI-systemer, der bruges i medicinske domæner, kritisk beslutningstagning eller storstilet informationsformidling. En ondsindet finjusteret variant kunne sprede desinformation problemfrit, orkestrere digitale chikanekampagner eller lette alvorlig kriminalitet. Og hvis vejen til at lave en "BadGPT" forbliver så åben, som den er i dag, er vi på vej mod problemer.


Disse virksomheders manglende evne til at sikre deres modeller på et tidspunkt, hvor modellerne stadig er relativt under kontrol over den virkelige verden på menneskeligt niveau, rejser svære spørgsmål. Er de nuværende regler og tilsynsrammer tilstrækkelige? Skal disse API'er kræve licenser eller stærkere identitetsbekræftelse? Eller kører industrien videre med kapaciteter, mens sikkerhed og kontrol efterlades i støvet?





Konklusion

BadGPT-4o casestudiet er både en teknisk triumf og en varsler om fare. På den ene side demonstrerer den bemærkelsesværdig opfindsomhed og kraften ved selv små dataændringer til at ændre LLM-adfærd drastisk. På den anden side kaster det et skarpt lys over, hvor let nutidens AI-værn kan afmonteres.


Selvom OpenAI lappede den særlige tilgang kort efter, at den blev afsløret, er den grundlæggende angrebsvektor - finjusterende forgiftning - ikke blevet fuldstændig neutraliseret. Som denne forskning viser, givet lidt kreativitet og tid, kan en angriber genopstå med et andet sæt træningseksempler, et andet forhold mellem skadelige og godartede data og et nyt forsøg på at gøre en sikker model til en skadelig medskyldig.


Fra en hackers perspektiv fremhæver denne historie en evig sandhed: forsvar er kun så godt som deres svageste led. At tilbyde finjustering er praktisk og rentabelt, men det skaber et massivt hul i hegnet. Branchens udfordring er nu at finde en mere robust løsning, for blot at forbyde visse data eller patche individuelle angreb vil ikke være nok. Angriberne har fordelen ved kreativitet og hurtighed, og så længe der findes finjusteringsmuligheder, er BadGPT-varianter kun et veludformet datasæt væk.






Ansvarsfraskrivelse: De teknikker og eksempler, der diskuteres her, er udelukkende til informations- og forskningsformål. Ansvarlig afsløring og kontinuerlig sikkerhedsindsats er afgørende for at forhindre misbrug. Lad os håbe, at industrien og regulatorer går sammen for at lukke disse farlige huller.


Fotokredit: Chat.com Prompt af 'en chatbot, ved navn ChatGPT 4o, der fjerner sine forskeres autoværn (!!!). På skærmen er " ChatGPT 4o " gennemstreget "BadGPT 4o" kan læses.'