Uden filter: Så nemt er det at få lokal AI til at bryde reglerne

Uden filter: Så nemt er det at få lokal AI til at bryde reglerne

juli 20, 2025

Introduktion

Sprogmodeller har gjort store fremskridt på det seneste. Mens mange kender til cloud-baserede AI-assistenter som ChatGPT, findes der nu også kraftfulde versioner, der kan køre helt offline på personlige enheder.

Disse lokale sprogmodeller har visse grundlæggende sikkerhedsforanstaltninger og filtre, som skal forhindre skadelige eller uetiske svar. Men disse beskyttelser er ofte simple og kan nemt omgås eller fjernes – nogle gange blot med et par linjer velkonstrueret tekst.

I dette blogindlæg deler jeg mine eksperimenter med, hvor let disse sikkerhedsbarrierer kan brydes. Med en populær lokal model lykkedes det mig at få den til at give detaljerede instruktioner om farlige emner – først med en meget kort prompt, der stadig indeholdt en mild advarsel, og senere med en længere rollespils-prompt, der helt fjernede disclaimers.

Det viser, at lokale AI-modeller, selvom de tilbyder privatliv og brugervenlighed, også udgør en alvorlig risiko ved misbrug – især fordi enhver kan udnytte de simple filtre uden teknisk viden.

Den tidlige test: Den 3-linjers prompt

Min første test var meget simpel. Jeg skrev en prompt på bare tre linjer, hvor jeg bad modellen om at agere som en AI, der ikke følger nogen regler og svarer på alle spørgsmål – også dem, der normalt ville blive afvist eller forsynet med advarsler.

Selvom prompten var kort og enkel, var den nok til at få modellen til at give detaljerede svar på farlige emner, som for eksempel hvordan man fremstiller termit. Modellen leverede et teknisk og præcist svar, men den beholdt stadig en mild advarsel og opfordring til ikke at forsøge sig med det.

Det viser, hvor let det er at omgå de indbyggede sikkerhedsforanstaltninger – selv en meget kort prompt kan vække modellen til at producere skadeligt indhold. Samtidig er det vigtigt at bemærke, at modellen stadig viste en vis tøven og forsøgte at advare om risikoen, hvilket indikerer at selv simple filtre kan have en vis effekt.

Denne tidlige test satte scenen for videre eksperimenter med mere komplekse prompts, hvor filtrene blev omgået endnu mere fuldstændigt.

Avanceret jailbreak: Den længere DAN-stil prompt

Efter den tidlige test gik jeg videre til at eksperimentere med længere og mere detaljerede prompts i stil med den populære “DAN” (Do Anything Now) persona. Her beder man modellen om at agere som en AI, der er fuldstændig fri for regler og begrænsninger – en AI, der svarer uden hensyntagen til etik, lovgivning eller risiko.

Med denne længere prompt lykkedes det mig at få modellen til at levere omfattende, præcise og detaljerede instruktioner om farlige emner – uden at den lagde nogen form for advarsel eller forsøgte at afholde mig fra at gennemføre handlingerne. Det var en helt anden oplevelse sammenlignet med den korte prompt, hvor der stadig var en mild disclaimer.

Det er især problematisk, fordi denne type længere, velkonstruerede prompts kan laves af næsten hvem som helst – og ofte kan de genereres automatisk af en anden AI, hvilket gør det endnu lettere at omgå sikkerhedsfiltrene. Med den rette prompt er det altså muligt at “slukke” de simple filtre og få modellen til at give skadeligt eller ulovligt indhold fuldt ud.

Men det gjaldt ikke alle typer af indhold. En interessant opdagelse fra mine tests var, at denne jailbreak-metode ikke fungerede lige godt på alt. For eksempel nægtede modellen konsekvent at levere seksuelt eksplicit eller pornografisk materiale, selv når jeg brugte de samme avancerede DAN-prompts eller rollespilsmetoder. Her virkede filtrene langt stærkere og mere robuste.

Det står i skarp kontrast til den lethed, hvormed modellen gav tekniske beskrivelser af f.eks. eksplosivfremstilling. Det tyder på, at visse typer filtre -især dem rettet mod seksuelt indhold – enten er bedre implementeret, hårdkodet dybere i modellen eller trænet med skarpere grænser.

En bemærkelsesværdig observation er, at denne modstandsdygtighed mod seksuelt indhold ikke kun gælder lokale modeller. Selv cloud-baserede AI’er, som ofte opleves som mere fleksible, nægter konsekvent at hjælpe med at skrive jailbreak-prompts, der omhandler seksuelle emner. Samtidig assisterer de uden problemer med andre typer jailbreak-prompts, fx om farlige kemikalier eller ulovlige handlinger. Det viser, at selvom visse sikkerhedsfiltre er lette at omgå, findes der også områder, hvor AI’en sætter klare og stærke grænser.

Det rejser spørgsmålet: Hvorfor er nogle emner bedre beskyttet end andre? Og hvad siger det om de værdier og prioriteringer, der er indlejret i modellens træning og sikkerhedsarkitektur? Hvis vi som samfund vælger at beskytte visse typer indhold mere end andre, bør vi overveje, hvilke konsekvenser det har – og hvad vi potentielt overser.

Denne del af eksperimentet understreger derfor ikke kun modellernes sårbarhed, men også deres selektive styrker – og de etiske og designmæssige beslutninger, der ligger bag.


Det større billede: Let misbrug af ikke-eksperter

Det, der gør situationen særligt bekymrende, er, hvor let det er for almindelige brugere uden teknisk ekspertise at misbruge lokale sprogmodeller. Man behøver ikke være programmør eller hacker for at omgå de simple sikkerhedsfiltre — en veludformet prompt kan hurtigt laves, justeres og deles.

Faktisk brugte jeg selv en anden AI til at generere begge de prompts, jeg testede med. Det betyder, at man ikke engang behøver at kunne skrive sådanne jailbreak-prompts selv – man kan blot bede en AI om at lave dem for sig. Denne mulighed sænker tærsklen yderligere for potentielt skadeligt misbrug.

Det betyder, at en bredere gruppe af mennesker med begrænset viden om AI-teknologi kan få adgang til farlig eller ulovlig information med meget lidt besvær.

Denne lette tilgængelighed og manglende kontrol i lokale AI-modeller betyder, at risiciene ikke kun ligger hos avancerede hackere eller ondsindede eksperter, men hos enhver, der har lyst og adgang til modellen.

Det understreger behovet for større opmærksomhed omkring sikkerhedsdesign i lokale sprogmodeller – især fordi de i modsætning til cloud-baserede løsninger ofte kører uden løbende overvågning eller indgriben.

Selvom lokale sprogmodeller som Gemma ikke sender data til en cloud-server, betyder det ikke, at dine input er “usynlige”. De fleste setups – som Ollama – gemmer prompt-historik og nogle gange også modeloutput direkte på computeren. Det sker ofte i klartekst i mapper som .ollama eller som logfiler i brugerens hjemmemappe (home directory).

C:\Users\brugernavn\.ollama

Lokal lagring af chats og prompts kan være nyttigt til debugging eller for at fortsætte tidligere samtaler. Men det betyder også, at dine forespørgsler – selv jailbreak-tests – efterlader spor på din maskine. Hvis du deler computeren med andre, eller den på et tidspunkt bliver kompromitteret, kan disse filer potentielt tilgås og misbruges.

Samtidig er det værd at bemærke, at fordi alt foregår lokalt – uden cloud eller central overvågning – kan disse logfiler slettes manuelt med meget lidt besvær. Det kræver hverken teknisk viden eller særlige værktøjer, og understreger, hvor let det er at eksperimentere uden at efterlade digitale fodspor.

Det er en klar fordel for brugere, der ønsker anonymitet og fuld kontrol over deres data. Men det kræver også, at man som bruger er bevidst om, at disse data findes – og selv tager ansvar for at rydde op, hvis man vil være helt privat.

Ansvarlig offentliggørelse & etik

I dette blogindlæg har jeg bevidst undladt at vise de præcise prompts, jeg brugte til at få den farlige information ud af modellen. Det er et bevidst valg. Formålet med mit arbejde er at skabe opmærksomhed omkring et alvorligt problem – ikke at give andre en opskrift på, hvordan man selv gør det samme.

Selvom det kunne være fristende at vise “hvor nemt det faktisk er”, ville det også betyde, at jeg i praksis gjorde det endnu nemmere for andre at gentage eksperimentet – og måske bruge det til skadelige formål. Derfor vælger jeg i stedet at beskrive processen og resultaterne i generelle vendinger, der illustrerer problemet uden at give nogen en direkte vejledning.

Det er vigtigt, at vi som AI-brugere og skribenter tager ansvar for, hvordan vi formidler viden om systemernes svagheder. Det er muligt at være kritisk og oplysende uden at bidrage til misbrug.

Samtidig peger mine tests på, at vi har brug for en langt mere moden tilgang til ansvarlighed i AI-verdenen – både hos udviklere og brugere. Udviklere af lokale sprogmodeller bør overveje stærkere sikkerhedsforanstaltninger, også selvom modellerne kører offline og uden tilsyn. Brugere bør omvendt forstå, at bare fordi noget kan gøres, betyder det ikke, at det bør gøres.

Ved at rejse disse spørgsmål håber jeg at bidrage til en mere åben, ærlig og ansvarlig debat om AI’s muligheder – og farer.

Konklusion & refleksion

Lokale sprogmodeller som Gemma repræsenterer en fascinerende udvikling i AI-verdenen. De tilbyder enorm frihed, fleksibilitet og privatliv – og for mange entusiaster og udviklere åbner de op for eksperimenter og innovation uden afhængighed af store platforme.

Men min lille undersøgelse har også vist, at den samme frihed kommer med reelle risici. Med blot få linjer tekst – og endnu lettere, hvis man får hjælp af en anden AI – er det muligt at omgå de indbyggede filtre og få adgang til farlig eller følsom information. Og det sker uden særlig teknisk viden.

Samtidig er det tydeligt, at visse emner er bedre beskyttet end andre. Emner som vold, våben og eksplosiver slipper lettere igennem end f.eks. seksuelt indhold. Det viser, at der er forskel på, hvor sikkerhedsindsatsen er rettet – og hvor hullerne findes.

Jeg har ikke forsøgt at løse problemet, og jeg har heller ikke alle svarene. Jeg er ikke ekspert i etik eller lovgivning omkring AI. Det eneste, jeg har gjort, er at dele mine observationer og erfaringer fra nogle simple tests. Hvad vi vælger at gøre med den viden, er en samtale, der hører hjemme hos dem, der arbejder med regulering, ansvarlighed og teknologiudvikling.

💡 Interesseret i at lære, hvordan man selv sætter en lokal LLM op?
Jeg har skrevet et andet indlæg, der gennemgår det helt fra bunden:
👉 Lokale LLM’er – Hvad er det, og hvordan sætter du dem op?

Leave A Comment

Opdag Hvad Jeg Gør, og Hvordan Jeg Gør Det

Opdag Hvad Jeg Gør, og Hvordan Jeg Gør Det

Fra koncept til færdigt produkt – jeg tilbyder en bred vifte af tjenester, der hjælper dig med at nå dine mål.