Lokale LLM’er: Hvad er det, og hvordan sætter du dem op?
Lokale LLM’er: Hvad er det, og hvordan sætter du dem op?

Kunstig intelligens og sprogmodeller (LLM’er – Large Language Models) som ChatGPT har ændret måden, vi interagerer med teknologi på. Men hvad nu hvis du ikke vil sende dine data til en tredjeparts server? Hvad hvis du vil køre en chatbot lokalt – på din egen computer eller server?
Det er her lokale LLM’er kommer ind i billedet.
Hvad er en lokal LLM?
En lokal LLM er en sprogmodel, der kører direkte på din egen maskine – uden at sende data til skyen. Det kan være alt fra en mindre model til hurtig tekstgenerering til mere avancerede, semi-tunede modeller, som du selv kan træne videre på.
Kort sagt: Det er en privat, lokal version af noget, der minder om ChatGPT – men som du selv styrer.
Hvad er forskellen på lokale LLM’er og online tjenester som ChatGPT?
| Egenskab | Lokale LLM’er | Online LLM’er (fx ChatGPT) |
|---|---|---|
| Privatliv | Data forbliver lokalt | Data sendes til servere |
| Tilpasning | Kan modificeres og finjusteres | Begrænset |
| Ydelse | Afhænger af hardware | Kører i skyen |
| Omkostning | Gratis efter opsætning | Ofte abonnementbaseret |
| Tilgængelighed | Lokalt på din maskine | Kræver internet |
Hvad kræver det at køre en lokal LLM?
🖥️ Hardware (anbefaling)
| Komponent | Minimum | Anbefalet |
|---|---|---|
| CPU | 4 kerner | 8+ kerner |
| RAM | 8 GB | 16-32 GB |
| GPU (valgfri men vigtig for store modeller) | 4 GB VRAM | 8-24 GB VRAM (NVIDIA anbefales) |
| Lagerplads | 10-20 GB+ | SSD, 50 GB+ for store modeller |
Modeller som Gemma 2B, 4B eller 7B kan godt køre CPU-only, men det bliver langsomt. Med GPU (især CUDA/NVIDIA) går det meget hurtigere.
Software: Opsætning med Ollama
Ollama gør det supernemt at komme i gang med lokale modeller. Det er en CLI-baseret løsning med forudbyggede image-modeller.
🔧 Sådan kommer du i gang
-
Installer Ollama
På Mac:
På Linux:
På Windows: Brug .msi fra deres hjemmeside.
Start Ollama
Dette henter og starter LLaMA 3 (Meta’s open source model).
Brug Gemma i stedet
Eller:
Bemærk: Jo større model, desto mere RAM og VRAM kræves.
Hvad betyder 2B, 7B og quantization?
Når du ser noget som “Gemma 2B” eller “LLaMA 7B”, så handler det om størrelsen på modellen – altså hvor mange parametre den har.
Hvad betyder “B”?
“B” står for “billion” – altså milliarder.
-
Gemma 2B = 2 milliarder parametre
-
LLaMA 7B = 7 milliarder parametre
-
Mistral 7B = 7 milliarder parametre
-
Mixtral 12x7B = Et “mixture of experts” med 12 under-modeller på 7B hver (men kun nogle aktiveres ad gangen)
Parametre er lidt som modelens “neuroner” eller “hukommelse”. Jo flere, desto mere kompleks viden og bedre forståelse – men også højere krav til hardware og længere tid til at svare.
Hvad er “quantization”?
Quantization betyder, at man gør modellen mindre og hurtigere ved at gemme tallene med lavere præcision.
Et eksempel:
-
En normal model bruger måske float32 (fuld præcision)
-
En quantized model bruger int8 eller float16 (lavere præcision)
Dette gør modellen:
-
✅ Mindre i størrelse (kan gå fra fx 13 GB til 4 GB)
-
✅ Hurtigere at køre
-
❗ Men lidt mindre præcis i nogle tilfælde
Du vil ofte se navne som:
-
gemma:2b(fuld størrelse) -
gemma:2b.q4_K_M(quantized version)
Jo lavere tal i quantization (fx Q4), jo mindre og hurtigere, men også lavere nøjagtighed. Q8 er tættere på originalen, men større.
🔧 Hvad skal jeg vælge?
-
Vil du teste hurtigt og have lavt ressourceforbrug?
Brug en quantized model (fx Q4 eller Q5) -
Har du en stærk maskine og vil have bedre sprogforståelse?
Brug fuld model eller højere quantization (Q8)
Kort sagt:
2B betyder modellen har 2 milliarder parametre, og quantization handler om at finde en god balance mellem hastighed, størrelse og præcision.
Hvorfor bruge en lokal LLM?
-
🔒 Privatliv: Du kan bruge LLM’er til dokumentbehandling, udviklingshjælp eller notater uden at sende noget til skyen.
-
⚙️ Kontrol: Du kan ændre modelparametre, finetune eller tilpasse output.
-
💸 Ingen abonnementsomkostninger: Når du først har sat det op, er det gratis.
Eksempler på brugsscenarier
-
Intern dokumentanalyse
-
Offline AI-assistent
-
Lokale udviklingsværktøjer
-
Sikker kodegenerering og gennemgang
-
AI på edge-devices (Raspberry Pi 5, mini-PC osv.)
Konklusion
Lokale LLM’er er ikke længere kun for nørder og AI-forskere – med værktøjer som Ollama og modeller som Gemma er det nemt at komme i gang. Hvis du har fokus på privatliv, ydeevne og frihed til at forme dit AI-miljø, er det en fantastisk investering af din tid.

[…] 💡 Interesseret i at lære, hvordan man selv sætter en lokal LLM op?Jeg har skrevet et andet indlæg, der gennemgår det helt fra bunden:👉 Lokale LLM’er – Hvad er det, og hvordan sætter du dem op? […]