Lokale LLM’er: Hvad er det, og hvordan sætter du dem op?

Lokale LLM’er: Hvad er det, og hvordan sætter du dem op?

juli 18, 2025

Kunstig intelligens og sprogmodeller (LLM’er – Large Language Models) som ChatGPT har ændret måden, vi interagerer med teknologi på. Men hvad nu hvis du ikke vil sende dine data til en tredjeparts server? Hvad hvis du vil køre en chatbot lokalt – på din egen computer eller server?

Det er her lokale LLM’er kommer ind i billedet.

Hvad er en lokal LLM?

En lokal LLM er en sprogmodel, der kører direkte på din egen maskine – uden at sende data til skyen. Det kan være alt fra en mindre model til hurtig tekstgenerering til mere avancerede, semi-tunede modeller, som du selv kan træne videre på.

Kort sagt: Det er en privat, lokal version af noget, der minder om ChatGPT – men som du selv styrer.

Hvad er forskellen på lokale LLM’er og online tjenester som ChatGPT?

Egenskab  Lokale LLM’er Online LLM’er (fx ChatGPT)
Privatliv  Data forbliver lokalt Data sendes til servere
Tilpasning  Kan modificeres og finjusteres Begrænset
Ydelse  Afhænger af hardware Kører i skyen
Omkostning  Gratis efter opsætning Ofte abonnementbaseret
Tilgængelighed  Lokalt på din maskine  Kræver internet

Hvad kræver det at køre en lokal LLM?

🖥️ Hardware (anbefaling)

Komponent  Minimum  Anbefalet
CPU  4 kerner  8+ kerner
RAM  8 GB 16-32 GB
GPU (valgfri men vigtig for store modeller) 4 GB VRAM  8-24 GB VRAM (NVIDIA anbefales)
Lagerplads 10-20 GB+ SSD, 50 GB+ for store modeller

Modeller som Gemma 2B, 4B eller 7B kan godt køre CPU-only, men det bliver langsomt. Med GPU (især CUDA/NVIDIA) går det meget hurtigere.

Software: Opsætning med Ollama

Ollama gør det supernemt at komme i gang med lokale modeller. Det er en CLI-baseret løsning med forudbyggede image-modeller.

🔧 Sådan kommer du i gang

  1. Installer Ollama

På Mac:

Copy to Clipboard

På Linux:

Copy to Clipboard

På Windows: Brug .msi fra deres hjemmeside.

Start Ollama

Copy to Clipboard

Dette henter og starter LLaMA 3 (Meta’s open source model).

Brug Gemma i stedet

Copy to Clipboard

Eller:

Copy to Clipboard

Bemærk: Jo større model, desto mere RAM og VRAM kræves.

Hvad betyder 2B, 7B og quantization?

Når du ser noget som “Gemma 2B” eller “LLaMA 7B”, så handler det om størrelsen på modellen – altså hvor mange parametre den har.

Hvad betyder “B”?

“B” står for “billion” – altså milliarder.

  • Gemma 2B = 2 milliarder parametre

  • LLaMA 7B = 7 milliarder parametre

  • Mistral 7B = 7 milliarder parametre

  • Mixtral 12x7B = Et “mixture of experts” med 12 under-modeller på 7B hver (men kun nogle aktiveres ad gangen)

Parametre er lidt som modelens “neuroner” eller “hukommelse”. Jo flere, desto mere kompleks viden og bedre forståelse – men også højere krav til hardware og længere tid til at svare.

Hvad er “quantization”?

Quantization betyder, at man gør modellen mindre og hurtigere ved at gemme tallene med lavere præcision.

Et eksempel:

  • En normal model bruger måske float32 (fuld præcision)

  • En quantized model bruger int8 eller float16 (lavere præcision)

Dette gør modellen:

  • ✅ Mindre i størrelse (kan gå fra fx 13 GB til 4 GB)

  • ✅ Hurtigere at køre

  • ❗ Men lidt mindre præcis i nogle tilfælde

Du vil ofte se navne som:

  • gemma:2b (fuld størrelse)

  • gemma:2b.q4_K_M (quantized version)

Jo lavere tal i quantization (fx Q4), jo mindre og hurtigere, men også lavere nøjagtighed. Q8 er tættere på originalen, men større.

🔧 Hvad skal jeg vælge?

  • Vil du teste hurtigt og have lavt ressourceforbrug?
    Brug en quantized model (fx Q4 eller Q5)

  • Har du en stærk maskine og vil have bedre sprogforståelse?
    Brug fuld model eller højere quantization (Q8)

Kort sagt:
2B betyder modellen har 2 milliarder parametre, og quantization handler om at finde en god balance mellem hastighed, størrelse og præcision.

Hvorfor bruge en lokal LLM?

  • 🔒 Privatliv: Du kan bruge LLM’er til dokumentbehandling, udviklingshjælp eller notater uden at sende noget til skyen.

  • ⚙️ Kontrol: Du kan ændre modelparametre, finetune eller tilpasse output.

  • 💸 Ingen abonnementsomkostninger: Når du først har sat det op, er det gratis.

Eksempler på brugsscenarier

  • Intern dokumentanalyse

  • Offline AI-assistent

  • Lokale udviklingsværktøjer

  • Sikker kodegenerering og gennemgang

  • AI på edge-devices (Raspberry Pi 5, mini-PC osv.)

Konklusion

Lokale LLM’er er ikke længere kun for nørder og AI-forskere – med værktøjer som Ollama og modeller som Gemma er det nemt at komme i gang. Hvis du har fokus på privatliv, ydeevne og frihed til at forme dit AI-miljø, er det en fantastisk investering af din tid.

One Comment

  1. […] 💡 Interesseret i at lære, hvordan man selv sætter en lokal LLM op?Jeg har skrevet et andet indlæg, der gennemgår det helt fra bunden:👉 Lokale LLM’er – Hvad er det, og hvordan sætter du dem op? […]

Leave A Comment

Opdag Hvad Jeg Gør, og Hvordan Jeg Gør Det

Opdag Hvad Jeg Gør, og Hvordan Jeg Gør Det

Fra koncept til færdigt produkt – jeg tilbyder en bred vifte af tjenester, der hjælper dig med at nå dine mål.