Datum: Date: AI & Hardware AI & Hardware Lesezeit: Read time: 5 Minuten 5 minutes

Llama auf einem alten Thinkpad: Was geht, was nicht geht Llama on an Old Thinkpad: What Works, What Doesn't

Ein ehrlicher Erfahrungsbericht über lokale LLMs auf bescheidener Hardware. An honest experience report about local LLMs on modest hardware.

In einer Welt, in der jeder über H100 GPUs und riesige Cluster redet, wollte ich wissen: Was passiert, wenn man den Trend in die entgegengesetzte Richtung treibt? Kann man moderne Large Language Models (LLMs) auf Hardware laufen lassen, die eigentlich schon Rente hat?

Ich habe mir meinen alten Lenovo ThinkPad T480 vorgenommen. Ein Arbeitstier aus dem Jahr 2018. Keine dedizierte Grafikkarte, kein Tensor-Core-Schnickschnack. Nur CPU, RAM und viel Geduld.

Hier ist mein ehrlicher Erfahrungsbericht.

Die Spezifikationen: Der Underdog

Bevor wir in die Ergebnisse eintauchen, hier der "Gegner":

Lenovo ThinkPad T480

CPU Intel Core i5-8250U
RAM 16 GB DDR4
GPU Intel UHD 620
Speicher 500 GB NVMe SSD

Das ist keine Hardware für Deep Learning Training. Aber für Inference (das Anwenden des Modells) reicht es oft – wenn man weiß, wie man die Modelle schrumpft.

Was geht: Quantisierung ist der Schlüssel

Das große Zauberwort heißt Quantisierung. Wer LLMs lokal laufen lassen will, kommt an llama.cpp (oder Ollama als Frontend) nicht vorbei. Diese Tools wandeln die Fließkommazahlen der Modelle (FP16) in ganze Zahlen (z.B. 4-Bit oder 8-Bit Integer) um.

Das Ergebnis: Das Modell wird zwar minimal "dümmer", aber der Speicherbedarf und die Rechenleistung drastisch sinken.

Mein Setup

Ich habe Llama 3 (8B) in einer 4-Bit-Quantisierung getestet.

  • Modellgröße: Ca. 5 GB auf der Festplatte
  • RAM-Verbrauch: Ca. 6-7 GB im RAM
  • Performance: Auf der CPU erreichte ich ca. 3 bis 5 Token pro Sekunde

Das Fazit: Es ist erstaunlich, dass es überhaupt funktioniert! Für Chat-Bot-Interaktionen, Zusammenfassungen oder Brainstorming ist diese Geschwindigkeit akzeptabel. Man liest schneller, als der Thinkpad schreiben kann, aber für einen "gedanklichen Partner" reicht es völlig aus.

Besonders gut liefen kleinere Modelle wie Phi-3 Mini oder Gemma 2B. Hier erreichte ich fast 8-10 Token/Sekunde, was sich schon fast flüssig anfühlt.

Was nicht geht: Die Grenzen der Geduld

Natürlich gibt es Gründe, warum Leute Tausende von Euro für GPUs ausgeben. Auf dem T480 stieß ich schnell an harte Grenzen.

1. Kontext-Fenster (Context Window)

Je mehr Text du dem Modell als Vorlage gibst (Prompt), desto langsamer wird es. Bei einem Kontext von 4.000 oder 8.000 Token merkt man deutlich, wie die Generierung ins Schleudern gerät. Das Analysieren ganzer PDF-Dokumente ist hier eine Übung in Zen-Meister-Geduld.

2. Code-Generierung

Lokale Modelle sind gut im Schreiben von Text, aber beim Code-Generieren scheitert die CPU oft an der Logik-Prüfung. Ich habe versucht, einfache Python-Skripte schreiben zu lassen. Das Ergebnis war oft Syntax-korrekt, aber logisch unsinnig. Größere Modelle (wie Llama 3 70B) wären hier besser, aber die lassen sich auf 16 GB RAM schlichtweg nicht laden.

3. Multimodalität (Bilder)

Vergiss es. Modelle, die Bilder verstehen (wie LLaVA), brauchen VRAM. Die Intel iGPU des T480 reicht nicht aus, um die Bildverarbeitung zu beschleunigen. Alles läuft über die CPU, was das System für mehrere Sekunden einfriert.

Die Hürden: Wärme und Lüfter

Ein Punkt, der oft vergessen wird: Die Physik.

Wenn ein LLM auf der CPU rechnet, lastet es alle Kerne zu 100% aus. Mein ThinkPad klang nach wenigen Minuten wie ein abhebender Airbus. Die Lüfterdrehszahl schoss in die Höhe, und das Gehäuse wurde heiß.

Das ist für kurze Sessions okay, aber ich würde nicht empfehlen, auf dieser Hardware stundenlang Dokumente zu analysieren. Der Stromverbrauch ist im Verhältnis zur Leistung auch nicht gerade ökologisch.

Fazit: Es ist möglich, aber mit Abstrichen

Warum sollte man das überhaupt tun? Warum nicht einfach ChatGPT im Browser nutzen?

  • Datenschutz. Mein Thinkpad hat kein Mikrofon, das auf "Hey Siri" wartet, und keine Daten verlassen mein Haus, wenn ich mit Llama chatte. Für sensible Notizen oder persönliche Journal-Einträge ist das Gold wert.
  • Kosten. Einmaliger Aufwand. Keine API-Gebühren pro Token.
  • Lerneffekt. Man versteht die Architektur der Modelle viel besser, wenn man gezwungen ist, sie zu optimieren.

Meine Empfehlung

Wenn du einen alten Laptop mit mindestens 16 GB RAM herumstehen hast:

  • Probier es aus! Installiere Ollama oder LM Studio.
  • Nimm kleine Modelle: phi-3, gemma:2b oder llama3:8b (4-bit).
  • Nutze es als Zweit-Gehirn: Für Zusammenfassungen und Text-Korrekturen.

Wenn du weniger als 16 GB RAM hast oder komplexe Aufgaben erledigen willst: Bleib bei Cloud-Lösungen. Der Frust ist sonst größer als der Gewinn.

Der Thinkpad ist nicht tot. Er hat einfach einen neuen Job bekommen.

In a world where everyone talks about H100 GPUs and massive clusters, I wanted to know: What happens if you push the trend in the opposite direction? Can you run modern Large Language Models (LLMs) on hardware that should already be retired?

I took on my old Lenovo ThinkPad T480. A workhorse from 2018. No dedicated graphics card, no Tensor-Core gimmicks. Just CPU, RAM, and lots of patience.

Here is my honest experience report.

The Specifications: The Underdog

Before we dive into the results, here's the "opponent":

Lenovo ThinkPad T480

CPU Intel Core i5-8250U
RAM 16 GB DDR4
GPU Intel UHD 620
Storage 500 GB NVMe SSD

This is not hardware for Deep Learning training. But for inference (applying the model), it's often enough – if you know how to shrink the models.

What Works: Quantization is Key

The magic word is quantization. Anyone who wants to run LLMs locally can't avoid llama.cpp (or Ollama as a frontend). These tools convert the model's floating-point numbers (FP16) into integers (e.g., 4-bit or 8-bit).

The result: The model becomes minimally "dumber", but memory requirements and computing power drop drastically.

My Setup

I tested Llama 3 (8B) in 4-bit quantization.

  • Model Size: About 5 GB on disk
  • RAM Usage: About 6-7 GB in RAM
  • Performance: On CPU, I achieved about 3 to 5 tokens per second

The Verdict: It's amazing that it works at all! For chatbot interactions, summaries, or brainstorming, this speed is acceptable. You read faster than the ThinkPad can write, but for a "thought partner" it's completely sufficient.

Smaller models like Phi-3 Mini or Gemma 2B worked particularly well. Here I achieved almost 8-10 tokens/second, which feels almost fluid.

What Doesn't Work: The Limits of Patience

Of course, there are reasons why people spend thousands of euros on GPUs. On the T480, I quickly hit hard limits.

1. Context Window

The more text you give the model as a template (prompt), the slower it gets. With a context of 4,000 or 8,000 tokens, you can clearly notice the generation struggling. Analyzing entire PDF documents here is an exercise in Zen master patience.

2. Code Generation

Local models are good at writing text, but when it comes to code generation, the CPU often fails at logic checking. I tried having simple Python scripts written. The result was often syntactically correct, but logically nonsensical. Larger models (like Llama 3 70B) would be better here, but they simply can't be loaded on 16 GB RAM.

3. Multimodality (Images)

Forget it. Models that understand images (like LLaVA) need VRAM. The Intel iGPU of the T480 is not sufficient to accelerate image processing. Everything runs through the CPU, which freezes the system for several seconds.

The Hurdles: Heat and Fans

One point that's often forgotten: Physics.

When an LLM computes on the CPU, it loads all cores to 100%. My ThinkPad sounded like a taking-off Airbus after just a few minutes. The fan speed shot up, and the case got hot.

This is okay for short sessions, but I wouldn't recommend analyzing documents for hours on this hardware. The power consumption is also not exactly ecological in relation to the performance.

Conclusion: It's Possible, But With Compromises

Why do this at all? Why not just use ChatGPT in the browser?

  • Privacy. My ThinkPad doesn't have a microphone waiting for "Hey Siri", and no data leaves my house when I chat with Llama. For sensitive notes or personal journal entries, this is gold.
  • Cost. One-time expense. No API fees per token.
  • Learning Effect. You understand the model architecture much better when you're forced to optimize them.

My Recommendation

If you have an old laptop with at least 16 GB RAM lying around:

  • Try it! Install Ollama or LM Studio.
  • Take small models: phi-3, gemma:2b or llama3:8b (4-bit).
  • Use it as a second brain: For summaries and text corrections.

If you have less than 16 GB RAM or want to accomplish complex tasks: Stick with cloud solutions. Otherwise, the frustration is greater than the gain.

The ThinkPad is not dead. It just got a new job.

Technischer Hinweis: Dieser Blogpost wurde mit Unterstützung von GLM-4.7 verfasst. Technical Note: This blog post was written with assistance from GLM-4.7.

Zurück zum Notizbuch Back to Notebook