Das kleinste KI-Modell, das trotzdem gut genug ist

Das Modell muss nicht das größte sein – es muss groß genug sein.

Auf meinem Mac M2 Max (96 GB) laufen regelmäßig Modelle zwischen 7B und 70B Parametern. Irgendwann habe ich aufgehört, immer das größte zu nehmen, das noch reinpasst – und angefangen zu messen, wie klein ich wirklich gehen kann.

Das Ergebnis war überraschend. Und spart seitdem Speicher, Energie und Wartezeit.

Warum kleiner oft besser ist

Drei handfeste Vorteile, wenn du ein kleineres Modell nutzt – sofern es die Qualität noch schafft:

→ Weniger RAM – du hast Platz für ein zweites Modell oder andere Prozesse
→ Mehr Geschwindigkeit – kleinere Modelle antworten schneller, deine Automatisierungen laufen flüssiger
→ Weniger Energie – auf Dauer ein spürbarer Unterschied

Die Versuchung ist groß, immer nach dem Motto "viel hilft viel" das größte Modell zu nehmen, das auf den Mac passt. Aber das verschwendet Ressourcen, wenn die Aufgabe gar nicht so anspruchsvoll ist.

Die kluge Frage lautet nicht: Was ist das beste Modell?
Sondern: Was ist das kleinste, das meine Aufgabe noch gut löst?

Das Treppen-Verfahren

So gehe ich systematisch vor – ich nenne es das Treppen-Verfahren, weil du Stufe für Stufe nach unten gehst:

① Starte oben. Nimm ein Modell, von dem du sicher bist, dass es die Qualität locker schafft. Miss das Ergebnis gegen dein Qualitätsraster.

② Geh eine Stufe kleiner. Weniger Parameter oder stärker quantisiert. Miss wieder.

③ Wiederhole – solange die Qualität über deiner Schwelle bleibt.

④ Finde den Kipp-Punkt. Irgendwann fällt die Qualität unter die Schwelle. Die Stufe direkt davor – das ist dein minimales Modell für diese Aufgabe.

Kein Raten. Nur Messen.

Quantisierung als feinere Stufe

Neben der Parameterzahl gibt es noch einen zweiten Hebel: die Quantisierung.

Stärker quantisiert = kleiner und sparsamer, bei meist nur leicht geringerer Qualität. Das gibt dir Zwischenstufen zwischen den großen Modellgrößen.

Konkret: Ein 14B-Modell in Q8 kann besser sein als ein 30B-Modell in Q4 – und läuft dabei deutlich schneller. Ich teste deshalb nicht nur verschiedene Modellgrößen, sondern auch verschiedene Quantisierungsstufen des gleichen Modells.

Auf meinem Setup (M2 Max, 96 GB) hat sich bei Klassifikations-Aufgaben Qwen 2.5 14B in Q6_K als Sweet Spot herausgestellt: 42 tok/s, unter 10 GB RAM, Qualität auf Level der 30B-Variante.

Die Antwort hängt von der Aufgabe ab

Wichtig: Es gibt nicht die eine minimale Größe.

▸ Einfache Kategorisierung in wenige Klassen → oft reicht ein 7B-Modell
▸ Strukturierte Extraktion aus Dokumenten → 14B ist meist der Sweet Spot
▸ Mehrschrittige Analyse mit Kontext → 30B oder größer

Deshalb wiederholst du dieses Verfahren für jede neue Art von Aufgabe. Klingt nach Arbeit – ist aber schnell, sobald du einmal ein Qualitätsraster hast.

Wie gehst du das an? Nimmst du immer das größte Modell, das reinpasst – oder misst du systematisch? Schreib mir gerne.