Was als Experiment auf einzelnen Entwicklergeräten begann, ist inzwischen ein fester Bestandteil unserer Tooling-Landschaft geworden. Um auch grössere Modelle nutzen und KI-gestützte Prozesse unabhängig vom Arbeitsplatz skalieren zu können, betreiben wir mittlerweile einen eigenen dedizierten Server für KI-Aufgaben.
Im letzten Blog-Post haben wir das Modell Qwen 2.5-Coder in verschiedenen Grössen ausgetestet. Dabei hat sich herausgestellt, dass das 7b (= 7 Milliarden Knotenpunkte) am besten auf unseren Notebooks läuft. 14b sehr gut auf unseren Desktops und 32b zwar bessere Antworten liefert, aber für die lokale Verwendung sehr langsam ist.
Da mehr Knotenpunkte zu besserem Verständnis der Fragestellung sowie des mitgelieferten Kontexts führen ist es uns natürlich ein Anliegen möglichst grosse Modelle zu betreiben.
Daher haben wir uns zum Ziel gesetzt zumindest Modelle im Bereich zwischen 30b und 40b sehr performant ausführen zu können und noch grössere Modelle wie das recht aktuelle GPT-OSS (Open Source Variante von GPT) in der 120b Ausführung noch brauchbare Antwortzeiten liefern.
Ausserdem lassen sich bestimmte Anwendungsfälle, wie z.B. automatisierte Code-Analysen bei Pull Requests, nicht sinnvoll auf einem lokalen Entwicklergerät realisieren.
Zentrale Wartung und Updates werden deutlich einfacher, wenn nicht jeder Entwickler die Modelle selbst betreiben muss.
Der neue Server läuft ebenfalls mit ollama in isolierten Containern, bleibt also unserem Ansatz treu – aber mit deutlich mehr Luft nach oben:
- Nvidia RTX 5090 Astral mit Wasserkühlung
- Intel Core Ultra 9
- 192 GB DDR5‑RAM
Diese Kombination liefert genug Leistung für grosse Sprachmodelle und garantiert stabile Performance selbst bei gleichzeitiger Mehrbenutzer‑Auslastung. Ausserdem haben wir beim zusammenstellen der Hardware darauf geachtet, dass sie bei Bedarf einfach erweitert werden kann und wir nicht gleich alles austauschen müssen.
Durch die zentrale Verfügbarkeit können IDEs auf Entwickler-Rechnern nun einfach den ollama-Endpunkt auf dem Server ansprechen. Das reduziert die Anforderungen an die lokale Hardware drastisch – die Modelle laufen performant im Hintergrund, die Entwickler merken davon im Alltag nur eines: schnellere Antworten und ein stabileres Nutzererlebnis.