KI lokal betreiben: Datenschutzkonform und performant

Zusammenfassung

Wie wir LLMs lokal betreiben, statt Cloudlösungen zu nutzen
Unser Hardware-Setup
Unsere Erfahrungen mit Stabilität und Performanz
Use Cases für lokale LLMs im Bereich Software Engineering

Wie wir KI lokal betreiben: Vom lokalen Test zur produktiven Infrastruktur

Was als Experiment auf einzelnen Entwicklergeräten begann, ist inzwischen ein fester Bestandteil unserer Tooling-Landschaft geworden. Um auch grössere Modelle nutzen und KI-gestützte Prozesse unabhängig vom Arbeitsplatz skalieren zu können, betreiben wir mittlerweile einen eigenen dedizierten Server für KI-Aufgaben.

Im letzten Blog-Post haben wir das Modell Qwen 2.5-Coder in verschiedenen Grössen ausgetestet. Dabei hat sich herausgestellt, dass das 7b (= 7 Milliarden Knotenpunkte) am besten auf unseren Notebooks läuft. 14b sehr gut auf unseren Desktops und 32b zwar bessere Antworten liefert, aber für die lokale Verwendung sehr langsam ist.

Da mehr Knotenpunkte zu besserem Verständnis der Fragestellung sowie des mitgelieferten Kontexts führen ist es uns natürlich ein Anliegen möglichst grosse Modelle zu betreiben.

Daher haben wir uns zum Ziel gesetzt zumindest Modelle im Bereich zwischen 30b und 40b sehr performant ausführen zu können und noch grössere Modelle wie das recht aktuelle GPT-OSS (Open Source Variante von GPT) in der 120b Ausführung noch brauchbare Antwortzeiten liefern.

Ausserdem lassen sich bestimmte Anwendungsfälle, wie z.B. automatisierte Code-Analysen bei Pull Requests, nicht sinnvoll auf einem lokalen Entwicklergerät realisieren.

Zentrale Wartung und Updates werden deutlich einfacher, wenn nicht jeder Entwickler die Modelle selbst betreiben muss.

Unser Setup für lokale KI: Dedizierter KI-Server im eigenen Netzwerk

Der neue Server läuft ebenfalls mit ollama in isolierten Containern, bleibt also unserem Ansatz treu – aber mit deutlich mehr Luft nach oben:

Nvidia RTX 5090 Astral mit Wasserkühlung
Intel Core Ultra 9
192 GB DDR5‑RAM

Diese Kombination liefert genug Leistung für grosse Sprachmodelle und garantiert stabile Performance selbst bei gleichzeitiger Mehrbenutzer‑Auslastung. Ausserdem haben wir beim zusammenstellen der Hardware darauf geachtet, dass sie bei Bedarf einfach erweitert werden kann und wir nicht gleich alles austauschen müssen.

Durch die zentrale Verfügbarkeit können IDEs auf Entwickler-Rechnern nun einfach den ollama-Endpunkt auf dem Server ansprechen. Das reduziert die Anforderungen an die lokale Hardware drastisch – die Modelle laufen performant im Hintergrund, die Entwickler merken davon im Alltag nur eines: schnellere Antworten und ein stabileres Nutzererlebnis.

Neue Möglichkeiten: KI Use Cases ausserhalb der Entwicklungsumgebung

Mit der erhöhten Rechenleistung eröffnen sich für uns neue Einsatzszenarien, die über die reine Chat-Funktion oder Code-Completion hinausgehen:

Code Review als Service
Wir setzen mittlerweile ein Tool ein, welches es automatisch den Inhalt von Pull Requests analysiert und Verbesserungsvorschläge, sowie eine Auflistung potentieller Probleme, generiert. Die Ergebnisse sind noch nicht perfekt, aber geben oftmals wertvolle Denkanstösse.

Dokumenten-Analyse
In Kombination mit RAG-Ansätzen können Modelle nun auch grössere Projektdokumentationen durchsuchen und präzise Antworten liefern.

Asynchrone Nutzung
Da der Server dauerhaft online ist, können Prompts über z. B. Git-Hooks, Scheduled Tasks oder CI/CD-Pipelines verarbeitet werden – ohne dass ein Entwickler aktiv vor Ort sein muss.

KI lokal betreiben: Datenschutz als zentrale Anforderung

Wichtig ist uns: Auch auf dem zentralen Server bleibt alles lokal. Kein Request verlässt unser Netzwerk, keine Kundendaten werden an Dritte übermittelt.

Die Kombination aus Performance und Datenschutz ist dabei ein echtes Alleinstellungsmerkmal. Während viele Unternehmen entweder auf Cloud-Lösungen setzen oder aus Datenschutzgründen komplett auf KI verzichten, gehen wir bewusst einen Mittelweg: Leistung auf Enterprise-Niveau – ohne Kompromisse beim Datenschutz.

Fazit: Ein grosser Schritt vorwärts in der Verwendung von lokaler KI

Mit dem neuen KI-Server ist unser Setup nicht nur stabiler, sondern auch zukunftssicherer geworden. Die Möglichkeit, leistungsstarke Modelle zentral bereitzustellen und neue Tools unabhängig von der IDE zu entwickeln, bringt uns bei der produktiven Nutzung von KI im gesamten Entwicklungsprozess merklich weiter.

Besonders für Unternehmen, in denen Datenschutz und Kontrolle über die KI im Vordergrund stehen, bietet unsere lokale Lösung eine interessante Alternative zur Cloud-KI – technisch machbar und wirtschaftlich attraktiv.

Stefan Dunst

Software Engineering

Können wir Sie beim Thema datenschutzkonforme LLMs unterstützen?

Jetzt unverbindlich kontaktieren

Keine Insights mehr verpassen – Folgen Sie uns jetzt auf