Eigenen KI-Agenten bauen.

Einen funktionierenden KI-Agenten bekommen Sie an einem Wochenende auf die eigene Hardware. Schwierig ist nicht ein einzelnes Tool — schwierig ist, dass vier verschiedene Dinge alle „KI-Agent“ heißen. Hier ist die ehrliche Landkarte, die Tools, die man kennen sollte, und der Punkt, an dem sich Bezahlen wirklich lohnt.

Ein selbst gehosteter Agent besteht aus nur vier aufeinander aufbauenden Schichten. Sie zu verwechseln ist der Grund, warum die meisten schon vor dem Start hängen bleiben — also benennen wir sie.

Die vier Schichten

  • Das Modell ist das Gehirn — Llama, Qwen, DeepSeek oder ein Hermes-Finetune. Sie betreiben es entweder auf der eigenen Maschine oder rufen über einen eigenen Schlüssel eine gehostete API (OpenAI, Anthropic oder AWS Bedrock).
  • Die Laufzeit lädt und bedient dieses Modell. Auf einem Mac mini ist Ollama oder LM Studio ein Ein-Befehl-Start.
  • Das Agent-Framework (oder „Harness“) macht aus einem Modell, das nur redet, etwas, das handelt: liest Dateien, führt Befehle aus, ruft Ihre Tools auf und merkt sich Dinge.
  • Die Chat-UI ist die Eingangstür — das Fenster oder der Messenger, über den Sie tatsächlich mit ihm sprechen.

Fast alle Tools unten sind kostenlos selbst zu hosten. Ihr eigentlicher Kostenfaktor ist das Modell: entweder eine Maschine mit genug Speicher oder ein paar Cent pro Anfrage an eine gehostete API. Behalten Sie das als Preisschild im Kopf — nicht die Software.

1 · Ein Modell auf eigener Hardware betreiben

Der Engpass ist Speicher. Ein Mac mini mit Apples Unified Memory ist eine ernstzunehmende Einzelplatz-Maschine: 16 GB betreiben ein 3–7B-Modell bei 4-Bit bequem, 32 GB schaffen 14B locker und 24–32B mit etwas Quantisierung, und ein M4 Pro mit 48–64 GB erreicht Modelle der 30B-Klasse mit rund 12–18 Token pro Sekunde — etwa Lesetempo, gut für Chat, langsam für größere Mengen. Viele Nutzer gleichzeitig oder die ganz großen Modelle? Dann ist ein GPU-Server (etwa eine AWS EC2-GPU-Instanz) — oder einfach ein gehosteter API-Schlüssel — der vernünftigere Weg.

Der schnellste Weg, es laufen zu sehen: Ollama installieren, mit einem Befehl ein Modell wie Qwen oder Llama laden und eine Chat-UI wie Open WebUI darauf richten. Nach zehn Minuten läuft private KI auf Ihrer eigenen Maschine — noch kein Agent, aber das Fundament für alles Weitere.

Laufzeiten — Modell laden und bedienen

  • Ollama — Der einfachste Einstieg: ein Befehl lädt und startet ein quantisiertes Modell, mit lokaler API, die andere Tools ansprechen können. Open Source (MIT). (GitHub)
  • LM Studio — Eine schicke Desktop-App, um lokale Modelle zu finden, zu laden und zu starten — mit Chatfenster und OpenAI-kompatiblem Server. Closed Source, aber privat und beruflich kostenlos.
  • llama.cpp — Die abhängigkeitsfreie C/C++-Engine, auf der die meisten lokalen Tools aufbauen; läuft effizient auf CPUs und Apple Silicon. Open Source (MIT). (GitHub)
  • vLLM — Wenn ein einzelner Nutzer nicht mehr reicht: eine durchsatzstarke Serving-Engine für Produktion und Parallelität. Open Source (Apache-2.0). (GitHub)

Das Modell selbst ist ein separater Download. Eine ehrliche Warnung vorab: „offene Gewichte“ heißt selten „Open Source“ im strengen Sinn — jede Familie bringt ihre eigene Lizenz mit, und einige schränken die kommerzielle Nutzung ein oder hängen eine Nutzungsrichtlinie an.

Offene Modelle

  • Meta Llama — Die am breitesten unterstützte Familie offener Gewichte, von 8B bis zu den größten offenen Releases. Quelloffen verfügbar unter Metas eigener Llama Community License — kein OSI-Open-Source, mit einer Klausel für sehr große Deployments. (GitHub)
  • Qwen — Alibabas Familie, von winzigen 0,6B-Modellen bis zu großen Mixture-of-Experts, stark in Logik und Code. Echt freizügig (Apache-2.0). (GitHub)
  • DeepSeek — Das Basismodell V3 und das Reasoning-Modell R1. R1 und die aktuellen V3-Gewichte sind MIT-lizenziert; das ursprüngliche V3-Release nutzte DeepSeeks eigene Modell-Lizenz — prüfen Sie die Version, die Sie laden. (GitHub)
  • Mistral / Mixtral — Schlanke europäische Modelle mit starkem Preis-Leistungs-Verhältnis; das klassische Mistral 7B und Mixtral sind Apache-2.0, einige neuere nicht. (GitHub)
  • Nous Hermes — Finetunes offener Basismodelle, optimiert auf Steuerbarkeit und Tool-Aufrufe — ein gutes „Agenten-Gehirn“. Erbt die Lizenz des Basismodells (z. B. Llama). (GitHub)

2 · Der Agent — Frameworks, die handeln

Ein Modell allein erzeugt nur Text. Ein Harness gibt ihm Hände: Tools, Dateizugriff, eine Kommandozeile, Gedächtnis. Eine neue Welle von „persönlichen Assistenten zum Selbsthosten“ lässt sich aus einer Chat-App steuern, die Sie ohnehin nutzen — WhatsApp, Telegram, Slack — und daneben gibt es ein ausgereiftes Feld an Entwickler-Agenten, wenn Ihre Arbeit Code ist.

Persönliche & Allzweck-Agenten

  • OpenClaw — Ein selbst gehosteter persönlicher Agent auf der eigenen Maschine, gesteuert aus Chat-Apps — WhatsApp, Telegram, Slack, Signal und mehr; liest Dateien, kümmert sich um Kalender und E-Mail, surft und führt Befehle aus. Open Source (MIT). (GitHub)
  • NanoClaw — Eine bewusst winzige, container-isolierte Variante derselben Idee — klein genug, um den Code wirklich zu lesen, jeder Agent in Docker gekapselt. Open Source (MIT). (GitHub)
  • Hermes Agent — Der selbstlernende CLI-Agent von Nous Research mit Lernschleife, rund 40 eingebauten Tools und Zugriff über mehrere Kanäle. Modellunabhängig und Open Source (MIT). Achtung: der Agent, nicht das gleichnamige Modell. (GitHub)
  • Goose — Blocks erweiterbarer Agent auf der eigenen Maschine (Desktop, CLI und API), der Tools über MCP anbindet und mit jedem LLM arbeitet. Open Source (Apache-2.0). (GitHub)
  • Open Interpreter — Lässt ein LLM per natürlicher Sprache Code auf Ihrer Maschine ausführen — der einfachste „bring meinen Rechner dazu, etwas zu tun“-Agent. Open Source (Apache-2.0). (GitHub)

Wenn Ihre Arbeit Code ist

  • OpenHands — Wenn Ihre „Tools“ Codebasen sind: ein Agent, der Code bearbeitet, Befehle ausführt und APIs aufruft wie ein Entwickler. Open Source (MIT), mit bezahlter Cloud. Früher OpenDevin. (GitHub)
  • Aider — Ein KI-Pair-Programmer im Terminal mit tiefer Git-Integration, der über ein ganzes Repo hinweg arbeitet und 100+ Modelle unterstützt. Open Source (Apache-2.0). (GitHub)

Eine ehrliche Warnung, bevor Sie weitergehen: Diese Agenten können Befehle ausführen und Ihre Dateien anfassen — genau das ist der Sinn, und genau das ist das Risiko. Der Abschnitt zur Sicherheit weiter unten ist nicht optional.

3 · Orchestrierung & No-Code-Baukästen

Wenn ein Agent einen mehrstufigen Ablauf befolgen, mehrere Unter-Agenten koordinieren soll oder Sie Logik lieber auf einer visuellen Fläche statt in Code verdrahten, greifen Sie zu einer Orchestrierungs-Schicht. Die reichen von Code-Bibliotheken bis Drag-and-drop — auch AG2 und Rivet sind einen Blick wert.

Frameworks & Baukästen

  • LangGraph — Eine Low-Level-Bibliothek für zustandsbehaftete, graphförmige Agent-Abläufe mit dauerhafter Ausführung und Human-in-the-Loop-Checkpoints. Open Source (MIT). (GitHub)
  • CrewAI — Orchestriert eine „Crew“ von Agenten, die jeweils eine Rolle übernehmen und sich eine Aufgabe teilen. Schlank und eigenständig. Open Source (MIT). (GitHub)
  • Letta — Rund um dauerhaftes Langzeitgedächtnis gebaut, damit Agenten sich über Sitzungen hinweg erinnern. Früher MemGPT. Open Source (Apache-2.0). (GitHub)
  • smolagents — Hugging Faces rund 1.000 Zeilen kurze Bibliothek, deren Agenten ihre Aktionen als Python schreiben — minimal und modellunabhängig. Open Source (Apache-2.0). (GitHub)
  • Dify — Eine überwiegend visuelle Plattform für Agent-Workflows, RAG und LLM-Apps, selbst hostbar. Quelloffen verfügbar unter eigener Lizenz (Apache-Basis plus einige Einschränkungen). (GitHub)
  • Flowise — Drag-and-drop-Baukasten für Chatbots und Agenten — ein visueller Einstieg ohne viel Code. Open Source (Apache-2.0). (GitHub)
  • n8n — Workflow-Automatisierung mit Hunderten Integrationen und nativen KI-Knoten — die Brücke zwischen „Agent“ und schlichter Automatisierung. Source-available (fair-code), kostenlos selbst zu hosten. (GitHub)

4 · Ein Gesicht dafür — Chat-UIs

Wenn Sie ein sauberes Fenster wollen, um mit Ihrem Modell zu sprechen — im Browser, auf dem Handy, im ganzen Team — gibt Ihnen eine selbst gehostete Chat-UI genau das, ohne ein einziges Wort an fremde Server zu schicken.

  • Open WebUI — Eine funktionsreiche, selbst gehostete Oberfläche für Ollama und OpenAI-kompatible APIs, mit RAG und Tools. Quelloffen verfügbar (BSD mit Branding-Klausel). (GitHub)
  • LibreChat — Eine Mehrmodell-Oberfläche im ChatGPT-Stil mit Agenten, MCP, Suche und Mehrbenutzer-Betrieb. Open Source (MIT). (GitHub)
  • AnythingLLM — Eine Alles-in-einem-App (Desktop/Docker) für privaten Chat über Ihre eigenen Dokumente, mit Agenten und Arbeitsbereichen. Open Source (MIT). (GitHub)
  • Khoj — Ein selbst hostbares „zweites Gehirn“, das aus Ihren Dokumenten oder dem Web antwortet und eigene Automatisierungen plant. Open Source (AGPL-3.0). (GitHub)

Wie es sich an Ihre Tools anbindet — MCP

Das Stück, das alles zusammenhält, ist das Model Context Protocol (MCP), Anthropics offener Standard — inzwischen von der Community getragen — um einen Agenten an Ihre Tools und Daten anzubinden. Gmail, Ihr Kalender, eine Datenbank, Ihr CRM: jedes wird zu einem „MCP-Server“, den der Agent aufrufen kann. Die meisten Frameworks oben sprechen MCP, sodass ein einmal eingerichteter Anschluss überall funktioniert.

  • Model Context Protocol — Die offizielle Doku zum offenen Standard, der Agenten mit Tools und Daten verbindet — hier fängt man an, die Verkabelung zu verstehen.
  • awesome-mcp-servers — Ein großes, von der Community gepflegtes Verzeichnis fertiger MCP-Server, von Gmail und Slack bis Postgres und Dateisystem. Open Source (MIT). (GitHub)

Der Teil, den die meisten überspringen — Sicherheit

Ein Agent, der für Sie handeln kann, kann in Ihrem Namen auch das Falsche tun. Ein paar Regeln, bevor Sie ihn an echte Konten lassen:

  • Geheimnisse gehören in einen Tresor, nie in einen Prompt.
  • Geben Sie ihm die wenigsten Rechte, mit denen er tatsächlich funktioniert.
  • Lassen Sie sich jede zerstörerische oder ausgehende Aktion vorab bestätigen.
  • Stellen Sie ihn nicht offen ins Internet.

OWASP veröffentlicht dafür kurze, eigens geschriebene Risikolisten — lesenswert, bevor Sie etwas Echtes anbinden.

  • OWASP Top 10 für LLM-Anwendungen — Die maßgebliche Liste der LLM-Risiken — Prompt Injection, Datenabfluss, übermäßige Handlungsmacht und mehr. Die Basis-Checkliste.
  • OWASP Top 10 für agentische Anwendungen — Der agentenspezifische Nachfolger: Ziel-Kaperung, Identitätsmissbrauch, außer Kontrolle geratene Autonomie und wo ein Mensch im Spiel bleiben muss.
  • OWASP Secrets Management Cheat Sheet — Praktische Hinweise zum Speichern, Rotieren und Minimal-Berechtigen der API-Schlüssel und Logins, die Ihr Agent braucht.

Tiefer einsteigen?

  • Anthropic — Building Effective AI Agents — Die meistzitierte Einführung in den Unterschied zwischen Workflows und Agenten, mit wiederverwendbaren Mustern. Kostenlos lesbar.
  • OpenAI — A Practical Guide to Building Agents — Ein kostenloses PDF zu Modellen, Tools, Leitplanken und Orchestrierung, aus echten Einsätzen abgeleitet.
  • Hugging Face — AI Agents Course — Ein kostenloser, praxisnaher Kurs von den Grundlagen bis zu smolagents und LangGraph. (GitHub)

Wo ich ins Spiel komme. Alles oben ist echt und erreichbar — Sie können es selbst zusammenbauen, und wenn Sie es lernen wollen, sind diese Links ein echter Startpunkt. Was ich verkaufe, ist etwas anderes: ein sauberer Aufbau mit Ihren echten Tools, auf einer Plattform, die bereits bei zahlenden Kunden im Einsatz ist, mit sauber eingerichteter Sicherheit und der Wartung von Ihrem Tisch. Wenn Sie lieber selbst bauen und nur einen Resonanzkörper brauchen, fragen Sie — ich zeige Ihnen gern den Weg.

Oder bauen lassen — Ihr eigener KI-Agent

Häufige Fragen.

Brauche ich eine GPU?

Nicht zwingend. Ein Mac mini mit 16–32 GB Unified Memory betreibt kleine bis mittlere Modelle für eine Person problemlos. Eine eigene GPU brauchen Sie erst für große Modelle oder viele gleichzeitige Nutzer — und selbst dann ist ein gehosteter API-Schlüssel oft günstiger als gekaufte Hardware.

Mit welchem Modell fange ich an?

Mit dem, das Ihre Laufzeit leicht macht. Ollama holt Llama oder Qwen mit einem Befehl, und ein 8–14B-Modell reicht zum Lernen völlig. Größer wird es erst, wenn Sie an eine echte Grenze stoßen.

Sind meine Daten beim Selbsthosten sicher?

Von Haus aus sicherer — nichts verlässt Ihre Maschine, außer Sie schicken es raus. Aber „selbst gehostet“ heißt nicht automatisch „sicher“: ein Agent mit Ihren API-Schlüsseln und weiten Rechten ist eine echte Angriffsfläche. Lesen Sie die OWASP Top 10 für LLMs, bevor Sie ihn an echte Konten lassen.

Open Source oder Ihre Plattform — was ist der echte Unterschied?

Die Open-Source-Teile sind kostenlos und leistungsfähig; die Arbeit steckt darin, sie sauber zusammenzufügen, abzusichern und am Laufen zu halten. Meine Plattform ist genau diese Arbeit — bereits erledigt und im laufenden Betrieb. Wenn Sie gern basteln, machen Sie es selbst. Wenn Sie es lieber erledigt haben wollen, ist genau das mein Angebot.

Helfen Sie, wenn ich beim Selbstbauen hängenbleibe?

Ja. Viele fangen allein an und melden sich, wenn eine Integration oder die Sicherheit knifflig wird. Ein kurzes Gespräch reicht meist, um Sie wieder flottzubekommen.