LLM, Token, Prompt — die wichtigsten KI-Begriffe erklärt

Wer sich mit KI-Tools wie Claude, ChatGPT oder Gemini beschäftigt, stolpert schnell über Begriffe, die selten jemand vernünftig erklärt. Hier ist eine Übersicht — gruppiert nach Thema, so knapp wie möglich, so genau wie nötig.

Grundlagen — was KI eigentlich ist

Generative KI

Der Oberbegriff für KI, die neue Inhalte erzeugt: Texte, Bilder, Audio, Video, Code. Claude, ChatGPT, Midjourney, DALL-E — all das fällt unter Generative KI. Im Unterschied dazu gibt es KI, die nur analysiert oder klassifiziert (z.B. Spam-Filter), aber nichts Neues erzeugt.

LLM — Large Language Model

Die Technologie hinter Claude, ChatGPT und Co. Ein LLM ist ein Sprachmodell, das auf riesigen Mengen Text trainiert wurde. Es hat dabei gelernt, wie Sprache funktioniert — Grammatik, Zusammenhänge, Fachwissen, Stil. Wenn du Claude etwas fragst, generiert es die Antwort Wort für Wort, basierend auf dem, was im Kontext am wahrscheinlichsten passt.

Ein LLM „weiß" nichts im menschlichen Sinn. Es hat kein Gedächtnis zwischen Sitzungen (es sei denn, Memory ist aktiviert) und keine eigene Meinung.

Transformer

Die Architektur, auf der praktisch alle modernen Sprachmodelle aufbauen. Entwickelt 2017 bei Google. Der entscheidende Vorteil: Transformer können Beziehungen zwischen Wörtern über lange Textpassagen hinweg erkennen — nicht nur benachbarte Wörter. Ohne Transformer gäbe es weder ChatGPT noch Claude.

GPT — Generative Pre-trained Transformer

Der Name der Modellarchitektur hinter ChatGPT. Steht für „Generative Pre-trained Transformer". Der Begriff wird oft als Synonym für LLMs allgemein verwendet, auch wenn das technisch nicht ganz korrekt ist. Claude nutzt ebenfalls die Transformer-Architektur, aber mit eigener Modellentwicklung und eigenem Training.

Modell

Eine konkrete Version eines LLMs. Claude hat mehrere: Opus (am leistungsfähigsten), Sonnet (ausgewogen), Haiku (am schnellsten). OpenAI hat GPT-4o, Google hat Gemini. Verschiedene Modelle haben unterschiedliche Stärken — größere liefern in der Regel bessere Ergebnisse, brauchen aber länger und verbrauchen mehr Token.

Parameter

Die internen Zahlenwerte eines Modells, die beim Training angepasst wurden. Wenn jemand sagt „das Modell hat 70 Milliarden Parameter", ist das ein grobes Maß für die Größe und Kapazität. Mehr Parameter bedeutet in der Regel: mehr Wissen, bessere Ergebnisse, aber auch mehr Rechenaufwand.

Wie man mit KI arbeitet

Token

Token sind die Einheit, in der LLMs Text verarbeiten. Ein Token ist nicht gleich ein Wort — eher ein Wortbaustein. „Datenschutzerklärung" besteht aus mehreren Token, „ja" ist ein einziger.

Dein Nutzungslimit wird in Token gemessen. Jede Nachricht und jede Antwort verbraucht Token. Auch Dokumente und der bisherige Chatverlauf zählen dazu. Faustregel für Englisch: 1.000 Token ≈ 750 Wörter. Auf Deutsch eher 500–650 Wörter, weil deutsche Wörter im Schnitt länger sind und in mehr Token zerlegt werden.

Prompt

Der Prompt ist das, was du dem Modell schickst — deine Frage, dein Auftrag, dein Input. Die Qualität des Prompts bestimmt die Qualität der Antwort. Ein vager Prompt liefert eine vage Antwort. Ein Prompt mit klarem Kontext und definiertem Format liefert fast immer etwas Brauchbares beim ersten Versuch.

Prompt Engineering

Die Fertigkeit, Prompts so zu formulieren, dass das Modell zuverlässig das gewünschte Ergebnis liefert. Dazu gehört: Kontext geben, die Rolle des Modells definieren, das Ausgabeformat benennen, Einschränkungen setzen. Kein Hexenwerk, aber ein spürbarer Unterschied.

Context Window

Die maximale Menge an Text, die ein Modell gleichzeitig verarbeiten kann — Prompt, Chatverlauf und Antwort zusammen. Bei den aktuellen Claude-Modellen (Opus und Sonnet) liegt das Context Window bei 1 Million Token. Beim schnellsten Modell (Haiku) sind es 200.000.

Wenn ein Chat zu lang wird, fällt der Anfang aus dem Context Window heraus. Das Modell „vergisst" dann die ersten Nachrichten. Deshalb: für neue Themen einen neuen Chat starten.

System Prompt / Custom Instructions

Eine Anweisung, die vor deiner eigentlichen Frage an das Modell geht. Du siehst sie nicht bei jeder Nachricht, aber sie wirkt im Hintergrund.

Bei Claude heißt das Feature „Custom Instructions" — du kannst global festlegen, wie Claude antworten soll, oder pro Project spezifische Regeln definieren. Spart Zeit, weil du Dinge nicht wiederholen musst.

Wie KI trainiert wird

Trainingsdaten

Die Texte, Bücher, Webseiten und Dokumente, mit denen ein LLM trainiert wurde. Das Modell lernt daraus Sprache, Fakten und Muster. Was in den Trainingsdaten fehlt, kennt das Modell nicht. Was verzerrt ist, übernimmt es möglicherweise als Verzerrung.

Wissensstichtag (Knowledge Cutoff)

Das Datum, bis zu dem die Trainingsdaten reichen. Claude oder ChatGPT wissen nichts über Ereignisse nach diesem Stichtag — es sei denn, sie haben Zugriff auf Websuche oder du gibst die Information im Chat mit.

Fine-Tuning

Ein bestehendes LLM mit zusätzlichen, spezifischen Daten nachtrainieren. Ein Unternehmen könnte ein Modell z.B. mit eigenen Support-Tickets trainieren, damit es besser auf Kundenanfragen antwortet. Aufwändig und teuer — als normaler Nutzer macht man das nicht.

RLHF — Reinforcement Learning from Human Feedback

Das Trainingsverfahren, das dafür sorgt, dass Chatbots brauchbare Antworten geben. Menschen bewerten die Antworten eines Modells — was war hilfreich, was war schlecht. Das Modell lernt daraus, welche Antworten erwünscht sind. Ohne RLHF wären heutige Chatbots deutlich schwerer zu benutzen.

Technische Konzepte

Temperature

Steuert, wie „kreativ" ein Modell antwortet. Niedrig: vorhersehbar, konsistent. Hoch: mehr Variation, aber auch mehr Risiko für Unsinn. Als Nutzer stellt man das selten selbst ein — aber es erklärt, warum Claude manchmal auf dieselbe Frage leicht unterschiedlich antwortet.

Inferenz

Der Moment, in dem ein trainiertes Modell tatsächlich eine Antwort generiert. Training ist der Lernprozess (Monate, enorme Rechenleistung). Inferenz ist die Anwendung (Sekunden, bei jeder Nachricht).

API

Eine Schnittstelle, über die Software mit Software kommuniziert. Die Claude-API erlaubt Entwicklern, Claude in eigene Anwendungen einzubauen. Viele Apps, die „mit KI" werben, nutzen im Hintergrund die API von Claude oder OpenAI.

MCP — Model Context Protocol

Ein offener Standard, der KI-Modellen erlaubt, sich mit externen Tools zu verbinden. Entwickelt von Anthropic, offen für alle. Über MCP kann Claude auf E-Mails zugreifen, in Google Drive suchen oder Notion-Seiten lesen — das sind die „Connectors" in Claude. Aktuell über 50 Verbindungen.

RAG — Retrieval-Augmented Generation

Ein Verfahren, bei dem ein LLM vor der Antwort relevante Dokumente aus einer Datenbank abruft. Statt nur aus dem Trainingsmaterial zu antworten, arbeitet das Modell mit aktuellen Informationen. Wenn du bei Claude ein PDF hochlädst, wird es direkt in den Kontext geladen — technisch kein RAG, aber das Prinzip ist ähnlich: das Modell arbeitet mit konkreten Dokumenten statt nur mit seinem Trainingsmaterial.

Agent

Ein KI-System, das eigenständig Aufgaben ausführt. Es zerlegt ein Ziel in Schritte, nutzt Tools und trifft Zwischenentscheidungen — ohne dass du jeden Schritt anweisen musst. Claude Code ist ein Beispiel: „Bau mir eine Kontaktseite" — und Claude schreibt Code, erstellt Dateien, testet und korrigiert Fehler.

Multimodal

Ein Modell, das nicht nur Text versteht, sondern auch Bilder, Audio oder Video verarbeiten kann. Claude kann Fotos analysieren, Screenshots lesen und Diagramme interpretieren. GPT-4o kann zusätzlich Sprache in Echtzeit verarbeiten.

Sicherheit und Gesellschaft

Halluzination

Wenn ein LLM etwas antwortet, das faktisch falsch ist, aber überzeugend klingt. Passiert, weil das Modell auf Wahrscheinlichkeiten basiert, nicht nachschlägt. Bei Fakten, Zahlen und Quellen immer gegenprüfen.

Bias

Systematische Verzerrungen in den Antworten eines Modells. Wenn die Trainingsdaten bestimmte Perspektiven überrepräsentieren, spiegelt sich das wider. KI-Anbieter arbeiten daran, Bias zu reduzieren — ganz eliminiert ist er nicht.

Guardrails

Sicherheitsregeln, die in ein Modell eingebaut sind. Sie verhindern, dass das Modell schädliche oder illegale Inhalte erzeugt. Die Grenzen dieser Guardrails sind ein ständiges Thema in der KI-Forschung.

Alignment

Die Herausforderung, KI-Systeme so zu trainieren, dass sie sich im Sinne des Nutzers und der Gesellschaft verhalten. Ein „aligned" Modell tut das, was du meinst — nicht nur das, was du buchstäblich geschrieben hast. Eines der zentralen Forschungsthemen bei Anthropic, OpenAI und Google.

Deepfake

KI-generierte Bilder, Videos oder Audio, die eine echte Person täuschend echt imitieren. Die Qualität ist inzwischen so hoch, dass man Deepfakes ohne technische Hilfsmittel kaum noch erkennt. Häufig im Zusammenhang mit Desinformation und Betrug.

Modelltypen und Markt

Text-to-Image

KI-Tools, die aus einer Textbeschreibung Bilder erzeugen. DALL-E, Midjourney und Stable Diffusion sind die bekanntesten. Die Qualität hat sich stark verbessert — Textdarstellung und Hände, früher typische Schwachstellen, werden zunehmend besser beherrscht.

Open Weight vs. Closed Source

Open-Weight-Modelle (z.B. Llama von Meta) veröffentlichen ihre Modellgewichte — man kann sie herunterladen und lokal betreiben, oft mit bestimmten Lizenzbedingungen. Closed-Source-Modelle (Claude, GPT-4) sind nur über den Anbieter nutzbar. Der Leistungsunterschied zwischen beiden Kategorien wird zunehmend kleiner.

AGI — Artificial General Intelligence

Die hypothetische KI, die auf menschlichem Niveau alle Aufgaben bewältigen kann. Existiert aktuell nicht. Wird als Endziel der großen KI-Labore dargestellt. Wann oder ob AGI kommt, ist unter Experten extrem umstritten.

Benchmark

Ein standardisierter Test, mit dem Modelle verglichen werden. Wenn ein Anbieter sagt, sein Modell sei „das beste", bezieht er sich auf Benchmark-Ergebnisse. Nützlich als Orientierung, aber ein guter Score bedeutet nicht automatisch, dass das Modell für deine Aufgabe am besten ist.

Das sind die Begriffe, die in Artikeln, Diskussionen und Produktbeschreibungen am häufigsten vorkommen. Kein Anspruch auf Vollständigkeit — aber genug, um überall mitzukommen.