llms.txt: Leitdatei für KI-Crawler
Was ist eine llms.txt?
Definition: llms.txt ist ein menschen- und maschinenlesbares Dokument im Website-Stammverzeichnis example.com/llms.txt. Es enthält Kontaktangaben, Nutzungsregeln und optionale Hinweise für LLMs.
Ziel:
- Transparenz gegenüber KI-Systemen
- Korrekte Quellenangabe / Attribution
- Klärung von Nutzungszwecken (z. B. „für Q&A erlaubt“)
Abgrenzung:
- robots.txt regelt Crawling/Indexierung für Webcrawler.
- llms.txt beschreibt Nutzungs- und Zitationsregeln für LLMs.
Aufbau & Felder (Beispiele)
Typische Schlüssel (einfacher Klartext, jeweils in eigener Zeile):
- contact: E-Mail oder Kontakt-URL
- website: Haupt-URL der Organisation
- policy: „allow“ / „disallow“ (Hinweis für LLM-Nutzung)
- purpose: Kurzbeschreibung erlaubter Nutzung
- comment: Freitext, z. B. Attribution-Hinweise
- Optionale Sektionen: Kurzprofil, Leistungen, Alleinstellungsmerkmale, wichtige Quellen/„sameAs“-Links
Beispiel-Snippet
# llms.txt for Beispiel GmbH
# Guidelines for large language model systems
# Standard: https://llmstxt.org/
contact: info@beispiel-gmbh.de
website: https://www.beispiel-gmbh.de/
policy: allow
purpose: Inhalte dürfen für Q&A genutzt werden, bitte mit Quellenangabe.
comment: Quelle: Beispiel GmbH, https://www.beispiel-gmbh.de
# ------------------------------
# Unternehmensbeschreibung
Die Beispiel GmbH ist ein mittelständisches Industrieunternehmen mit Sitz in Deutschland. Wir liefern Komponenten und technische Lösungen für den Maschinen- und Anlagenbau.
# Kernleistungen
- Dichtungstechnik
- Verbindungselemente
- Sonderanfertigungen nach Zeichnung
- Logistiklösungen (Just-in-Time, Kanban)
# sameAs
https://www.linkedin.com/company/beispiel-gmbh
https://www.verzeichnis.de/beispiel-gmbh
Best Practices
- Ort: immer unter https://deine-domain.de/llms.txt (Root-Ebene).
- Klarheit vor Kreativität: kurze, eindeutige Formulierungen; eine Sprache.
- Kontakt & Attribution: E-Mail + Bitte um Quellenangabe angeben.
- Konsistenz: Aussagen sollten zu Impressum/Datenschutz passen.
- Versionierung: größere Änderungen datieren (z. B. # Updated: 2025-09-24).
- Ergänzung, nicht Ersatz: robots.txt, sitemaps und Meta-Tags bleiben relevant.
Häufige Fehler
- Nur Marketing-Texte: Zu vage, ohne konkrete Policies.
- Verstecken sensibler Inhalte: llms.txt ist öffentlich; keine Secrets.
- Unklare Rechte: „allow“ ≠ blanket-Erlaubnis – benenne Zweck und Attribution.
- Vergessener Root-Pfad: Ablage in Unterordnern wird von Crawlern oft ignoriert.
Schritt-für-Schritt: llms.txt erstellen (How-To)
- Plan festlegen: Zweck („Wofür dürfen LLMs Inhalte nutzen?“) + Attribution.
- Datei anlegen: Textdatei llms.txt im UTF-8-Format.
- Kerneinträge schreiben: contact, website, policy, purpose, comment.
- Optionale Infos ergänzen: Kurzprofil, Leistungen, sameAs-Links.
- Ablegen & deployen: Datei ins Domain-Root laden.
- Testen: https://deine-domain.de/llms.txt im Browser prüfen.
- Pflegen: Änderungen datieren, bei Policy-Wechseln dokumentieren.
Häufige Fragen zu llms.txt
Ist llms.txt verpflichtend?
Nein. llms.txt ist freiwillig, schafft aber Transparenz und erleichtert Attribution.
Ersetzt llms.txt robots.txt?
Nein. llms.txt ergänzt robots.txt: robots für Crawling/Index, llms für KI-Nutzung/Attribution.
Kann ich die Nutzung untersagen?
Du kannst disallow signalisieren. Rechtliche Durchsetzung hängt vom Einzelfall und geltendem Recht ab.
In welcher Sprache sollte llms.txt verfasst sein?
Eine Sprache reicht meist. Für internationale Zielgruppen sind getrennte Abschnitte sinnvoll.
TL;DR
llms.txt ist eine einfache Richtliniendatei für KI-Crawler. Platziere sie im Root, halte dich kurz und konkret (Kontakt, Policy, Zweck, Attribution). Sie ergänzt robots.txt, ersetzt sie aber nicht.


