robots.txt – So steuerst du das Crawling deiner Website

Inhalt des Beitrags:

Erstellt am:

03.08.2025

Geändert am:

19.09.2025

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website. Sie gibt Suchmaschinen-Crawlern Hinweise, welche Bereiche der Seite indexiert und welche ignoriert werden sollen. Ziel ist es, die Crawling-Aktivitäten zu steuern und unnötigen Traffic oder doppelte Inhalte zu vermeiden.

Warum ist die robots.txt wichtig?

Suchmaschinen wie Google durchsuchen regelmäßig Websites, um deren Inhalte zu erfassen und im Index zu speichern. Die robots.txt hilft dabei, Prioritäten zu setzen:

Performance schützen: Große Websites können Crawler gezielt steuern, um Serverlast zu vermeiden.
Unnötige Seiten ausschließen: Z. B. Login-Seiten, interne Suchergebnisse oder Testumgebungen.
Doppelte Inhalte vermeiden: Parameter-URLs oder Druckversionen lassen sich ausschließen.

Wichtig: Die robots.txt verhindert nicht, dass Seiten im Index erscheinen – sie stoppt nur den Crawler. Wenn eine URL z. B. durch externe Links bekannt ist, kann sie trotzdem gelistet werden – allerdings ohne Seiteninhalt.

Aufbau einer robots.txt

Eine robots.txt besteht aus sogenannten User-Agents und Direktiven. Ein einfaches Beispiel:

User-agent: *
Disallow: /intern/ 
Allow: /intern/übersicht.html

Erklärung:

User-agent: * betrifft alle Crawler.
Disallow verbietet das Crawling des Verzeichnisses /intern/.
Allow macht eine bestimmte Unterseite davon wieder zugänglich.

Best Practices

robots.txt immer im Hauptverzeichnis (example.com/robots.txt) ablegen.
Sitemap angeben, damit Crawler wissen, welche Seiten für die Indexierung vorgesehen sind:
Sitemap: https://example.com/sitemap.xml
Keine sensiblen Inhalte über robots.txt "verstecken" – sie ist öffentlich einsehbar.
Nicht für SEO-kritische Seiten nutzen: Wer eine Seite gezielt aus dem Index entfernen will, sollte stattdessen das Meta-Tag noindex oder X-Robots-Tag verwenden.

robots.txt erstellen – Schritt für Schritt

Auch ohne Entwicklerwissen kannst du eine einfache robots.txt selbst anlegen. So gehst du vor:

1. Textdatei erstellen

Öffne einen einfachen Texteditor (z. B. Notepad, VS Code) und erstelle eine neue Datei. Speichere sie unter dem Namen robots.txt – genau so, ohne zusätzliche Endung.

2. Crawler ansprechen

Bestimme, welche Crawler du mit der Datei ansprechen willst. User-agent: * bedeutet: Die Regeln gelten für alle Suchmaschinen.

3. Pfade ausschließen

Gib an, welche Bereiche deiner Website nicht gecrawlt werden sollen:

Disallow: /intern/

4. Einzelne Seiten freigeben (optional)

Falls du bestimmte Seiten innerhalb eines ausgeschlossenen Verzeichnisses trotzdem freigeben möchtest, nutze Allow:

Allow: /intern/übersicht.html

5. Datei hochladen

Lade die fertige robots.txt ins Hauptverzeichnis deiner Domain (Root-Level), also z. B.

https://example.com/robots.txt

Nur dort wird sie von Suchmaschinen erkannt.

6. Sitemap verlinken (empfohlen)

Ganz unten in der Datei kannst du noch deine Sitemap angeben – das hilft Suchmaschinen zusätzlich:

Sitemap: https://example.com/sitemap.xml

Hinweis für Webflow-Nutzer: Webflow bietet in den Projekteinstellungen unter SEO → Custom robots.txt ein eigenes Feld für diese Datei. Du kannst deinen Inhalt dort direkt einfügen – ein Hochladen per FTP ist nicht nötig.

Fazit

Die robots.txt ist ein einfaches, aber wichtiges Werkzeug für SEO und Crawling-Kontrolle. Richtig eingesetzt, verbessert sie die Effizienz von Suchmaschinen und schützt gleichzeitig sensible oder irrelevante Bereiche einer Website.