robots.txt – So steuerst du das Crawling deiner Website
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website. Sie gibt Suchmaschinen-Crawlern Hinweise, welche Bereiche der Seite indexiert und welche ignoriert werden sollen. Ziel ist es, die Crawling-Aktivitäten zu steuern und unnötigen Traffic oder doppelte Inhalte zu vermeiden.
Warum ist die robots.txt wichtig?
Suchmaschinen wie Google durchsuchen regelmäßig Websites, um deren Inhalte zu erfassen und im Index zu speichern. Die robots.txt hilft dabei, Prioritäten zu setzen:
- Performance schützen: Große Websites können Crawler gezielt steuern, um Serverlast zu vermeiden.
- Unnötige Seiten ausschließen: Z. B. Login-Seiten, interne Suchergebnisse oder Testumgebungen.
- Doppelte Inhalte vermeiden: Parameter-URLs oder Druckversionen lassen sich ausschließen.
Wichtig: Die robots.txt verhindert nicht, dass Seiten im Index erscheinen – sie stoppt nur den Crawler. Wenn eine URL z. B. durch externe Links bekannt ist, kann sie trotzdem gelistet werden – allerdings ohne Seiteninhalt.
Aufbau einer robots.txt
Eine robots.txt besteht aus sogenannten User-Agents und Direktiven. Ein einfaches Beispiel:
User-agent: *
Disallow: /intern/
Allow: /intern/übersicht.html
Erklärung:
- User-agent: * betrifft alle Crawler.
- Disallow verbietet das Crawling des Verzeichnisses /intern/.
- Allow macht eine bestimmte Unterseite davon wieder zugänglich.
Best Practices
- robots.txt immer im Hauptverzeichnis (example.com/robots.txt) ablegen.
- Sitemap angeben, damit Crawler wissen, welche Seiten indexiert werden sollen:
Sitemap: https://example.com/sitemap.xml - Keine sensiblen Inhalte über robots.txt "verstecken" – sie ist öffentlich einsehbar.
- Nicht für SEO-kritische Seiten nutzen: Wer eine Seite gezielt aus dem Index entfernen will, sollte stattdessen das Meta-Tag noindex oder X-Robots-Tag verwenden.
robots.txt erstellen – Schritt für Schritt
Auch ohne Entwicklerwissen kannst du eine einfache robots.txt
selbst anlegen. So gehst du vor:
1. Textdatei erstellen
Öffne einen einfachen Texteditor (z. B. Notepad, VS Code) und erstelle eine neue Datei. Speichere sie unter dem Namen robots.txt – genau so, ohne zusätzliche Endung.
2. Crawler ansprechen
Bestimme, welche Crawler du mit der Datei ansprechen willst. User-agent: * bedeutet: Die Regeln gelten für alle Suchmaschinen.
3. Pfade ausschließen
Gib an, welche Bereiche deiner Website nicht gecrawlt werden sollen:
Disallow: /intern/
4. Einzelne Seiten freigeben (optional)
Falls du bestimmte Seiten innerhalb eines ausgeschlossenen Verzeichnisses trotzdem freigeben möchtest, nutze Allow:
Allow: /intern/übersicht.html
5. Datei hochladen
Lade die fertige robots.txt ins Hauptverzeichnis deiner Domain (Root-Level), also z. B.
https://example.com/robots.txt
Nur dort wird sie von Suchmaschinen erkannt.
6. Sitemap verlinken (empfohlen)
Ganz unten in der Datei kannst du noch deine Sitemap angeben – das hilft Suchmaschinen zusätzlich:
Sitemap: https://example.com/sitemap.xml
Hinweis für Webflow-Nutzer:
Webflow bietet in den Projekteinstellungen unter SEO → Custom robots.txt ein eigenes Feld für diese Datei. Du kannst deinen Inhalt dort direkt einfügen – ein Hochladen per FTP ist nicht nötig.
Fazit
Die robots.txt ist ein einfaches, aber wichtiges Werkzeug für SEO und Crawling-Kontrolle. Richtig eingesetzt, verbessert sie die Effizienz von Suchmaschinen und schützt gleichzeitig sensible oder irrelevante Bereiche einer Website.