robots.txt – So steuerst du das Crawling deiner Website

Inhalt des Beitrags:

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website. Sie gibt Suchmaschinen-Crawlern Hinweise, welche Bereiche der Seite indexiert und welche ignoriert werden sollen. Ziel ist es, die Crawling-Aktivitäten zu steuern und unnötigen Traffic oder doppelte Inhalte zu vermeiden.

Warum ist die robots.txt wichtig?

Suchmaschinen wie Google durchsuchen regelmäßig Websites, um deren Inhalte zu erfassen und im Index zu speichern. Die robots.txt hilft dabei, Prioritäten zu setzen:

  • Performance schützen: Große Websites können Crawler gezielt steuern, um Serverlast zu vermeiden.
  • Unnötige Seiten ausschließen: Z. B. Login-Seiten, interne Suchergebnisse oder Testumgebungen.
  • Doppelte Inhalte vermeiden: Parameter-URLs oder Druckversionen lassen sich ausschließen.

Wichtig: Die robots.txt verhindert nicht, dass Seiten im Index erscheinen – sie stoppt nur den Crawler. Wenn eine URL z. B. durch externe Links bekannt ist, kann sie trotzdem gelistet werden – allerdings ohne Seiteninhalt.

Aufbau einer robots.txt

Eine robots.txt besteht aus sogenannten User-Agents und Direktiven. Ein einfaches Beispiel:

User-agent: *
Disallow: /intern/ 
Allow: /intern/übersicht.html

Erklärung:

  • User-agent: * betrifft alle Crawler.
  • Disallow verbietet das Crawling des Verzeichnisses /intern/.
  • Allow macht eine bestimmte Unterseite davon wieder zugänglich.

Best Practices

  • robots.txt immer im Hauptverzeichnis (example.com/robots.txt) ablegen.
  • Sitemap angeben, damit Crawler wissen, welche Seiten indexiert werden sollen:
    Sitemap: https://example.com/sitemap.xml
  • Keine sensiblen Inhalte über robots.txt "verstecken" – sie ist öffentlich einsehbar.
  • Nicht für SEO-kritische Seiten nutzen: Wer eine Seite gezielt aus dem Index entfernen will, sollte stattdessen das Meta-Tag noindex oder X-Robots-Tag verwenden.

robots.txt erstellen – Schritt für Schritt

Auch ohne Entwicklerwissen kannst du eine einfache robots.txt selbst anlegen. So gehst du vor:

1. Textdatei erstellen

Öffne einen einfachen Texteditor (z. B. Notepad, VS Code) und erstelle eine neue Datei. Speichere sie unter dem Namen robots.txt – genau so, ohne zusätzliche Endung.

2. Crawler ansprechen

Bestimme, welche Crawler du mit der Datei ansprechen willst. User-agent: * bedeutet: Die Regeln gelten für alle Suchmaschinen.

3. Pfade ausschließen

Gib an, welche Bereiche deiner Website nicht gecrawlt werden sollen:

Disallow: /intern/

4. Einzelne Seiten freigeben (optional)

Falls du bestimmte Seiten innerhalb eines ausgeschlossenen Verzeichnisses trotzdem freigeben möchtest, nutze Allow:

Allow: /intern/übersicht.html

5. Datei hochladen

Lade die fertige robots.txt ins Hauptverzeichnis deiner Domain (Root-Level), also z. B.

https://example.com/robots.txt

Nur dort wird sie von Suchmaschinen erkannt.

6. Sitemap verlinken (empfohlen)

Ganz unten in der Datei kannst du noch deine Sitemap angeben – das hilft Suchmaschinen zusätzlich:

Sitemap: https://example.com/sitemap.xml

Hinweis für Webflow-Nutzer:
Webflow bietet in den Projekteinstellungen unter SEO → Custom robots.txt ein eigenes Feld für diese Datei. Du kannst deinen Inhalt dort direkt einfügen – ein Hochladen per FTP ist nicht nötig.

Fazit

Die robots.txt ist ein einfaches, aber wichtiges Werkzeug für SEO und Crawling-Kontrolle. Richtig eingesetzt, verbessert sie die Effizienz von Suchmaschinen und schützt gleichzeitig sensible oder irrelevante Bereiche einer Website.

Was ist eine robots.txt? - Projekte

No items found.
Bereit für den kostenlosen Website-Check?

Wir prüfen deine Website auf Performance, SEO und Nutzerfreundlichkeit. Du erhältst einen klaren Überblick über Stärken, Schwachstellen und konkrete Handlungsempfehlungen – kostenlos und unverbindlich.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Mitarbeiter beim Website-Check
Webflow Professional Partner – Zertifizierte Webflow-Experten für individuelle Websites und Relaunches
Webflow Professional Partner
Hotjar Logo
Hotjar Partner
Weglot Logo
Weglot Partner
<script type="application/ld+json"> { "@context": "https://schema.org", "@type": "HowTo", "name": "robots.txt für SEO erstellen", "description": "Eine Schritt-für-Schritt-Anleitung, wie du eine einfache robots.txt erstellst, um das Crawling deiner Website gezielt zu steuern.", "step": [ { "@type": "HowToStep", "name": "1. Textdatei anlegen", "text": "Erstelle eine neue Textdatei mit dem Namen robots.txt auf deinem Computer." }, { "@type": "HowToStep", "name": "2. Crawler ansprechen", "text": "Definiere in der Datei, welche Crawler du ansprechen willst, z. B.: User-agent: *" }, { "@type": "HowToStep", "name": "3. Pfade ausschließen", "text": "Gib an, welche Verzeichnisse oder Seiten nicht gecrawlt werden sollen, z. B.: Disallow: /intern/" }, { "@type": "HowToStep", "name": "4. Ausnahmen hinzufügen", "text": "Wenn einzelne Seiten ausgenommen werden sollen, nutze Allow, z. B.: Allow: /intern/übersicht.html" }, { "@type": "HowToStep", "name": "5. Datei hochladen", "text": "Lade die robots.txt in das Hauptverzeichnis deiner Domain (Root-Level), z. B. https://example.com/robots.txt" }, { "@type": "HowToStep", "name": "6. Sitemap angeben (optional)", "text": "Füge am Ende einen Link zur Sitemap hinzu: Sitemap: https://example.com/sitemap.xml" } ], "tool": [ { "@type": "HowToTool", "name": "Texteditor (z. B. Notepad, VS Code)" }, { "@type": "HowToTool", "name": "FTP-Zugang oder Webflow-Hosting" } ], "estimatedTime": "PT10M" } </script>