robots.txt Leitfaden: Alles, was du zur robots.txt wissen solltest

In diesem Artikel erklären wir dir, wie du robots.txt optimal erstellen und nutzen kannst

GIF: Webcrawler
Inhalt
  1. Was ist ein robots.txt?
  2. Aufbau und Inhalt der robots.txt
  3. Die Syntax der robots.txt: Eine Einführung in die Sprache des Web-Crawlings
  4. robots.txt-Struktur im Überblick: Ein Praxisbeispiel für den effektiven Aufbau
  5. robots.txt erstellen: In nur 4 Schritten
  6. Achtung: Häufige Fehler in der robots.txt
  7. Kostenlose robots.txt Generatoren
  8. robots.txt prüfen: So geht`s!
  9. robots.txt in der Search Console einreichen
  10. robots.txt finden, aber wo?
  11. Eckdaten zur robots.txt für dich zusammengefasst
  12. Fazit

Im Rahmen der Suchmaschinenoptimierung (SEO) begegnen Betreiber*innen von Websites wichtigen Begriffen wie User Agent, Allow, Disallow, Crawlbudget und natürlich der robots.txt-Datei. Was es mit diesen Begriffen auf sich hat und alles zur Erstellung und Nutzung einer robots.txt erfährst du in diesem Leitfaden.

Was ist ein robots.txt?

Die robots.txt ist eine universell lesbare Textdatei, die Webcrawlern mitteilt, welche Teile deiner Website sie durchsuchen dürfen (Crawling) und welche nicht. Das "Robots Exclusion Standard Protokoll" (REP) regelt, wie Suchmaschinen mit den Website-Inhalten interagieren. Bots suchen zuerst im Root-Verzeichnis der Website nach der robots.txt, bevor sie mit dem Crawling beginnen. Fehler in dieser Datei können die Sichtbarkeit deiner Website in Suchmaschinen negativ beeinflussen. Eine korrekte robots.txt ist entscheidend, um den Zugriff der Suchmaschinen effektiv zu steuern.

robots.txt in Aktion: So funktioniert die robots.txt

Die robots.txt ist ein mächtiges Werkzeug, wenn es darum geht, Webcrawler zu lenken. Hier erfährst du in vier einfachen Schritten, wie User Agents wie Googlebot den Zugriff interpretieren, Informationen sammeln, bestimmte Seiten meiden und schließlich indexierte Inhalte in den Suchergebnissen präsentieren.

so-funktioniert-die-robotstxt.png

Funktionsweise einer robots.txt

  • Crawler (robots.txt User Agent)
    User Agents wie Googlebot lesen die robots.txt und prüfen die Anweisungen, um festzustellen, welche Seiten sie crawlen dürfen (Allow) und welche nicht (Disallow).
  • Zugriffsberechtigung
    Bei erlaubtem Zugriff (Allow) gemäß der robots.txt durchsuchen die Crawler die betreffenden Seiten und sammeln Informationen.
  • Zugriffsverweigerung
    ⁠Falls die robots.txt bestimmte Seiten ausschließt (Disallow), überspringen die Crawler diese Seiten und sammeln dort keine Informationen.
  • Indexierung
    ⁠Nach dem Crawlen werden die gesammelten Inhalte von den Suchmaschinen indexiert und in den Datenbanken gespeichert.
  • Darstellung in Suchergebnissen
    ⁠Die indexierten Inhalte können nun in den Suchergebnissen erscheinen, wobei ihr Ranking von verschiedenen SEO-Faktoren beeinflusst wird.

Beachte: Deine robots.txt gewährleistet nicht, dass Suchmaschinen-Bots deine Inhalte nicht crawlen. Sie dient eher als Verhaltenskodex, dem viele seriöse Suchmaschinen-Bots folgen. Alternativ zu robots.txt können Meta-Tags wie noindex und nofollow sowie der Schutz sensibler Inhalte durch eine Passwort-Wall hilfreich sein.

Dafür kannst du eine robots.txt nutzen

Die robots.txt-Datei ist ein vielseitiges Instrument, das weit über das einfache Steuern des Zugriffs von Webcrawlern hinausgeht. Hier sind einige wesentliche Anwendungsbereiche:

  • Schutz vor Spam-Bots: Einige Bots verbreiten Spam oder führen schädliche Aktivitäten durch. Durch das Ausschließen dieser Bots wird deine Website sicherer.
  • Vermeidung von Datenverfälschung: Bestimmte Bots können einen hohen, nutzlosen Traffic verursachen und die Daten in Analysetools verfälschen. Ihr Ausschluss gewährleistet genauere Traffic-Analysen und Nutzerverhaltensauswertungen.
  • Schutz sensibler Bereiche: Das Ausschließen bestimmter Crawler verhindert, dass sensible oder nicht öffentliche Inhalte in Suchmaschinen erscheinen.
  • Optimierung des Crawlingbudgets: Durch das Ausschließen unwichtiger Seiten wird das Crawlingbudget der Suchmaschinen effizienter genutzt, um die wichtigsten Inhalte zu indexieren.

Zusammenfassend ermöglicht die robots.txt-Datei eine präzise Kontrolle des Crawling-Verhaltens von Suchmaschinen, steigert die Effizienz und stellt sicher, dass nur relevante und wichtige Inhalte indexiert werden. Webmaster*innen haben somit vielfältige Möglichkeiten, die Online-Präsenz ihrer Websites zu optimieren und zu schützen.

Was passiert, wenn keine robots.txt vorliegt?

Fehlt eine robots.txt-Datei, haben Webcrawler keine Einschränkungen bezüglich des Crawlings und können alle Bereiche der Website durchsuchen. Das kann im Zweifel zu Schwierigkeiten führen. Vor allem im Bereich von Onlineshops kann der Ausschluss von tausenden indexierten Filterseiten zur Optimierung des Crawlbudgets beitragen und helfen, den Suchindex möglichst schlank zu halten. Das zahlt sich übrigens auch positiv auf deine SEO aus!

Was hat die robots.txt mit SEO zu tun?

Die robots.txt-Datei spielt eine entscheidende Rolle in der Suchmaschinenoptimierung (SEO), da sie ermöglicht, das Crawling-Verhalten von Webcrawlern zu steuern. Durch den gezielten Ausschluss von irrelevanten Seiten, wie leeren oder duplizierten Inhalten, wird nicht nur das Crawlbudget effizienter genutzt, sondern auch die Qualität der indexierten Seiten verbessert. Der Fokus auf relevante und einzigartige Inhalte trägt dazu bei, dass die Website in den Suchergebnissen besser positioniert wird. Somit ist die robots.txt ein vielseitiges Werkzeug, das nicht nur die technische Performance, sondern auch die Sichtbarkeit und Qualität einer Website im Online-Umfeld beeinflusst.

Aufbau und Inhalt der robots.txt

Nachdem wir den Einfluss der robots.txt auf SEO beleuchtet haben, werfen wir nun einen Blick auf den Aufbau und Inhalt dieser wichtigen Datei. Um eine effektive robots.txt-Datei zu erstellen, ist es entscheidend, die korrekte Syntax und die Bedeutung der erforderlichen Zeichen zu verstehen. Hier ist eine kurze Einführung in die wichtigsten Zeichen und ihre Bedeutungen in der robots.txt-Datei.

Die Syntax der robots.txt: Eine Einführung in die Sprache des Web-Crawlings

Zeichen

Bedeutung

Beispiel

*

Platzhalter für beliebige Zeichenfolgen

Disallow: /verzeichnis/* sperrt alle URLs unterhalb des Verzeichnisses.

$

Markiert das Ende einer Zeichenfolge

Disallow: /*.pdf$ sperrt URLs mit der Endung ".pdf".

/

Trennt Verzeichnisse in Pfaden

Disallow: /verzeichnis/ sperrt alle URLs im Verzeichnis.

?

Markiert den Beginn von Parametern in einer URL

Disallow: /*? sperrt URLs mit Parametern.

#

Markiert Kommentare

# Dies ist ein Kommentar.

Diese Zeichen ermöglichen es Website-Betreiber*innen, fein abgestimmte Anweisungen für Webcrawler festzulegen, um die Indexierung ihrer Inhalte gezielt zu steuern und bestimmte Bereiche vor dem Crawling zu schützen. Hier ein Beispiel für den Aufbau einer robots.txt.

robots.txt-Struktur im Überblick: Ein Praxisbeispiel für den effektiven Aufbau

User-agent: *
⁠Disallow: /privater_ordner/
⁠Disallow: /vertrauliche_seite.html
⁠Disallow: /cgi_skripte/
⁠Disallow: /temporaere_daten/
⁠Allow: /oeffentlicher_inhalt/

Sitemap: https://www.example.com/sitemap.xml

In diesem Beispiel schauen wir uns an, wie eine robots.txt-Datei aufgebaut ist. Jetzt werfen wir einen Blick auf die Zeichen und ihre Bedeutungen, um zu verstehen, wie diese Konvention die Anweisungen für Webcrawler festlegt.

Anweisung

Wert

Beschreibung

User Agent

*

Der Stern () als Platzhalter bedeutet "für alle User Agents" oder "für jeden Bot". Diese Regel wird auf alle Bots angewendet, unabhängig von ihrer Identität oder ihrem Namen. Es handelt sich im Wesentlichen um eine allgemeine Anweisung für alle Crawler, die die Website besuchen.

Disallow

/privater-ordner/

Verwehrt dem Crawler den Zugriff auf den Ordner “privater-ordner”

Disallow

/vertrauliche-seite.html

Verwehrt dem Crawler den Zugriff auf die spezifische HTML-Seite “www.meine-domain.de/vertrauliche-seite”

Disallow

/cgi_skripte/

Verwehrt dem Crawler den Zugriff auf den Ordner, der CGI-Skripte enthält, die für die Funktionalität der Website wichtig sind. Der Zugriff wird aus Sicherheitsgründen oder, um unnötiges Crawling zu verhindern, ausgeschlossen.

Disallow

/temporaere_daten/

Verwehrt dem Crawler den Zugriff auf einen temporären Ordner, in dem vorübergehende Dateien oder Daten gespeichert werden. Bots wird untersagt, auf diese temporären oder nicht dauerhaft relevanten Daten zuzugreifen.

Allow

/oeffentlicher_inhalt/

Bots dürfen auf diesen Ordner zugreifen, selbst wenn zuvor allgemeine Regeln für den Zugriff auf alle Pfade festgelegt wurden.

Sitemap

https://www.example.com/sitemap.xml

Gibt die URL der Sitemap an, die Suchmaschinen hilft, die Website effizienter zu durchsuchen.

Nun, da wir wissen, wie die Grundlagen der robots.txt funktionieren, können wir tiefer gehen. Du kannst zum Beispiel bestimmte Bots ausschließen oder detaillierte Anweisungen für bestimmte Verzeichnisse festlegen. Schauen wir uns an, wie du noch mehr Kontrolle über das Crawlen auf deiner Website bekommst.

Beispiele für Seiten & Verzeichnisse, die du ausschließen solltest

Welche Seiten und Verzeichnisse du ausschließen solltest, hängt neben dem verwendeten System auch vom Nutzen und der SEO-Relevanz deiner Seiten ab. Seitentypen und Verzeichnisse, die häufig keinen Mehrwert für User bieten, sind:

  • Login- und Checkout-Seiten ausschließen
  • Filterseiten und Suchseiten ausschließen
  • Tag-bezogene Seiten ausschließen
  • Bestimmte Medien- und Dateitypen ausschließen
  • Einschränkungen für bestimmte Sprachen oder Regionen
  • Bestimmte Bots ausschließen
  • Crawl-Delay zur Geschwindigkeitssteuerung

Login- und Checkout-Seiten ausschließen

Es ist ratsam, Checkout- und Bestellseiten aus der Indexierung auszuschließen, da diese sensiblen Informationen enthalten können. Suchmaschinen müssen nicht alle Transaktionsseiten durchsuchen und indexieren. Ein Beispiel für die robots.txt:

User-agent: *
⁠Disallow: /checkouts/
⁠Disallow: /checkout/
⁠Disallow: /carts/
⁠Disallow: /orders/
⁠Disallow: /*/checkouts/
⁠Disallow: /*/orders/
⁠Disallow: /admin/
⁠Disallow: /account/
⁠Disallow: /services/login_with_shop/

Filterseiten und Suchseiten ausschließen

Das Ausschließen von URLs mit Filterparametern in der robots.txt ist entscheidend, um zu verhindern, dass Suchmaschinen unnötige Varianten einer Seite indexieren. Filterparameter können dazu führen, dass Suchmaschinen unzählige URLs erstellen, die im Wesentlichen den gleichen Inhalt zeigen. Um dies zu vermeiden, sollten diese Parameter ausgeschlossen werden. Beispiel:

User-agent: *
⁠Disallow: /*?p=*
⁠Disallow: /*?sSearch=*
⁠Disallow: /*?o=*
⁠Disallow: /*?n=*
⁠Disallow: /*?f=*
⁠Disallow: /*?min=*
⁠Disallow: /*?max=*
⁠Disallow: /*?var=*
⁠Disallow: /*?s=*
⁠Disallow: /*?cf=*
⁠Disallow: /*?sOrdernumber=*
⁠Disallow: /*?sInquiry=*
⁠Disallow: /collections/*sort_by*
⁠Disallow: /search
⁠Disallow: /*?utm_source

Beachte, dass die oben aufgeführten Filterparameter spezifisch für Shopware 5 sind und auf die Struktur dieses Systems zugeschnitten wurden. Je nach verwendetem Shopsystem können sich diese Parameter unterscheiden. Daher ist es entscheidend, die spezifischen Filterparameter der eigenen Website zu identifizieren und entsprechend in der robots.txt auszuschließen.

Filterparameter für Preis in verschiedenen Shop-Systemen:

  • Shopware 5: ?p=
  • Shopify: ?sort_by
  • Shopware 6: ?max-price

Es ist zu beachten, dass Filterparameter, je nach Shop-System und sogar innerhalb verschiedener Versionen desselben Systems variieren können.

Tag-bezogene Seiten ausschließen

Tag-bezogene Seiten können zu einer erheblichen Anzahl von URLs führen und möglicherweise dünnen oder redundanten Inhalt haben. Ausschließen dieser Seiten hilft, die Indexierbarkeit zu optimieren. Beispiel:

User-agent: *
⁠Disallow: /blogs/news/tagged/

Bestimmte Medien- und Dateitypen ausschließen

Nicht alle Mediainhalte sind für Suchmaschinen relevant. Das Ausschließen von Mediainhalten kann die Ladezeiten verbessern und unnötiges Crawling reduzieren. Beispiel:

User-agent: *
⁠Disallow: /*.jpg$ # JPEG-Bildern
⁠Disallow: /*.jpeg$ # JPEG-Bildern
⁠Disallow: /*.png$ # PNG-Bildern
⁠Disallow: /*.gif$ # GIF-Bildern
⁠Disallow: /*.bmp$ # Bitmap-Bilder
⁠Disallow: /*.tiff$ # TIFF-Bilder
⁠Disallow: /*.webp$ # WebP-Bilder
⁠Disallow: /*.mp4$ # MP4-Videos
⁠Disallow: /*.mov$ # QuickTime-Videos
⁠Disallow: /*.avi$ # AVI-Videos
⁠Disallow: /*.pdf$ # PDF-Dokumenten
⁠Disallow: /*.doc$ # Microsoft Word-Dokumenten
⁠Disallow: /*.xls$ # Microsoft Excel-Tabellen
⁠Disallow: /*.ppt$ # Microsoft PowerPoint-Präsentationen
⁠Disallow: /*.mp3$ # MP3-Dateien
⁠Disallow: /*.ogg$ # Ogg-Vorbis-Audiodateien
⁠Disallow: /*.zip$ # ZIP-Archiven

Einschränkungen für bestimmte Sprachen oder Regionen

Einschränkungen für Sprachen oder Regionen in der robots.txt ermöglichen die gezielte Steuerung des Crawlings von Suchmaschinen-Bots für spezifische Sprachversionen oder geografische Bereiche. Dies verbessert die Relevanz und Qualität der Suchergebnisse, indem festgelegt wird, welche Teile der Website indexiert werden dürfen oder nicht. Beispiel:

User-agent: Googlebot
⁠Disallow: /de/
⁠Allow: /en/

In diesem Beispiel wird dem Googlebot mitgeteilt, dass er das Crawlen von Inhalten im "/de/"-Verzeichnis der Website vermeiden soll, während der Zugriff auf Inhalte im "/en/"-Verzeichnis gestattet ist.

Bestimmte Bots ausschließen

Der Ausschluss bestimmter Bots in der robots.txt-Datei kann sinnvoll sein, um die Kontrolle über Inhalte zu bewahren, Serverressourcen zu schonen, Störungen zu minimieren und sensible Informationen zu schützen. Dies hilft, die Website-Leistung zu optimieren und Sicherheitsrisiken zu reduzieren. Beispiel:

User-agent: DuckDuckBot
⁠Disallow: /
⁠User-agent: Slurp
⁠Disallow: /
⁠User-agent: Bingbot
⁠Disallow: /
⁠User-agent: Baiduspider
⁠Disallow: /
⁠User-agent: YandexBot
⁠Disallow: /
⁠User-agent: Sogou Spider
⁠Disallow: /
⁠User-agent: Exabot
⁠Disallow: /
⁠User-agent: Mozilla/5.0
⁠Disallow: /
⁠User-agent: facebot
⁠Disallow: /
⁠User-agent: Applebot
⁠Disallow: /

Crawl-Delay zur Geschwindigkeitssteuerung

Der Einsatz von "Crawl-Delay" in der robots.txt-Datei ermöglicht es Website-Betreiber*innen, die Geschwindigkeit, mit der Suchmaschinen-Crawler ihre Website durchsuchen, zu steuern. Diese Anweisung ist besonders nützlich, um die Serverressourcen zu schonen und eine unnötige Belastung zu vermeiden. Ein "Crawl-Delay" von beispielsweise 5 Sekunden zwischen den Crawler-Anfragen kann dazu beitragen, Serverüberlastungen zu minimieren und die allgemeine Leistung der Website zu verbessern. Beispiel:

# Setze eine Verzögerung von 5 Sekunden zwischen den Crawler-Anfragen:
⁠Crawl-Delay: 5

robots.txt erstellen: In nur 4 Schritten

Schritt 1: Datei erstellen

Öffne einen einfachen Texteditor wie Notepad oder Emacs. Schreibe die Regeln für deine robots.txt und speichere die Datei als "robots.txt" im UTF-8-Format, um Kompatibilitätsprobleme zu vermeiden.

Schritt 2: Regeln hinzufügen

Beginne mit einer User Agent-Zeile. Darunter füge Disallow- und Allow-Anweisungen hinzu, um Bereiche deiner Website für Suchmaschinen zu sperren oder freizugeben. Füge auch den Pfad zu deiner Sitemap hinzu, um das Crawlen deiner Seite zu erleichtern.

Schritt 3: Datei hochladen

Jetzt musst du die robots.txt-Datei an den richtigen Ort bringen. Lade sie in das Stammverzeichnis deiner Website hoch, normalerweise www.beispiel.com/robots.txt. Dafür kannst du ein FTP-Programm oder das Web-Interface deines Webhosters nutzen. Weitere Möglichkeiten bekommst du weiter unten im Artikel.

Schritt 4: Datei testen

Nach dem Hochladen überprüfe, ob die Datei korrekt funktioniert. Gib die URL deiner robots.txt im Browser ein, um sicherzustellen, dass sie öffentlich zugänglich ist. Verwende auch Testwerkzeuge wie den Google Search Console robots.txt Tester, um zu prüfen, ob Suchmaschinen deine Anweisungen richtig interpretieren.

In vier Schritten deine robotstxt erstellen

Grafik: robots.txt erstellen: In nur 4 Schritten

Achtung: Häufige Fehler in der robots.txt

Bei der Erstellung deiner Datei können verschiedene Fehler auftreten, die dazu führen können, dass Suchmaschinen-Crawler die Anweisungen möglicherweise nicht wie beabsichtigt interpretieren. Hier sind einige häufige Fehler, die vermieden werden sollten:

  • Blindes Kopieren: Vermeide das blinde Kopieren von robots.txt-Dateien, da Systeme und Anforderungen variieren können. Jede Datei sollte individuell für die spezifische Website erstellt werden.
  • Syntaxfehler: Achte auf korrekte Syntax, um mögliche Fehler zu verhindern. Ein einfacher Tippfehler kann die gesamte Datei ungültig machen.
  • Fehlende Leerzeichen: Stelle sicher, dass zwischen Schlüsselwörtern und Werten Leerzeichen vorhanden sind. "Disallow: /verzeichnis/" ist korrekt, "Disallow:/verzeichnis/" ist es nicht.
  • Groß- und Kleinschreibung: Obwohl robots.txt normalerweise nicht case-sensitive ist, ist es empfehlenswert, die Groß- und Kleinschreibung zu berücksichtigen, um Verwirrungen zu vermeiden.
  • Zeilenumbrüche: Jede Anweisung sollte auf einer neuen Zeile beginnen, um die Lesbarkeit zu verbessern. Mehrere Anweisungen sollten jeweils auf neuen Zeilen stehen.
  • Nicht unterstützte Direktiven: Einige Crawler erkennen möglicherweise nicht alle Anweisungen. Beachte, welche Anweisungen von gängigen Suchmaschinen-Crawlern unterstützt werden.
  • Fehlende Sitemap-Angabe: Falls eine Sitemap angegeben wird, gib den korrekten Pfad an. Fehlerhafte Sitemap-Angaben können dazu führen, dass Suchmaschinen die Sitemap nicht aufrufen können.
  • Zu viele Anweisungen: Halte die Datei einfach, um Verwirrungen zu vermeiden. Zu viele oder komplexe Anweisungen können die Interpretation durch Suchmaschinen-Crawler erschweren.

Wenn du diese Fehlerquellen beachtest, sollte deiner fehlerfreien robots.txt nichts mehr im Wege stehen. Beachte allerdings, deine robots.txt nach jeder Anpassung zu überprüfen, um sicherzustellen, dass sie wie erwartet funktionieren.

Übrigens: Die Verwendung von Robots.txt-Generatoren, können dazu beitragen, Syntaxfehler zu vermeiden.

Kostenlose robots.txt Generatoren

Wenn du dir das Leben leichter machen möchtest, gibt es kostenlose Tools, die dir bei deiner robots.txt-Datei helfen können. Beachte jedoch, dass auch hier Fehler passieren können. Die Tools nehmen dir die Recherchearbeit zu URL- und Verzeichnisstrukturen sowie zur strategischen Überlegung, welche Seiten ausgeschlossen werden sollen, nicht ab, können aber Syntaxfehler vermeiden.

SEOptimer Robots.txt Generator.png

Screenshot: SEOptimer Robots.txt Generator

robots.txt prüfen: So geht`s!

Um sicherzustellen, dass deine robots.txt-Datei korrekt funktioniert, öffne ein privates Browserfenster und gehe zur URL, die sich aus deiner Domain gefolgt von /robots.txt zusammensetzt (zum Beispiel https://example.com/robots.txt). Wenn die Datei sichtbar ist, kannst du ihre Richtigkeit mithilfe einer dieser kostenlosen SEO-Tools prüfen:

Nach dem Hochladen und Überprüfen erkennt und verwendet Google deine robots.txt automatisch. Für eine schnelle Aktualisierung der im Google-Cache gespeicherten Version, kannst du deine aktualisierte Datei auch in der Google Search Console einreichen und die Google Indexierung beantragen.

robots.txt in der Search Console einreichen

  1. Gehe auf die Google Search Console Webseite und melde dich mit deinem Google-Konto an. Falls du noch kein Konto hast, musst du eines erstellen.
  2. Klicke auf "Property hinzufügen", um deine Website zur Google Search Console hinzuzufügen. Nachdem du deine Website zur Search Console hinzugefügt hast, klicke auf die betreffende Website.
  3. Im linken Menü, klicke auf "Einstellungen" und wähle dann "robots.txt". Hier siehst du möglicherweise Details zu Fehlern in deiner robots.txt-Datei oder ob sie erfolgreich gecrawlt wurde.
  4. Klicke auf "Bericht öffnen", um weitere Informationen zur robots.txt-Datei zu sehen.
  5. Falls deine robots.txt-Datei noch nicht validiert wurde oder es Fehler gibt, kannst du über die drei Punkte ein "Erneutes Crawling beantragen".

Google wird dann versuchen, deine robots.txt-Datei zu crawlen. Wenn sie erfolgreich ist, erhältst du eine Bestätigung.

Google Search Console-Einstellungen.png

Screenshot: Google Search Console-Einstellungen

So jetzt wo du weißt wie du eine robots.txt erstellst und testest, wäre jetzt gut zu wissen, wo du die Datei in deinem System findest.

robots.txt finden, aber wo?

robots.txt finden? Gar nicht so leicht! Die Methoden zur Erstellung oder Bearbeitung der robots.txt-Datei variieren je nach dem verwendeten Content Management System (CMS) oder E-Commerce-Plattform. Hier sind Anleitungen für WordPress, Shopify und Shopware.

WordPress robots.txt über FTP einrichten

+

WordPress' robots.txt mit Yoast SEO einrichten

+

Shopify's robots.txt.liquid bearbeiten

+

Shopwares's robots.txt bearbeiten

+

WordPress robots.txt über FTP einrichten:

WordPress verwendet automatisch eine Standard-robots.txt, die das "/wp-admin/"-Verzeichnis ausschließt, es sei denn, eine manuelle Datei existiert im Hauptverzeichnis. Wenn du eine eigene robots.txt einrichten möchtest, musst du diese in dein Stammverzeichnis hochladen. Hierzu gibt es zwei Möglichkeiten.

Methode 1: FTP (File Transfer Protocol)

  • Lade einen FTP-Client wie FileZilla, WinSCP oder Cyberduck herunter und installiere ihn.
  • Erhalte FTP-Zugangsdaten vom Hosting-Anbieter.
  • Verbinde dich mit dem Server und lade die Dateien ins Stammverzeichnis hoch.

Methode 2: Dateimanager des Hosting-Dashboards

  • Melde dich beim Hosting-Dashboard an.
  • Suche nach "Dateimanager" oder Ähnlichem.
  • Navigiere zum Stammverzeichnis und lade die Dateien hoch.

Unabhängig von der Methode achte darauf, dass die Dateien im richtigen Verzeichnis platziert werden und teste die Datei im Anschluss.

WordPress' robots.txt mit Yoast SEO einrichten

Für eine benutzerfreundliche Anpassung bietet das Yoast SEO Plugin eine Funktion in den "Einstellungen". Hiermit kannst du die robots.txt direkt über das WordPress-Dashboard erstellen und bearbeiten:

  • Melde dich auf deiner WordPress-Website an und gehe zum 'Dashboard'.
  • Klicke auf 'Yoast SEO' im Admin-Menü.
  • Wähle 'Tools' und dann 'File Editor'.
  • Klicke auf 'Create robots.txt file'.
  • Sieh dir die generierte Datei in Yoast SEO an oder bearbeite sie nach Bedarf.

Shopify's robots.txt.liquid bearbeiten

Die robots.txt-Datei in Shopify wird automatisch optimiert. Für individuelle Anpassungen kannst du die Datei "robots.txt.liquid" im Theme-Verzeichnis bearbeiten. Hier sind die Schritte:

  • Gehe zu Einstellungen > Apps und Vertriebskanäle > Online Store > Themes.
  • Klicke auf Code bearbeiten.
  • Wähle "Eine neue Vorlage hinzufügen" und wähle "Robots" aus.
  • Nimm die gewünschten Änderungen vor.
  • Speichere die Änderungen und teste sie mit dem Google robots.txt-Tester.

Shopware's robots.txt bearbeiten

In Shopware 6 wird die Robots-Datei nicht automatisch erstellt und muss manuell als Textdatei angelegt werden.

  • Navigiere zu deinem Hauptordner und dann zum "public"-Verzeichnis.
  • Öffne oder erstelle die Datei und füge deine Regeln hinzu.
  • Für Änderungen benötigst du Serverzugang über Dateimanager oder FTP-Client.
  • Lade die bearbeitete Datei anschließend hoch, um die Änderungen zu übernehmen.

Eckdaten zur robots.txt für dich zusammengefasst

Zweck

Steuert das Crawling von Suchmaschinenbots, legt fest, welche Bereiche indexiert werden.

Platzierung

Im Hauptverzeichnis der Domain, benannt als "robots.txt".

Funktionsweise

Crawler lesen die Datei, um zu wissen, welche Bereiche der Webseite zu erfassen sind.

Syntax der robots.txt

Folgt dem Robots Exclusion Standard (REP) mit Kommandos wie User-Agent, Disallow, Allow, Sitemap.

Grenzen der Datei robots.txt

Nicht bindend, einige Crawler ignorieren die Anweisungen.

Fazit

Die robots.txt ist ein wertvolles Werkzeug zur Optimierung und Steuerung des Crawl-Verhaltens. Mit einem grundlegenden Verständnis ihrer Syntax und Funktionsweise lässt sie sich schnell umsetzen. Wichtig ist dabei zu beachten, dass nicht jedes System dieselben URL- und Verzeichnisstrukturen hat. Das blinde Kopieren aus Fremdsystemen kann negative Folgen haben. Daher sollte die Erstellung oder Bearbeitung wohlüberlegt sein, um das Crawling und Indexieren wichtiger Seiten nicht zu beeinträchtigen und bisherige SEO-Bemühungen zu schützen. Nach jeder Anpassung ist eine sorgfältige Überprüfung und Testphase erforderlich, um unerwünschte Auswirkungen zu vermeiden. Sei dir also immer sicher, welche Seiten du ausschließen möchtest, und vergiss nicht zu testen!

Janine Minnich
Autor*In
Janine Minnich

Hallo, ich bin Janine Minnich, eine erfahrene SEO-Managerin bei wambo marketing in Bielefeld. Mit sechs Jahren Marketingerfahrung habe ich mich besonders auf Suchmaschinenoptimierung, Content-Creation und UX spezialisiert. Ich liebe es, in neue Bereiche einzutauchen, und habe mich auch intensiv mit dem Aufbau von Landingpages und der User Experience beschäftigt.

Alle Artikel von Janine Minnich

Im Artikel erwähnte Softwares

Im Artikel erwähnte Software-Kategorien

Ähnliche Artikel

Komm in die OMR Reviews Community & verpasse keine Neuigkeiten & Aktionen rund um die Software-Landschaft mehr.