StartseiteSEOrobot.txt

In Ihrem Warenkorb: 0 Artikel, 0,00 EUR

Warum robot.txt ?

Die robot.txt (in Kleinbuchstaben) im Wurzelverzeichnis einer Webseite steuert den Zugang der Suchmaschinen zu dieser Webseite und ist somit immens wichtig. Nicht alle Verzeichnisse sollen von den Suchmaschinen besucht werden. Nicht alle Bilder sollen bei der Google-Suche angezeigt werden. Mit dem Robot Exclusion Protokoll REP kann das genau festgelegt werden.

Die robot.txt darf auch nicht größer als 100KB sein, sonst wird sie von den Robots ignoriert. Daher sollte man zweckmäßigerweise nichtöffentliche Inhalte in einen Pfad "Nichtöffentlich" (oder ähnlichen Namens) speichert und nur diesen Pfad für die Robots in der robots.txt sperren. Die bösen Robots ignorieren zumeist die robot.txt. Daher kann man sie nur durch Datenbank-gestützte Software (z.B. www.spidertrap.de) nach dem erstmaligen Besuch ausschliessen.

Der Aufbau der robot.txt Datei

Groß-Kleinschreibung
Bei URLs wird zwischen Groß- und Kleinschreibung unterschieden, sofern die Website auf einem Microsoft-IIS-Server gehostet wird.
"disallow: /paris" beispielsweise blockt die URL /paris aber nicht /Paris.

Regionalisierung
Wenn eine Website mehrere Unterseiten in verschiedenen Sprachen enthält, sollte diese Seite für jede Sprache getrennt in den Webmaster Tools angemeldet werden. Denn der deutsche Googlebot wird nur die deutschsprachigen Seiten indizieren, der französische nur französischsprachige. Durch diese Mehrfachanmeldung vermeidet man auch einen negativen Überprüft-Status.

Syntax
Die Datei "robots.txt" enthält parameter der allgemeinen Form
<field>:<optionalspace><value><optionalspace>

Die robot.txt kann beliebig viele REP-Einträge haben, mehrere "Disallow"-Zeilen und mehrere User-Agents.

Eine robot.txt enthält mindestens zwei Zeilen:

User-agent bezeichnet den Suchrobot aus der unvollständigen Database aller Robots . Zuerst sollen nach REP die namentlich bekannten Robots aufgeführt werden, danach das Verfahren für die restlichen Robots geöffent werden.

Allow ist nach dem REP eine unbekannte Anweisung, wird aber vom Google robot-txt Generierungsautomaten erzeugt.
Allow: / sollte als erste Anweisung hinter dem User-agent folgen.

Disallow bezeichnet die die gesperrten Seiten für den Suchrobot.
Disallow: /private/ sperrt nur das Verzeichnis /privat für die robots.
Disallow: /private sperrt sowohl das Verzeichnis /privat als auch die darunter liegenden Verzeichnsise für die robots.

In der Fußzeile soll
http://www.webseitename.de/sitemap.xml
dem Robot das Verzeichnis der sitemap vorgeben.

Alle Bots mögen eine kurze, knackige robot.txt, wie etwa
User-agent: *
Disallow: /
;-)

Google wertet laut Matt Cutts den Delay-Parameter nicht aus.
Der Googlebot richtet sich nach der direkt auf ihn bezogenen Zeile, nicht nach allgemeinen Befehlen für alle Suchrobots, d.h. zum Ausschluss des Besuchs sollte als User Agent "Googlebot" direkt angesprochen werden.

Ob die Syntax einer robot.txt korrekt ist, kann man mit den Google Webmaster Tools prüfen oder ausführlicher mit dem robots-checker

REP Parameter

Parameter Einsatz Wirkung
* symbolisiert Platzhalter für Parameter  
Das Hash-Zeichen '#' markiert eine Kommentarzeile beginnend ab dem letzten Zeichen vor dem Hash bis zum Zeilenende.  
User agent Das erste Zeichen einer Anweisung kann in Versalien geschrieben werden, die restlichen Zeichen müssen immer in Kleinbuchstaben geschrieben werden.  
user agent * Folgeanweisungen gelten für alle Suchrobots bis zur nächsten User-agent Anweisung. Vor dem User-Agent sind mindestens zwei Leerzeilen erforderlich. alle Robots dürfen zugreifen
*.* wird nicht von allen Robots erkannt, aber von Googlebot. Platzhalter für Dateinamen und Dateiendungen
user agent Googlebot Folgeanweisungen gelten nur für den Suchrobot "Googlebot" . Vor dieser Anweisung sollten zwei Leerzeilen stehen. nur der Googlebot darf zugreifen
allow /
Zugriff auf alle Verzeichnisse und Unterverzeichnisse erlaubt. Allow wird vom Googlebot, baer nicht von allen anderen Bots interpretiert. Allow ist im REP nicht definiert. unbeschränkter Zugriff
disallow /*
Zugriff auf kein Verzeichnis erlaubt. Danach können einzelne Bots mit "allow Botname" zugelassen werden.
disallow /downloads

Zugriff nicht erlaubt auf Verzeichnis "/downloads" Ausschluss eines bestimmten Verzeichnisses
disallow /LOGIN/*

Zugriff nicht erlaubt für spezifiziertes Verzeichnis und alle Unterverezichnisse Es ist für eine LOGIN-Seite sinnvoll, nicht im Index zu erscheinen.
$
Platzhalter für Datei mit bestimmter Endung
 
disallow /$.htm Zugriff auf alle Dateien mit Endung htm nicht erlaubt ist nützlich bei Umstellung von htm auf php-Dateien
*
Platzhalter für eine Zeichensequenz
 
disallow /$*htm Zugriff auf alle Dateien mit der Zeichensequenz "htm" oder "html" in der Dateierweiterung nicht erlaubt. ist nützlich bei Umstellung von htm und html auf php-Dateien
noindex: /article.php
Die Syntax entspricht "disallow". Die URLs werden aus dem Google-Index genommen und nicht nur beim crawlen ignoriert.
Seiten aus dem Index entfernen
Crawling-Geschwindigkeit = "schneller" Parameter in den Google Webmaster Tools. Derzeit nur normal und langsamer verfügbar. Dadurch wird die Seite zwar nicht häufiger gecrawlt, aber bei jedem Crawlvorgang werden mehr Seiten gecrawlt und dadurch neue Seiten eventuell schneller indexiert. Zurzeit spielt die Crawl-Geschwindigkeit beim Crawling keine Rolle. Sollte sich dies ändern, wird die Option Schneller verfügbar.
     
REP-Anweisungen können auch in den META Tags einer einzelnen Seite genutzt werden.    
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Manche Seiten sind nur für die Besucher, z.B. LOGIN Der Seiteninhalt wird nicht in den Index aufgenommen. Den Links auf der Seite folgt der Robot nicht.
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> wenn ein spezieller Robot verhindert werden soll nur bei diesem Robot der die Seiten weder indiziert noch folgt der spezifizierte Robot den Links der Seite. Die Links werden auch nicht beim SERP berücksichtigt. Verhindert reziproke Links.
<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX"> Die Robots sollen die Images auf der Seite nicht indizieren. Bilder dieser Seite werden nicht angezeigt.
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> Snippets einer Seite sollen nicht angezeigt werden. Zeigt Snippets einer Seite nicht an.
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> Seite soll nicht im Cache vorgehalten werden. Zeigt Seite nicht im Cache an, z.B. Bestellseiten.
<META NAME="GOOGLEBOT" CONTENT="NOODP"> Seitenbeschreibung wird nicht von DMOZ geholt. Zeigt die eigene DESCRIPTION an und nicht die von DMOZ.
<META NAME="GOOGLEBOT" CONTENT="unavailable_after: 31-Aug-2008 24:00:00 MEZ">
Seite soll ab einem bestimmten Datum nicht mehr angezeigt werden. Seite wird nach dem angegebenen Zeitpunkt nicht mehr angezeigt, z.B. bei zeitlich befristeten Sonderangeboten oder Ablauf-Terminen. Man braucht sich nicht mehr um die Seite kümmern.
<META NAME="GOOGLE" VALUE="notranslate"> Seiteninhalte nicht in andere Sprachen übersetzen. Google verwendet dafür ein statistisches Übersetzungssystm, das auf dem bisherigen Sprachgebrauch der Nutzer basiert. Gute Sprache führt zu guten Übersetzungen. Inhalte der Seite werden nicht von Google automatisch in andere Sprachen übersetzt.
     
     
     
     
     
     
     
     
     


Bildveröffentlichungen und Robot.txt

Nunmehr hat sich auch die Rechtsprechung mit der robot.txt beschäftigt.

Mit Urteil v. 15.03.2007 (Az.: 3 O 1108/05) hat das Landgericht Erfurt entschieden, daß der Zugang zu thumbnails per robot.txt eingeschränkt werden soll, wenn die Veröffentlichung in den Suchmaschinen unerwünscht ist.

Anmerkung
Mit der Robot.txt sollte man also immer dann die Suchmaschinen von der Indizierung einer Seite abhalten, wenn man das nicht will. Die Anzeige einer neuen Seite wird dadurch verhindert.

Mit dem Meta Tag noarchive sollte die Cache-Anzeige einer vorhandenen Seite in den Suchmaschinen unterbunden werden.

Allerdings halten sich nicht alle Suchmaschinen an diese Kommandos. Folglich sollte man nichts im Internet veröffentlichen, das in den Suchmaschinen nicht als Treffer angezeigt werden soll.

Dann kann man mit dem Google Webmaster Tool URLs entfernen die Seite aus dem Goolge Index beim nächsten Besuch des Crawlers entfernen lassen, sofern man zusätzlich das Meta Tag noindex für diese Seite setzt und den Inhalt aus der Seite entfernt.


Dr. Wolf Blass

zu SERP mit META Tags
© suma-pro.de (2007- Mit Suchmaschinenoptimierung nach dem
SEO MASTERPLAN
auf die erste Seite
Datum der letzten Änderung