builderall

Webseiten erstellen mit CHEETAH

Nachdenken über SEO (8)

ROBOTS.TXT
 

Über die Textdatei „robots.txt“  (von „Robots-Exclusion-Standard“ abgeleitet) können Sie darauf Einfluss nehmen, welche Bereiche Ihrer Website () von einem Webcrowler gecrawlt werden dürfen und welche nicht. Diese Datei befindet sich immer im Root-Verzeichnis der entsprechenden  und wird bei Cheetah automatisch mit der Website erstellt. Immer dann, wenn ein Botprogramm Ihre Webseite besucht, wird es zuerst einen Blick in diese spezielle Textdatei werfen und nachschauen, was darin steht.
 

Die Syntax der robots-Textdatei ist im „Robots Exclusion Standard“ genau definiert. Wenn Sie sich nicht damit herumschlagen möchten, dann empfiehlt sich die Verwendung eines entsprechenden Generators. Eine für diese Zwecke gut geeigneten robots.txt-Generator finden Sie unter folgendem Link:
 

http://pixelfolk.net/tools/robots


Hier müssen Sie nur noch Ihre Webadresse eintragen sowie den Zugriffspfad zur XML-Datei mit der entsprechenden Sitemap hinterlegen. Letzteren finden Sie in Cheetah in der Website-Ansicht unter dem Menüpunkt „Sitemap aufrufen“. Ein Klick darauf öffnet die Sitemap unter einem neuen Reiter im Browser und Sie brauchen nur noch deren Webadresse aus der URL-Zeile kopieren und über die Zwischenablage in das entsprechende Eingabefeld im robots.txt-Generator übertragen.

Als Nächstes überlegen Sie sich – am besten gleich mit Hilfe der Sitemap – welche Seiten der Website vom Indizieren durch Suchmaschinen-Bots auszuschließen sind. Das können beispielsweise Seiten sein, über die E-Mailadressen abgefragt werden, eventuelle Dankesseiten oder gewisse unwichtige Seiten, die man auch nicht in einem Suchmaschinenindex haben möchte.

Von diesen Seiten schreibt man sich quasi den „Ordnernamen“ auf (der letzte Abschnitt der URL nach dem letzten „/“) und trägt ihn in die Liste „Ordner und Seiten nicht indizieren“ ein, wobei der Ordnername (wie in den Vorgaben ersichtlich) mit einem „/“ abzuschließen ist.
 

Hinweis: Bitte nehmen Sie auch immer die Seite „home“ mit in diese Liste auf. In der Sitemap, die Builderall aus Ihrer Website generiert, fehlt nämlich immer die root-Seite. Stattdessen wird die Seite „…/home“ als „Homepage“ eingetragen. Da beide Adressen natürlich zum gleichen Inhalt führen, erkennt hier der Crawler „doppelten Content“, was sich negativ auf die Beurteilung der Website auswirkt. Wenn Sie die Seite „…/home“ dagegen explizit vom Crowlen ausnehmen, passiert das nicht mehr.
 

Weiterhin können Sie diverse Bot-Programme (im Fachjargon „Spider“ genannt) direkt sperren. Hier empfiehlt es sich, die Standardeinstellungen des Generators einfach beizubehalten.
 

Sind alle Einstellungen komplett, dann klicken Sie auf die Schaltfläche “Robots.txt erstellen“ und unter einem neuen Reite im Browser wird dessen Inhalt angezeigt. Den können Sie jetzt mit der Maus markieren und anschließend in die Windows-Zwischenablage kopieren.
 

Nun wechseln Sie wieder in die entsprechende Website-Ansicht in Cheetah und dort über das linke Randmenü in den Bereich „SEO-Einstellungen“. Dort können Sie dann in den Eingabebereich „Robots“ den Inhalt der Zwischenablage kopieren und die Einstellungen speichern. Anschließend veröffentlichen Sie die Website neu. Und das ist schon alles.
 

Hinweis: Wenn Sie sich gut mit der entsprechenden Befehls-Syntax auskennen, dann können Sie die entsprechenden Anweisungen natürlich hier auch gleich händisch eintragen. Eine entsprechende Zusammenstellung der Befehle findet sich beispielsweise im Wikipedia-Artikel unter dem Stichwort: „Robots Exclusion Standard“.

TB Amazon