Der robots
Wert für das name
-Attribut des <meta>
-Elements (oft als "robots tag" bezeichnet) definiert das Crawl- und Indexierungsverhalten, das Web-Crawler für die Seite verwenden sollen. Falls angegeben, definieren Sie Anweisungen für Crawler im content
-Attribut des <meta>
-Elements als kommagetrennte Liste von einer oder mehreren Regeln.
Zum Beispiel, um Crawler darauf hinzuweisen, dass eine Seite von deren Suchindizes ausgeschlossen werden soll, kann ein noindex
Wert verwendet werden:
<meta name="robots" content="noindex" />
Hinweis: Nur kooperative Roboter befolgen diese Regeln. Ein Crawler muss dennoch auf die Ressource zugreifen, um Header und Meta-Elemente zu lesen (siehe X-Robots-Tag: Interaction with robots.txt). Falls Sie den Bandbreitenverbrauch durch Crawler verhindern möchten, ist eine restriktive robots.txt-Datei effektiver als Indexierungsregeln, da sie Ressourcen vollständig vor dem Crawlen blockiert.
VerwendungshinweiseEin <meta name="robots">
-Element kann die folgenden zusätzlichen Attribute haben:
content
Das content
-Attribut muss definiert werden, und sein Wert legt das Indexierungs- und Crawlingverhalten für kooperative Suchmaschinenroboter fest. Akzeptiert eines oder mehrere der folgenden Schlüsselwörter als kommagetrennte Liste:
index
Erlaubt dem Roboter, die Seite zu indizieren. Dies ist das Standardverhalten. Wird von allen groÃen Crawlern verwendet.
noindex
Fordert den Roboter auf, die Seite nicht zu indizieren. Wird von allen groÃen Crawlern verwendet.
follow
Erlaubt dem Roboter, Links auf der Seite zu folgen. Dies ist das Standardverhalten. Wird von allen groÃen Crawlern verwendet.
nofollow
Fordert den Roboter auf, den Links auf der Seite nicht zu folgen. Wird von allen groÃen Crawlern verwendet.
all
Entspricht index, follow
. Verwendet von: Google.
none
Entspricht noindex, nofollow
. Verwendet von: Google.
noarchive
Fordert die Suchmaschine auf, den Seiteninhalt nicht zwischenzuspeichern. Verwendet von: Google, Yahoo, Bing.
nosnippet
Verhindert die Anzeige einer Seitenbeschreibung in den Suchergebnissen. Verwendet von: Google, Bing.
noimageindex
Fordert, dass diese Seite nicht als verweisende Seite eines indizierten Bildes erscheint. Verwendet von: Google.
nocache
Synonym für noarchive
. Verwendet von: Bing.
Es gibt mehrere wichtige Ãberlegungen zu beachten, wenn Sie einen robots
Meta-Wert festlegen:
<meta>
-Tag definiert sind, müssen Roboter dennoch auf die Seite zugreifen, um diese Regeln zu lesen. Um Bandbreite zu sparen, ziehen Sie stattdessen die Verwendung einer robots.txt-Datei in Betracht.<meta name="robots">
-Tag und robots.txt
erfüllen unterschiedliche Rollen: robots.txt
steuert das Crawling, während das robots
Meta-Tag die Indexierung und andere Verhaltensweisen beeinflusst.robots.txt
blockierte Seite kann trotzdem indiziert werden, wenn sie von anderen Quellen verlinkt ist.noindex
-Anweisung wird erst wirksam, nachdem der Roboter die Seite erneut besucht hat, daher stellen Sie sicher, dass robots.txt
dies nicht verhindert.index
vs. noindex
oder follow
vs. nofollow
, sind gegenseitig ausschlieÃend. Das Verhalten ist undefiniert, wenn widersprüchliche Werte verwendet werden.X-Robots-Tag
, was für nicht-HTML-Inhalte wie PDFs oder Bilder nützlich ist.Das folgende Beispiel verwendet nofollow
, um zu fordern, dass ein Crawler den Links auf einer Seite nicht folgt, und noindex
, um zu fordern, dass die Seite von der Indexierung ausgeschlossen wird:
<meta name="robots" content="nofollow, noindex" />
Spezifikationen
Obwohl es nicht Teil irgendeiner Spezifikation ist, handelt es sich um eine De-facto-Standardmethode zur Kommunikation mit Suchbots, Webcrawlern und ähnlichen Benutzeragenten.
Browser-KompatibilitätDieses Feature ist für Crawler gedacht, daher ist "Browser"-Kompatibilität nicht anwendbar.
Siehe auchRetroSearch is an open source project built by @garambo | Open a GitHub Issue
Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo
HTML:
3.2
| Encoding:
UTF-8
| Version:
0.7.4