Wenn man die XML-Sitemap vor bösen Bots und Content-Dieben schützen will, kann man mit folgendem Code nur noch gängigen Suchmaschinen Zugriff auf die sitemap.xml erlauben
Wenn man die XML-Sitemap vor bösen Bots und Content-Dieben schützen will, kann man mit folgendem Code nur noch gängigen Suchmaschinen Zugriff auf die sitemap.xml erlauben
<?php
if(preg_match('/(Googlebot|Slurp|Jeeves|msnbot)/', $_SERVER['HTTP_USER_AGENT'])
&& preg_match('/(googlebot\.com|yahoo\.net|ask\.com|live\.com)$/', gethostbyaddr($_SERVER['REMOTE_ADDR']))
&& (gethostbyname(gethostbyaddr($_SERVER['REMOTE_ADDR'])) == $_SERVER['REMOTE_ADDR'])) {
include('/path/to/real/sitemapfile.xml');
} else {
header('HTTP/1.1 403 Forbidden');
echo '<html><head><title>Zugriff verweigert</title></head><body><h1>Zugriff verweigert</h1>
Der Zugriff auf unsere Sitemaps ist nur den gängigen Suchmaschinen erlaubt. Bitte
besuchen Sie die <a href="http://'.$_SERVER['HTTP_HOST'].'">Startseite</a>.</body></html>';
}
?>
Quelle: http://www.sistrix.com/news/623-xml-sitemap-schuetzen.html


Macht das wirklich Sinn?
Denn sperrt man somit nicht auch kleine (spezialisierte) Suchmaschine aus? Ich persönlich würde nicht nur auf die Big Player setzen!
Und das Argument, dass die sich ja noch den Content wie gewohnt zusammen crawlen können, zählt nicht. Denn das ist dann eindeutig eine Benachteiligung der Kleinen. ;)