Google indexiert alles. Dazu gehören Medien, HTML-, PDF-, Word-Dokumente etc. Aber auch Log/Text-, JS- und CSS-Files aus dem Theme und Plugins werden durch die Suchmaschine in den sogenannten sekundären Index aufgenommen. Wie Bots auf die Dateipfade kommen? Ganz einfach, schließlich sind die Ressourcen im HTML-Markup referenziert.
Die einfachste Möglichkeit, sekundäre Formate vom Google-Index fern zu halten, ist die Nutzung des HTTP-Header „X-Robots-Tag“:
Das Verhindern der Indexierung ist u.a. eine Sicherheitsmaßnahme: Nicht selten ziehen Hacker die Suchergebnisse der Suchmaschinen heran, um an Websites mit bestimmten Plugins bzw. Themes ranzukommen – der Pfad zu indexierten CSS-, JS- und Log-Dateien ist der Schlüssel.
Übrigens darf die Sperrung des Crawler-Zugriffs via robots.txt nicht länger aufrecht erhalten bleiben, siehe die Richtlinien für Webmaster.