Warum beeinträchtigen dynamische robots.txt manchmal das Crawl-Budget auf WordPress?

Pourquoi les robots.txt dynamiques cassent-ils parfois le crawl budget sur WordPress

Dynamische robots.txt-Dateien gehören zu den Mechanismen, die viele installieren, ohne wirklich die Auswirkungen zu messen, die sie auf das Crawling einer WordPress-Website haben können. Auf dem Papier scheint eine automatisch generierte Datei praktisch und flexibel zu sein. In der Realität kann es vorkommen, dass ein einfach schlecht verwalteter Parameter heimtückische Blockaden, inkohärente Signale oder unnötige Anfragen auf der Bot-Seite verursacht. Und wenn Googlebot mit sich ändernden Anweisungen umgehen muss, verliert das Crawling an Kohärenz, bis hin zur Reduzierung der Besuchsfrequenz oder der Umleitung von Ressourcen auf weniger relevante Bereiche.

Ein instabiler robots.txt zwingt Google dazu, die Datei zu häufig zu überprüfen

Ein dynamisch von WordPress, einem Sicherheits-Plugin oder einem SEO-Modul generierter robots.txt kann je nach den aktuellen Bedingungen eine unterschiedliche Datei erzeugen: interne Einstellungen, automatische Erkennungen, temporäre Aktivierung von Modulen, serverabhängige Antworten oder sogar variable Header. Sobald Googlebot eine Änderung feststellt, kommt es häufiger zurück, um die Datei zu überprüfen.

Diese Häufigkeit erzeugt ein Phänomen, das Administratoren großer Websites bekannt ist: Die Anfrage des robots.txt nimmt in den Logs ein unverhältnismäßiges Volumen ein. Man könnte denken, dass dies keine Konsequenzen hat, aber in der Praxis beansprucht jeder Besuch zur Überprüfung der Datei Serverressourcen, die für relevantere URLs hätten verwendet werden sollen. Kurz gesagt, zu viele Zyklen dem robots.txt zuzuweisen, verschlechtert die Verfügbarkeit für den Rest.

Eine von WordPress generierte Datei kann unerwartete Anweisungen je nach aktiven Plugins offenlegen

Der dynamische robots.txt wird oft von einer Abfolge von Plugins beeinflusst: SEO, Bildoptimierung, Anwendungs-Firewall, Cache-Module, Indexierungserweiterungen. Jedes fügt manchmal seine eigenen Anweisungen je nach seinem Aktivierungsstatus hinzu.

Das Problem tritt auf, wenn die Datei eher den Ausdruck eines heterogenen Stapels als einer stabilen Richtlinie darstellt. Eine Erweiterung kann ein temporäres Disallow genau dann einfügen, wenn Google vorbeikommt. Eine andere kann eine Anweisung nach einem Update oder einem Cron entfernen. Dieses Verhalten macht die Datei für Crawler unvorhersehbar, die es vorziehen, eine kohärente Umgebung zu erkunden. Wenn Google ein instabiles robotisches Dokument wahrnimmt, wird das Crawling fragmentiert und verliert an Regelmäßigkeit.

Ein „on-the-fly“ berechneter robots.txt stützt sich auf eine langsame PHP-Schicht oder auf einen zu oft geleerten Cache

Ein klassischer robots.txt ist eine einfache statische Textdatei, die nahezu sofort bereitgestellt wird. Wenn er dynamisch generiert wird, hängt er vom PHP-Interpreter, der Datenbank und dem Cache-Status ab.

Es kann dann vorkommen, dass der Server zu lange braucht, um zu antworten. Googlebot wartet nicht unbegrenzt: Eine langsam bereitgestellte robots.txt-Datei löst eine vorsichtige Interpretation aus oder sogar einen teilweisen Rückzug des Crawlings. Einige WordPress-Websites, insbesondere solche auf Shared Hosting, zeigen robots.txt-Dateien an, die länger als eine Sekunde dauern. Bei einer Ressource, die sofort bereitgestellt werden sollte, ist diese Verzögerung lang genug, um das Vertrauen von Google in die Stabilität der Website zu beeinträchtigen.

Ein langsamer robots.txt führt oft zu einem Nebeneffekt: Googlebot reduziert die Crawling-Frequenz und bewertet die gesamte Website als potenziell fragil.

Umleitungen oder unregelmäßige Antworten verwirren das Verhalten des Crawlers

Wenn ein dynamischer robots.txt von WordPress generiert wird, durchläuft er zwangsläufig die CMS-Umgebung. Dies birgt subtile Risiken: erzwungene HTTPS-Umleitungen, geänderte Sicherheitsregeln, unterschiedliche Verhaltensweisen zwischen Mobil- und Desktop-Versionen, Header, die vom CDN oder einem Plugin gesendet werden.

Eines Tages kann die Datei einen sauberen 200 zurückgeben. Am nächsten Tag kann sie einen 301, 302 oder sogar einen 503 im Falle einer Überlastung zurückgeben. Für einen Crawler sind diese Variationen nicht trivial: Sie lassen vermuten, dass die Ressource nicht stabil ist. Google neigt dazu, das Crawling zu verlangsamen, wenn es erratische Umleitungen auf einer Datei erkennt, die fest sein sollte.

Ein robots.txt, der zu oft variiert, wird zum Äquivalent eines rissigen Eingangsschilds: Google dringt nicht mehr wirklich ins Innere vor.

Automatisch berechnete Anweisungen führen manchmal zu unbeabsichtigten Filtern

Dynamische robots.txt bieten manchmal Funktionen zur automatischen „Erkennung“ interner Ressourcen. Das scheint nützlich, aber die Mehrheit dieser Systeme identifiziert kritische Pfade schlecht. Man sieht dann Blöcke, die beispielsweise auf /wp-json/*, /wp-content/uploads/ oder bestimmte paginierte Seiten abzielen.

Wenn Google auf eine Datei stößt, die je nach den aktuellen Einstellungen zwischen Erlaubnissen und Blockaden wechselt, wird das Crawling chaotisch. Für eine Website, die von Kategorieseiten, interner Verlinkung oder JSON-LD, das über die REST-API integriert ist, abhängt, kann eine unbeabsichtigte Änderung der Anweisungen im robots.txt Google von einem Teil der Website abschneiden, ohne dass der Administrator es bemerkt.

Dieser Effekt tritt häufig auf, wenn das Plugin, das die Ressource generiert, eine bedingte Logik basierend auf der Rolle des Benutzers, der Anwesenheit eines CDN oder dem Anfragetyp anwendet.

Warum betrifft dieses Phänomen hauptsächlich WordPress?

WordPress liefert niemals einen statischen robots.txt, es sei denn, es handelt sich um eine manuelle Datei. Wenn es nicht existiert, übernimmt das CMS und generiert bei jeder Anfrage eine virtuelle Datei. Es hängt also nicht von einer Festplatte ab, sondern von einem Skript, das über eine bereits komplexe Architektur geladen wird.

Fügen wir dazu die enorme Vielfalt an Plugins, CDNs, Caches, Firewalls hinzu und die Tatsache, dass jede Website mit ihrer eigenen Konfiguration arbeitet. Der robots.txt wird dann zum Spiegelbild einer sich bewegenden Umgebung, anstatt ein stabiler Ankerpunkt für Suchmaschinen zu sein.

Je mehr technische Schichten eine Website enthält, desto mehr neigt die Datei dazu, diese Bewegungen widerzuspiegeln. Bei einem so erweiterbaren CMS wie WordPress steigt die Wahrscheinlichkeit unbeabsichtigter Variationen mechanisch an.

Pages

Kategorien