Robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Suchmaschinen-Bots anweist, welche Bereiche gecrawlt werden dürfen und welche nicht.

Robots.txt – SEO-Glossar

Was ist die Robots.txt?

Eine falsch konfigurierte Robots.txt kann Ihre gesamte Website aus dem Google-Index verbannen — ein Fehler, der häufiger vorkommt als man denkt, besonders nach Relaunches. Gleichzeitig hilft eine durchdachte Robots.txt, Googles Crawl Budget auf Ihre wichtigsten Seiten zu lenken, statt es an Admin-Bereiche oder interne Suchen zu verschwenden. Im KI-Zeitalter entscheidet Ihre Robots.txt auch darüber, ob KI-Crawler wie GPTBot oder PerplexityBot Ihre Inhalte erfassen dürfen.

Robots.txt ist eine Textdatei, die im Root-Verzeichnis einer Website platziert wird (z.B. www.beispiel.de/robots.txt) und Suchmaschinen-Bots Anweisungen gibt, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Dies ist eines der wichtigsten technischen SEO-Tools zur Steuerung des Crawler-Verhaltens. Mit robots.txt kann man den Googlebot, Bingbot und andere Crawler anweisen, auf bestimmte Verzeichnisse oder Dateitypen zu verzichten – beispielsweise um das Crawl-Budget zu sparen oder zu verhindern, dass interne Suche oder Admin-Bereiche gecrawlt werden.

Technisch ist robots.txt eine einfache Textdatei mit einem klaren Format: „User-agent: Googlebot” teilt Google, dass die folgenden Anweisungen nur für den Googlebot gelten. „Disallow: /admin/” verbietet das Crawlen des /admin/-Verzeichnisses. „Crawl-delay: 5” instruiert den Bot, zwischen zwei Requests 5 Sekunden zu warten. Wichtig ist zu verstehen, dass robots.txt nicht dazu verwendet werden sollte, sensible Inhalte zu schützen – die Datei ist öffentlich lesbar und verbirgt nichts vor böswilligen Akteuren. Für echte Sicherheit sollte man noindex oder HTTPS-Authentifizierung verwenden.

Bei der Erstellung und Verwaltung sollten Website-Betreiber vorsichtig sein. Ein Fehler in robots.txt kann dazu führen, dass wichtige Seiten gar nicht mehr gecrawlt werden und aus dem Google-Index verschwinden. Best Practice ist, nur wirklich unkrawlbare oder unwichtige Bereiche zu blockieren. Die meisten Websites sollten folgende Zeilen nicht blockieren: ihre Startseite, wichtige Content-Seiten, und die Sitemap-XML-Datei. Ein regelmäßiges Testing über die Google Search Console zeigt, wenn robots.txt Probleme verursacht – Google warnt, wenn es Probleme beim Parsen gibt.

Robots.txt

Kurz erklärt

Was ist die Robots.txt?