Common Crawl: Trainingsdaten für KI und Datenschutz | Blog

Warum ich den CCBot aus meiner robots.txt aussperre – und Sie es auch tun sollten

Stellen Sie sich vor, jemand fotografiert Ihr Schaufenster, Ihr Ladenschild, Ihren gesamten Laden von innen – jeden Tag, jahrelang. Ohne zu fragen. Ohne Sie zu informieren. Und dann stellt er die Fotos kostenlos ins Internet, damit jeder damit machen kann, was er will.

Genau das passiert mit Ihrer Website. Jeden Tag. Und das Projekt dahinter heißt Common Crawl.

Was ist Common Crawl?

Common Crawl ist eine gemeinnützige Organisation, die seit 2007 das gesamte öffentlich zugängliche Internet archiviert. Ihr Bot – der CCBot – besucht Milliarden von Webseiten, speichert den kompletten HTML-Code und stellt alles als frei herunterladbare Datensätze auf Amazon S3 bereit.

Stand 2026 enthält das Archiv über 250 Milliarden Webseiten. Petabytes an Text, Bildern, persönlichen Daten.

Klingt erstmal harmlos – wie ein digitales Archiv für Forscher. Und genau so hat es auch angefangen. Aber dann kam ChatGPT.

Vom Forschungsarchiv zur KI-Trainingsdaten-Pipeline

Die unbequeme Wahrheit: Common Crawl ist die wichtigste Datenquelle für praktisch jedes große Sprachmodell. GPT-3, GPT-4, LLaMA, Gemini, Claude – diese Large Language Models wurden auf Daten trainiert, die aus Common Crawl stammen oder darauf aufbauen.

Forscher haben es klar formuliert: Ohne Common Crawl würden Large Language Models in ihrer heutigen Form nicht existieren.

Das Problem? Niemand hat Sie gefragt, ob Ihre Website als Trainingsdaten für KI verwendet werden darf.

Ihr Blog, Ihr Impressum, Ihre Kundenstimmen, Ihr gesamter Webauftritt – alles wurde eingesaugt, gespeichert und steht jetzt jedem KI-Unternehmen der Welt kostenlos zur Verfügung. Für den Preis eines Sandwichs, wie die Mozilla Foundation es treffend betitelt hat.

„Robots are people too” – Die Logik von Common Crawl

Rich Skrenta, der Leiter der Common Crawl Foundation, hat es so zusammengefasst: Wenn Sie etwas im Internet veröffentlichen, ohne Robotern explizit den Zugang zu verweigern, stimmen Sie der Nutzung zu.

Das ist eine bemerkenswerte Logik. Sie besagt im Grunde: Wer seine Haustür nicht abschließt, stimmt dem Besuch von Fremden zu.

Die DSGVO sieht das anders. Europäische Datenschutzbehörden haben wiederholt klargestellt, dass öffentliche Zugänglichkeit nicht gleichbedeutend mit Einwilligung zur Datenverarbeitung ist. Die französische CNIL hat schon 2020 betont, dass auch für öffentlich zugängliche Daten eine informierte Einwilligung erforderlich ist.

Aber Common Crawl sitzt in den USA. Und das Archiv ist bereits da draußen.

Die Illusion der Kontrolle

Common Crawl sagt: Sie können den CCBot über Ihre robots.txt aussperren. Einfach zwei Zeilen:

User-agent: CCBot
Disallow: /

Klingt einfach. Ist es aber nicht.

Das funktioniert nur für zukünftige Crawls. Was bereits im Archiv liegt, bleibt dort. Ihre Website von 2019? Drin. Ihre alte Über-mich-Seite? Drin. Es gibt kein echtes Löschen.

robots.txt ist eine Bitte, kein Befehl. Es gibt keine technische Durchsetzung. Common Crawl respektiert die Datei – aber jeder, der die Daten aus dem öffentlichen Archiv herunterlädt, muss das nicht. Und genau da liegt das Problem: Common Crawl sammelt die Daten, aber Hunderte von Unternehmen und Forschern verarbeiten sie weiter – ohne jemals Ihre robots.txt zu sehen.

Einmal drin, für immer drin. Was in die Gewichte eines neuronalen Netzes eingebrannt wurde, lässt sich nicht chirurgisch entfernen. Es gibt kein „Recht auf Vergessenwerden” für KI-Modelle. Um Ihre Daten wirklich zu entfernen, müsste man das gesamte Modell von Grund auf neu trainieren.

Was der CCBot wirklich über Ihre Website weiß

Der CCBot führt kein JavaScript aus, setzt keine Cookies, folgt aber bis zu vier Redirects. Er speichert den kompletten HTTP-Response inklusive Header. Das bedeutet: Er archiviert nicht nur Ihre sichtbaren Inhalte, sondern auch technische Details Ihrer Server-Konfiguration.

Common Crawl betont, dass sie nur eine zufällige Stichprobe jeder Website nehmen – nicht die gesamte Domain. Aber „zufällige Stichprobe” bei 250 Milliarden Seiten ist ein relativer Begriff.

Seit März 2025 hat Common Crawl das Limit für einzelne Seiten von 1 MB auf 5 MB erhöht. Sie sammeln also nicht weniger Daten – sie sammeln mehr.

Die Qualitätsfrage: Was landet in KI-Trainingsdaten?

Es wird noch schlimmer. Die Filtermechanismen, mit denen KI-Unternehmen Common-Crawl-Daten aufbereiten, sind bestenfalls rudimentär:

Datensätze enthalten Inhalte von Hassrede-Websites und extremistischen Quellen
Persönliche medizinische Bilder wurden in Datenbanken gefunden, die auf Common Crawl aufbauen
Filter wie die berüchtigte „List of Dirty, Naughty, Obscene, and Otherwise Bad Words” entfernen nicht nur toxische Inhalte, sondern systematisch auch Inhalte von Minderheiten-Communities
Tausende maschinell übersetzte japanische Patente blieben unbemerkt in aufbereiteten Datensätzen

Ihre sorgfältig geschriebene Über-uns-Seite liegt in demselben Datensatz wie Spam, Hassrede und fehlerhafte Maschinenübersetzungen. Und KI-Modelle lernen aus all dem gleichermaßen.

Die Zahlen, die alles sagen

Laut Cloudflare Radar gehört der CCBot zu den drei am häufigsten gesperrten KI-Crawlern unter den Top-10.000 Domains weltweit.

Der Trend ist eindeutig: Immer mehr Website-Betreiber wählen nicht nur eine teilweise, sondern eine vollständige Sperrung. 79 Prozent der führenden Nachrichtenwebsites blockieren bereits KI-Training-Bots. Die New York Times, das Wall Street Journal, Reuters, Medium, Quora – sie alle haben den Schlussstrich gezogen.

Nach dem Launch von ChatGPT hat sich die Zahl der Websites, die Common Crawl aussperren, verdoppelt. Und die Anfragen zur Löschung aus dem bestehenden Archiv sind sprunghaft gestiegen.

Warum ich den CCBot aussperre

Als SEO-Berater predige ich Sichtbarkeit. Ich helfe meinen Kunden, bei Google gefunden zu werden. Aber ich kann nicht guten Gewissens zulassen, dass die Inhalte meiner Website ohne jede Gegenleistung in die Trainings-Pipeline von KI-Modellen fließen.

Wichtig zu verstehen: Das Blockieren des CCBot hat keinen Einfluss auf Ihr Google-Ranking. Der CCBot und der Googlebot sind völlig unterschiedliche Systeme. Sie können Common Crawl aussperren und trotzdem bei Google auf Seite 1 ranken. Das eine hat mit dem anderen nichts zu tun.

Was mich endgültig überzeugt hat, ist das Crawl-to-Referral-Verhältnis. Cloudflare hat gemessen, wie oft KI-Unternehmen Websites besuchen im Vergleich dazu, wie viel Traffic sie zurückschicken. Bei Google liegt das Verhältnis bei 14:1 – fair genug. Bei KI-Unternehmen, die auf Common-Crawl-Daten aufbauen? Bis zu 73.000:1. Sie nehmen alles und geben nichts zurück.

Das Dilemma

Ich bin nicht naiv. Ich weiß, dass robots.txt kein Schloss ist, sondern ein Schild an der Tür. Ich weiß, dass meine alten Inhalte bereits im Archiv liegen. Und ich weiß auch, dass ich als jemand, der KI täglich in seiner Arbeit nutzt, in einem gewissen Widerspruch stehe.

Aber genau deshalb ist dieses Thema so wichtig. Wir brauchen eine echte Diskussion darüber, wie KI-Training funktionieren soll. Consent sollte die Regel sein, nicht die Ausnahme.

Der EU AI Act geht in die richtige Richtung: Er verpflichtet KI-Anbieter, robots.txt zu respektieren und zu dokumentieren, welche Trainingsdaten verwendet wurden. Aber zwischen Gesetzestext und gelebter Praxis liegt ein weiter Weg.

Was Sie jetzt tun sollten

Prüfen Sie Ihre robots.txt. Zwei Zeilen reichen, um den CCBot auszusperren. Ihr Google-Ranking bleibt davon unberührt.

Informieren Sie Ihre Kunden. Die meisten Website-Betreiber wissen nicht, was Common Crawl ist – geschweige denn, dass ihre Inhalte längst in KI-Trainingsdaten stecken.

Nutzen Sie zusätzliche Schutzmaßnahmen. Cloudflare bietet einen KI-Bot-Blocker, der über robots.txt hinausgeht. Common Crawl veröffentlicht auch seine IP-Bereiche – Sie können den CCBot zusätzlich auf Firewall-Ebene blockieren.

Und vor allem: Warten Sie nicht. Mit jedem Crawl-Zyklus wächst das Archiv. Was heute noch nicht gespeichert ist, kann morgen schon drin sein.

Common Crawl hat das Web zum größten Open-Source-Datensatz der Welt gemacht. Das war gut für die Forschung. Aber es war nie als Freibrief für Milliarden-Dollar-Unternehmen gedacht, sich kostenlos am geistigen Eigentum anderer zu bedienen.

Die Frage ist nicht, ob Sie sich schützen sollten. Die Frage ist, warum Sie es nicht längst getan haben.