Vor einem Jahrzehnt waren “das Web” und “das offene Web” fast dasselbe. Man tippte eine URL ein, bekam HTML zurück und las es. Suchmaschinen indizierten es. Forscher zitierten es. Aggregatoren machten es zugänglich. Es gab einen öffentlichen Adressraum, ein öffentliches Protokoll und die Grundannahme, dass Inhalte darauf erreichbar waren.
Das wurde über Jahre hinweg still und leise ausgehöhlt. Es lohnt sich, offen auszusprechen, wo wir gelandet sind, denn die Konsequenzen für die nächste Generation von Datenprodukten sind erheblich.
Was “offen” früher bedeutete
Das offene Web der frühen 2010er-Jahre hatte drei Eigenschaften, die wir größtenteils als selbstverständlich betrachteten:
Erreichbarkeit. Eine Seite hatte eine URL. Das Abrufen der URL lieferte die Seite zurück. Die Seite enthielt Links zu anderen Seiten, die ebenfalls URLs hatten. Der Graph war traversierbar.
Darstellbarkeit. Eine Anfrage an die URL lieferte HTML oder etwas Ähnliches. Man konnte es ohne JavaScript lesen, oder man führte JavaScript aus und erhielt denselben Inhalt mit kosmetischen Unterschieden.
Identitätsstabilität. Eine Seite, die letzte Woche existierte, existierte wahrscheinlich auch heute noch, unter derselben URL, mit ähnlichem Inhalt. Man konnte sie zitieren. Man konnte sie überprüfen.
Keine dieser Eigenschaften ist heute noch garantiert.
Was das offene Web aufgefressen hat
Einige Kräfte, größtenteils parallel, größtenteils mit vernünftigen individuellen Motiven:
Paywalls. Nachrichtenorganisationen brauchten Einnahmen. Die meisten großen Verlage stellten eine harte oder dosierte Paywall vor alle Inhalte. Der Inhalt existiert zwar noch unter der URL, aber man kann ihn ohne Konto und Kreditkarte nicht lesen. Suchmaschinen sehen eine andere Version als nicht eingeloggte Nutzer.
Login-Sperren. Soziale Plattformen waren früher vom offenen Web aus erreichbar. 2014 konnte man einen Twitter-Thread noch ohne Konto lesen. Heute sind die meisten Inhalte von LinkedIn, X, Instagram, Reddit (zeitweise) und Facebook gesperrt. Die Inhalte sind noch vorhanden, aber die URL führt nicht mehr zu ihnen.
App-first. Ein wachsender Anteil von Inhalten lebt in Apps ohne Web-Äquivalent, TikTok und eine lange Liste vertikaler Nischen-Apps. Es gibt keine URL. Es gibt keine Seite. Der Inhalt existiert nur innerhalb einer geschlossenen Laufzeitumgebung.
Anti-Scraping. Selbst wenn die URL noch funktioniert, werden die dahinterliegenden Inhalte zunehmend durch Cloudflare, Akamai und ein Dutzend Spezialanbieter geschützt. Die Seite wird für einen normalen Haushaltsbesucher einwandfrei dargestellt und gibt für alle anderen eine CAPTCHA-Herausforderung zurück.
Personalisierung. Seiten, die gleich aussehen, sind es in Wirklichkeit nicht. Das Produktlisting, das man auf einer großen E-Commerce-Seite sieht, wurde auf den eigenen Standort, den Browserverlauf, die geschätzte Einkommensklasse und den A/B-Test-Bucket personalisiert. Es gibt keine kanonische Version mehr. Es gibt nur noch eine besucherspezifische Version.
Jede dieser Entwicklungen hat vernünftige Befürworter. Keine wird sich umkehren. Der Nettoeffekt ist, dass das offene Web kleiner und fragmentierter ist als früher, und die Kosten dafür, das öffentliche Web als repräsentativen Datensatz zu betrachten, sind gestiegen.
Warum KI die Einsätze erhöht
In der vorherigen Ära wurde das offene Web hauptsächlich von Menschen konsumiert, die einzelne Seiten lasen, und von Suchmaschinen, die sie indizierten. Der wirtschaftliche Wert einer einzelnen Seite war vergleichsweise gering.
Das hat sich geändert. Moderne KI-Systeme behandeln das Web auf drei verschiedene Arten als ihren Datensatz:
Training. Frontier-Modelle werden auf Web-Scale-Korpora trainiert. Die Zusammensetzung dieses Korpus bestimmt, was das Modell weiß und wie es Fragen beantwortet.
Grounding (Retrieval-Augmented Generation). Produktionssysteme, die aktuelle Informationen benötigen, das Datum, den Preis, die Nachrichten, die regulatorische Aktualisierung, rufen zur Inferenzzeit aus dem Live-Web ab. Das Abrufziel sind echte URLs, die echtes HTML zurückliefern.
Agentisches Browsing. Eine neue Klasse von KI-Systemen navigiert im Auftrag von Nutzern im Web, bucht Flüge, vergleicht Preise, füllt Formulare aus. Diese Systeme treffen auf echte Seiten und müssen diese korrekt darstellen können.
In allen drei Fällen bestimmt das, was das offene Web leisten kann oder nicht, direkt, was ein KI-System tun kann. Wenn eine Seite hinter einer Paywall, einem Login oder nur innerhalb einer App gerendert wird, existiert sie für die KI-Schicht funktional nicht. Wenn sie Bots anders ausgeliefert wird als Menschen, sieht die KI eine degradierte Version. Wenn sie auf Netzwerkebene blockiert wird, sieht die KI gar nichts.
Die Kosten eines unvollständigen offenen Webs potenzieren sich auf der KI-Ebene, weil KI den Zugang multipliziert. Ein fehlgeschlagener Scrape war früher ein fehlender Datenpunkt. Heute taucht dieselbe Lücke in einer Million Modellantworten auf.
Was Infrastruktur damit zu tun hat
Proxy-Netzwerke sind die langweilige, auf Infrastrukturebene angesiedelte Antwort auf einen Teil dieses Problems. Sie beheben keine Paywalls, sie entsperren keine Apps, und sie setzen sich nicht gegen Anti-Bot-Anbieter durch. Was sie tun, ist, ein Maß an repräsentativem Zugang wiederherzustellen: Sie lassen eine Anfrage von einer echten Residential-Verbindung, in einer echten Geografie, mit einem echten Netzwerk-Ruf ausgehen, sodass das offene Web, das noch offen ist, sich tatsächlich für sie öffnet.
Das ist eine begrenzte Lösung für ein viel größeres Problem. Wir täuschen uns da nicht. Die vollständige Antwort auf “wie halten wir das offene Web funktionsfähig” wird regulatorischen Druck, öffentliche Infrastrukturinvestitionen, Transparenzanforderungen bei Personalisierung und Sperrung sowie eine grundlegende Neuverhandlung dessen erfordern, was “öffentlich verfügbar” im Zeitalter des KI-Konsums bedeuten sollte. Nichts davon wird dieses Jahr geklärt sein.
In der Zwischenzeit sollten die Teile des Webs, die noch öffentlich sind, für die Systeme, die sie erreichen müssen, tatsächlich erreichbar sein. Das ist das kleine Stück, an dem wir arbeiten, und das ist das kleine Stück, das die jüngste Investitionsrunde in unser Residential-Netzwerk hauptsächlich motiviert hat.
Die ehrliche Version
Ein zugänglicheres offenes Web ist gut für KI-Grounding, gut für die Forschung, gut für den Journalismus, gut für Preistransparenz, gut für die Wahlfreiheit der Verbraucher, gut für fast jeden außer den Akteuren, die direkt von der Sperrung profitieren. Der Trend zeigt in die entgegengesetzte Richtung. Nichts, was wir entwickeln, wird diesen Trend umkehren.
Was wir tun können, und was die breitere Infrastrukturschicht tun kann, ist sicherzustellen, dass die Teile des Webs, die noch öffentlich sind, für die Systeme, die sie benötigen, erreichbar bleiben. Das ist ein kleineres Ziel als “das offene Web retten”. Es ist aber auch erreichbar, und es wird mit jedem Jahr wichtiger, in dem KI zum primären Konsumenten dessen wird, was das Web zu bieten hat.