Il y a dix ans, “le web” et “le web ouvert” désignaient presque la même chose. On tapait une URL, on obtenait du HTML, on lisait. Les moteurs de recherche l’indexaient. Les chercheurs le citaient. Les agrégateurs le mettaient en avant. Il existait un espace d’adressage public, un protocole public, et une hypothèse par défaut selon laquelle tout ce qui s’y trouvait était accessible.
Tout cela s’est érodé silencieusement depuis des années. Il vaut la peine de dire clairement où nous en sommes arrivés, car les implications pour la prochaine génération de produits de données sont considérables.
Ce que “ouvert” signifiait autrefois
Le web ouvert du début des années 2010 possédait trois propriétés que nous tenions pour acquises :
L’accessibilité. Une page avait une URL. Récupérer l’URL renvoyait la page. La page contenait des liens vers d’autres pages, qui avaient elles aussi des URL. Le graphe était parcoourable.
La restitution. Une requête vers l’URL renvoyait du HTML, ou quelque chose d’approchant. On pouvait le lire sans exécuter JavaScript, ou on pouvait exécuter JavaScript et obtenir le même contenu avec des éléments cosmétiques en plus.
La stabilité d’identité. Une page qui existait la semaine dernière existait probablement encore aujourd’hui, à la même URL, avec un contenu similaire. On pouvait la citer. On pouvait la vérifier.
Aucune de ces propriétés n’est garantie aujourd’hui.
Ce qui a rongé le web ouvert
Plusieurs forces, agissant en grande partie en parallèle, avec des motivations individuelles souvent raisonnables :
Les paywalls. Les organes de presse avaient besoin de revenus. La plupart des grands médias ont mis en place un paywall strict ou mesuré devant l’ensemble de leurs contenus. Le contenu existe toujours à l’URL, mais on ne peut pas le lire sans compte ni carte bancaire. Les moteurs de recherche voient une version différente de celle que voient les humains non connectés.
Les murs de connexion. Les plateformes sociales étaient autrefois accessibles depuis le web ouvert. On pouvait lire un fil Twitter sans compte en 2014. Aujourd’hui, la majeure partie de LinkedIn, X, Instagram, Reddit (de façon intermittente) et Facebook est cloisonnée. Le contenu est toujours là, mais l’URL ne le résout plus.
L’approche app-first. Une part croissante des contenus vit dans des applications sans équivalent web, TikTok et une longue traîne d’applications spécialisées par secteur. Il n’y a pas d’URL. Il n’y a pas de page. Le contenu n’existe qu’à l’intérieur d’un environnement d’exécution fermé.
L’anti-scraping. Même lorsque l’URL fonctionne encore, le contenu derrière elle est de plus en plus défendu par Cloudflare, Akamai, et une douzaine de spécialistes. La page s’affiche parfaitement pour un visiteur résidentiel et renvoie un défi CAPTCHA pour tous les autres.
La personnalisation. Des pages qui semblent identiques ne le sont en réalité pas. La fiche produit que vous voyez sur un grand site de commerce électronique a été personnalisée selon votre localisation, votre historique de navigation, votre tranche de revenus supposée, votre groupe de test A/B. Il n’existe plus de version canonique. Il n’existe qu’une version par visiteur.
Chacun de ces phénomènes a ses défenseurs légitimes. Aucun ne va s’inverser. L’effet net est que le web ouvert est plus petit et plus fragmenté qu’il ne l’était, et que le coût pour considérer le web public comme un jeu de données représentatif a augmenté.
Pourquoi l’IA hausse les enjeux
À l’ère précédente, le web ouvert était principalement consommé par des humains lisant des pages individuelles et par des moteurs de recherche les indexant. La valeur économique d’une page donnée était relativement faible.
Cela a changé. Les systèmes d’IA modernes traitent le web comme leur jeu de données de trois façons distinctes :
L’entraînement. Les modèles de pointe sont entraînés sur des corpus à l’échelle du web. La composition de ce corpus détermine ce que le modèle sait et comment il répond aux questions.
Le grounding (génération augmentée par récupération). Les systèmes en production qui ont besoin d’informations actuelles, la date, le prix, l’actualité, la mise à jour réglementaire, récupèrent depuis le web en direct au moment de l’inférence. La cible de récupération est constituée de vraies URL renvoyant du vrai HTML.
La navigation agentique. Une nouvelle catégorie de systèmes d’IA navigue sur le web au nom des utilisateurs, réservant des vols, comparant des prix, remplissant des formulaires. Ces systèmes accèdent à de vraies pages et ont besoin qu’elles s’affichent correctement.
Dans les trois cas, ce que le web ouvert peut ou ne peut pas servir détermine directement ce qu’un système d’IA est capable de faire. Si une page est derrière un paywall, un mur de connexion, ou rendue uniquement dans une application, elle n’existe fonctionnellement pas pour la couche IA. Si elle est servie différemment aux bots qu’aux humains, l’IA en voit une version dégradée. Si elle est bloquée au niveau réseau, l’IA ne voit rien.
Le coût d’un web ouvert incomplet se démultiplie au niveau de la couche IA, parce que l’IA multiplie l’accès. Un scraping raté représentait autrefois un point de données manquant. Aujourd’hui, la même lacune se retrouve dans un million de réponses de modèles.
Le rôle de l’infrastructure
Les réseaux de proxies sont la réponse ennuyeuse, au niveau de la plomberie, à une partie de ce problème. Ils ne corrigent pas les paywalls, ne déverrouillent pas les applications, et ne s’opposent pas aux fournisseurs anti-bot. Ce qu’ils font, c’est restaurer une mesure d’accès représentatif, permettre à une requête d’émaner d’une vraie connexion résidentielle, dans une vraie zone géographique, avec une vraie réputation réseau, afin que le web ouvert qui est encore ouvert s’ouvre réellement pour elle.
C’est une correction partielle à un problème bien plus vaste. Nous ne prétendons pas le contraire. La réponse complète à la question “comment garder le web ouvert fonctionnel” va nécessiter des pressions réglementaires, des investissements dans des infrastructures publiques, des exigences de transparence sur la personnalisation et le cloisonnement, et une remise en question générale de ce que “disponible publiquement” devrait signifier à l’ère de la consommation par l’IA. Rien de tout cela ne sera réglé cette année.
En attendant, les parties du web qui sont encore publiques devraient être réellement accessibles, pour les systèmes qui ont besoin d’y accéder. C’est la petite pièce sur laquelle nous travaillons, et c’est la petite pièce qui a principalement motivé le dernier cycle d’investissement dans notre réseau résidentiel.
La version honnête
Un web ouvert plus accessible est bénéfique pour le grounding par IA, pour la recherche, pour le journalisme, pour la transparence des prix, pour le choix des consommateurs, pour presque tout le monde sauf les entités qui captent directement des rentes grâce au cloisonnement. La tendance va à l’encontre de cela. Rien de ce que nous livrons ne va inverser cette tendance.
Ce que nous pouvons faire, et ce que la couche d’infrastructure au sens large peut faire, c’est s’assurer que les parties du web qui sont encore publiques restent accessibles pour les systèmes qui en ont besoin. C’est un objectif plus modeste que “sauver le web ouvert”. Il est aussi atteignable, et il compte davantage chaque année que l’IA devient le principal consommateur de ce que le web a à offrir.