L'anatomie d'une IP résidentielle

Résidentiel, ISP, datacenter : les étiquettes sont connues, la mécanique moins. Décryptage technique de ce qu'un site cible inspecte réellement.

Si vous avez cherché des proxies au cours de l’année écoulée, vous avez vu les mêmes trois étiquettes partout : résidentielle, ISP, datacenter. Ces étiquettes sont suffisamment connues pour que la plupart des équipes choisissent une catégorie et passent à autre chose. Les mécanismes sous-jacents le sont moins, et c’est là que la plupart des problèmes en production trouvent leur origine.

Voici une présentation de ce qu’est réellement une IP, de ce que les sites cibles en lisent, et pourquoi “résidentielle” ressemble davantage à un spectre qu’à une classification binaire.

Ce que représente réellement une adresse IP

Une adresse IP est un numéro de routage. Elle pointe vers une interface réseau sur une machine connectée à l’internet public. C’est là toute sa définition fonctionnelle.

Tout le reste, la distinction résidentielle/datacenter, l’association géographique, la “réputation” de l’IP, est une métadonnée superposée par des tiers externes. L’IP elle-même ne contient rien de tout cela. Elle est consultée dans des bases de données qui indiquent “cette IP appartient au réseau X, qui est détenu par l’entité Y, que la base de données a classifiée comme type Z.”

Les deux éléments de métadonnées les plus importants sont :

ASN (Autonomous System Number). Chaque bloc d’IPs sur internet est enregistré auprès d’un ASN. Les ASN appartiennent à des organisations : Comcast (AS7922), Verizon (AS701), Cloudflare (AS13335), Amazon AWS (AS16509). Lorsqu’un site cible reçoit une requête, la première chose que fait sa couche anti-bot est de rechercher l’ASN de l’IP source et de vérifier quel type d’organisation en est propriétaire.

Géolocalisation. Une base de données distincte (MaxMind GeoIP2, IP2Location, ou des équivalents maison) associe des blocs d’IPs à des coordonnées géographiques. La précision va du niveau pays (très fiable) au niveau ville (globalement fiable) jusqu’au niveau rue (largement fictif). Le site l’utilise pour déterminer la localisation déclarée du visiteur, la devise dans laquelle afficher les prix, et les résultats locaux à mettre en avant.

Ces deux éléments reposent sur des bases de données externes. L’IP ne sait pas dans quel pays elle se trouve. L’IP ne sait pas qui la possède. Tout le monde consulte le même ensemble de fournisseurs, et ces fournisseurs sont parfois en désaccord entre eux.

Les trois catégories d’IP, mécaniquement

Passons aux étiquettes.

IPs datacenter. L’ASN appartient à un hébergeur, AWS, GCP, Azure, OVH, Digital Ocean, Hetzner. Le bloc d’IPs est enregistré comme “hébergement” dans les principales bases de données de réputation. La géolocalisation pointe vers l’emplacement du datacenter. Ces IPs sont peu coûteuses à acquérir et ont une réputation résidentielle quasi nulle, si bien que les sites cibles dotés de défenses actives les traitent par défaut avec une forte méfiance.

IPs résidentielles. L’ASN appartient à un FAI grand public, Comcast, Spectrum, Deutsche Telekom, BT, Free, NTT, ainsi que des milliers de fournisseurs régionaux. Le bloc d’IPs est enregistré comme “résidentiel” ou “grand public” dans les bases de données de réputation. La géolocalisation pointe vers la zone desservie par le FAI. Ces IPs sont associées à des années de comportement “consommateur réel” (quelqu’un dans ce foyer regarde Netflix, navigue sur Twitter, joue sur Steam), de sorte que les bases de données de réputation leur accordent un a priori positif.

IPs ISP. L’ASN appartient à un FAI grand public, MAIS la machine par laquelle le trafic sort est physiquement hébergée dans un datacenter. Le FAI a alloué un bloc de son espace d’adressage à un client en colocation, qui y fait transiter son trafic. La consultation de l’ASN indique “FAI résidentiel.” Les bases de données de réputation indiquent “résidentiel.” Le trafic circule à la vitesse d’un datacenter. C’est la catégorie “proxy ISP”, qui existe précisément parce que les décisions anti-bot des sites cibles reposent sur la consultation de l’ASN, et non sur la réalité physique de l’hébergement.

Les étiquettes ne mentent pas. Elles correspondent à des différences réelles et observables dans ce que montrent les consultations en amont. Elles ne correspondent simplement pas à “l’emplacement physique de la machine”, et les sites cibles ne vérifient généralement pas cela.

Ce que lit le site cible, étape par étape

Lorsqu’une requête atteint un site protégé, la couche anti-bot suit généralement cette séquence :

1. Consultation de l’ASN. L’IP source est recherchée dans une base de données ASN. Résultat : nom du réseau propriétaire et sa classification (résidentiel / hébergement / professionnel / mobile / inconnu).

2. Consultation de la réputation IP. L’IP source est croisée avec une base de données de réputation qui agrège des signaux provenant du reste du web. Cette IP a-t-elle été impliquée dans du credential stuffing ? Du spam de commentaires ? Du scraping ? Le score de réputation est par IP, alimenté par des données provenant de sites qui partagent leurs signaux (Cloudflare gère le plus grand pool ; les acteurs plus modestes en consomment ou font appel à des spécialistes).

3. Consultation de la géolocalisation. L’IP source est associée à un pays, souvent une ville. Le site l’utilise pour localiser la réponse (prix, langue, mentions réglementaires, produits disponibles).

4. Vérification de l’empreinte. Cette étape est indépendante de l’IP, mais le site la réalise en parallèle. Le User-Agent de la requête, l’ordre du handshake TLS (JA3/JA4), les signaux émis par le navigateur (canvas, polices, WebGL) sont tous empreintés et comparés aux empreintes de bots connues.

5. Historique comportemental. Si la session présente une continuité (cookies, correspondance d’empreinte entre les requêtes), le site examine le schéma multi-requêtes. Combien de pages par minute ? La cadence des clics est-elle naturelle ? Le visiteur a-t-il fait défiler la page ? A-t-il survolé des éléments ?

Une IP résidentielle propre passe les étapes 1, 2 et 3 haut la main. Le site voit “Comcast, résidentiel, US-East, réputation neutre” et sert la vraie page. Les vérifications d’empreinte et de comportement ont lieu, mais l’a priori est bien plus indulgent que pour une IP datacenter.

Une IP datacenter déclenche une méfiance immédiate à l’étape 1. Le site peut déjà justifier de servir une version dégradée, de bloquer, ou de pousser un CAPTCHA avant même d’avoir lu le corps de la requête.

Une IP ISP est identique à une IP résidentielle au niveau de l’ASN, et passe donc l’étape 1 de la même façon. Les bases de données de réputation la détectent parfois (certains spécialistes repèrent que “ce bloc d’IPs a hébergé des requêtes avec des schémas temporels très peu humains”), mais la plupart la classifient encore comme résidentielle.

Pourquoi “résidentielle” ne suffit pas

Un ASN résidentiel vous fait passer la porte. Il ne garantit rien au-delà.

Ce que le site peut encore voir, sur une IP résidentielle :

Volume de requêtes par IP. Une IP résidentielle effectuant 500 requêtes par minute vers les pages produits du site ne correspond pas à un “visiteur domestique.” Même avec un ASN propre, le débit seul constitue un signal.
Empreinte TLS. Les vrais navigateurs produisent des ordres de chiffrement TLS, des listes d’extensions et des valeurs ALPN spécifiques. Un scraper utilisant la bibliothèque requests de Python produit une empreinte TLS différente, qui est répertoriée et reconnue depuis des années. ASN résidentiel + TLS Python = bot évident.
Anomalies dans les en-têtes. Les vrais navigateurs envoient des dizaines d’en-têtes dans un ordre précis avec des valeurs précises. Un Accept-Language absent, un Sec-Ch-Ua incohérent, un ordre qui ne correspond pas à l’ordre d’émission réel de Chrome, sont autant de signaux.
Signature comportementale. Les vrais visiteurs survolent, font défiler, abandonnent, reviennent. Les bots parcourent les pages en ligne droite. Le nombre de pages par session, le temps passé sur la page, la présence ou l’absence d’événements souris, tout cela est mesuré.

Un scraper tournant sur une IP résidentielle sans traiter aucun de ces points finira par être classifié. L’IP ne fait que gagner du temps, pas de l’invisibilité. Les équipes qui réussissent à collecter des données de façon durable investissent aussi dans le reste de la pile : User-Agents réalistes, navigateurs headless renforcés, cadences de requêtes raisonnables, formes de sessions plausibles.

Ce que cela implique pour le choix d’un réseau

Quelques implications pratiques :

La taille du pool est un signal parmi d’autres, pas le seul. Un pool de 200 millions d’IPs résidentielles vous offre plus d’options de remplacement lorsque des IPs individuelles sont grillées. Cela ne rend pas chaque IP individuellement plus difficile à détecter. Ce qui compte autant, c’est la capacité du réseau à retirer les IPs grillées, à en introduire de nouvelles, et à maintenir une diversité d’ASN et de géographies dans le temps.

La provenance compte plus que les acheteurs ne le réalisent généralement. Les IPs obtenues via des accords d’opt-in transparents avec des utilisateurs consentants se comportent davantage comme du trafic consommateur réel sur le réseau (parce qu’elles SONT du trafic consommateur réel, utilisé de façon intermittente). Les IPs obtenues via des canaux moins transparents présentent souvent des empreintes comportementales que les systèmes anti-bot ont spécifiquement appris à reconnaître.

Le bon réseau pour un cas d’usage n’est pas le bon réseau pour un autre. Un pipeline de scraping en éventail sur des cibles tolérantes bénéficie d’un grand pool avec rotation par requête. Un workflow de gestion de comptes de longue durée nécessite des IPs ISP fixes avec persistance de session. Un agent IA effectuant une navigation multi-étapes a besoin de sessions résidentielles persistantes par exécution. Chercher un seul “meilleur” réseau est la mauvaise approche.

L’IP n’est qu’un signal parmi beaucoup d’autres. Même une IP résidentielle parfaite peut voir une requête bloquée si la requête elle-même semble robotique. Inversement, une IP moins parfaite peut réussir lorsque la forme de la requête environnante est plausible. La couche IP est nécessaire mais pas suffisante.

Ce qu’il faut retenir

Lorsque vous choisissez un réseau de proxies résidentiels, la question n’est pas “est-il résidentiel” (les IPs de tout réseau crédible sont résidentielles par ASN). Les questions sont :

Comment le réseau source-t-il ses IPs ?
À quelle vitesse retire-t-il les IPs grillées ?
Quelle est la diversité géographique et d’ASN du pool ?
Dans quelle mesure la passerelle préserve-t-elle l’état de session lorsque vous en avez besoin ?
À quoi ressemble la forme de la requête lorsqu’elle quitte la passerelle ?

Ce sont des questions auxquelles on peut répondre, et les réponses comptent davantage que la taille annoncée du pool. Les mécanismes sous-jacents à l’étiquette “résidentielle” sont là où réside la qualité réelle, et là où se détermine le comportement réel en production.

L'anatomie d'une IP résidentielle

Ce que représente réellement une adresse IP

Les trois catégories d’IP, mécaniquement

Ce que lit le site cible, étape par étape

Pourquoi “résidentielle” ne suffit pas

Ce que cela implique pour le choix d’un réseau

Ce qu’il faut retenir

Prêt à commencer ?

Articles connexes

4 raisons simples pour lesquelles les entreprises adorent utiliser des proxies

5 Avantages Majeurs Pour Les Entreprises Qui Utilisent Des Proxies

5 proxies résidentiels vs proxies datacenter pour le scraping IA