Cet article est une information éducative générale, et non un conseil juridique. Les lois varient selon les pays et évoluent dans le temps ; leur application dépend de votre situation spécifique. Pour votre cas, consultez un avocat qualifié.
“Le web scraping est-il légal ?” est l’une des questions les plus recherchées dans le monde de la donnée, et la réponse honnête est : en général oui, mais cela dépend. Le web scraping en lui-même, c’est-à-dire le fait de lire de manière programmatique des pages web publiquement accessibles, est globalement licite dans de nombreuses juridictions. Ce qui fait basculer un scraping du côté clairement acceptable vers le risque juridique, c’est la combinaison de trois éléments : ce que vous collectez, comment vous le collectez, et où vous et vos cibles vous trouvez.
Voici un tour d’horizon clair du paysage juridique : les principes qui tranchent la plupart des affaires, les décisions de référence à connaître, et les bonnes pratiques qui permettent de rester du bon côté de la ligne. Cet article ne remplace pas un avocat, mais il vous aidera à poser les bonnes questions.
En résumé
Pour la plupart des scrapings portant sur des données publiquement disponibles et non personnelles, effectués sans contourner des contrôles d’accès et sans surcharger la cible, les tribunaux américains et d’autres pays ont généralement adopté une position permissive. Le risque augmente fortement dès lors que vous franchissez l’une de ces lignes :
- Scraper des données personnelles (noms, e-mails, profils) — cela déclenche l’application du droit de la vie privée.
- Scraper derrière un identifiant ou un paywall que vous n’êtes pas autorisé à contourner.
- Republier du contenu protégé par le droit d’auteur plutôt que d’en extraire des faits.
- Dégrader les serveurs de la cible par une charge excessive.
- Violer les Conditions d’utilisation d’un site d’une manière qui engage votre responsabilité contractuelle.
Restez dans la zone sûre — données publiques, non personnelles, collectées de manière respectueuse et factuelle — et vous êtes sur un terrain solide dans la plupart des pays. Entrez dans la zone à risque, et la question “est-ce légal ?” devient une vraie question, spécifique aux faits.
Les cadres juridiques qui tranchent réellement
La légalité ne repose pas sur une seule loi, mais sur plusieurs corpus juridiques qui se chevauchent, et un scraping donné peut en toucher plusieurs.
1. Les lois sur l’accès informatique (ex. : le CFAA américain). Le Computer Fraud and Abuse Act sanctionne l’accès “non autorisé” à des systèmes informatiques. La question centrale est de savoir si scraper des pages publiques constitue un accès “non autorisé”. Le droit américain récent a considérablement restreint cette notion (voir les affaires ci-dessous) : les données publiques accessibles à toute personne disposant d’un navigateur ne constituent généralement pas un “accès non autorisé”. Accéder à des données protégées par une authentification à laquelle vous n’avez pas droit est une autre affaire.
2. Le droit des contrats / les Conditions d’utilisation. Les Conditions d’utilisation de la plupart des sites interdisent l’accès automatisé. Violer ces conditions relève généralement du droit contractuel, et non du droit pénal, mais cela peut vous exposer à une responsabilité civile (violation de contrat). Les tribunaux traitent les clauses “clickwrap” (vous avez cliqué sur “J’accepte”) plus sérieusement que les clauses “browsewrap” (un lien en bas de page avec lequel vous n’avez jamais interagi). Violer les Conditions d’utilisation ne rend pas le scraping criminel, mais c’est un vrai risque civil.
3. Le droit d’auteur. Les faits et les données ne sont pas protégeables par le droit d’auteur ; l’expression créative, elle, l’est. Extraire des prix, des caractéristiques techniques ou des statistiques est bien plus sûr que de copier et republier des articles, des photos ou d’autres contenus originaux. Si vous reproduisez du contenu protégé, vous entrez dans le domaine du droit d’auteur, où s’appliquent l’usage loyal (fair use / fair dealing) et les licences.
4. Les droits sur les bases de données (notamment dans l’UE). Le droit sui generis sur les bases de données de l’UE protège l’investissement substantiel consenti pour constituer une base de données, même lorsque les faits individuels ne sont pas protégeables par le droit d’auteur. Scraper et réutiliser une partie substantielle d’une base de données protégée peut constituer une violation de ce droit dans l’UE, sans équivalent aux États-Unis.
5. Le droit de la vie privée / la protection des données (RGPD, CCPA, et autres). C’est le point crucial pour les données personnelles. Le RGPD s’applique aux données personnelles des personnes situées dans l’UE quel que soit l’endroit depuis lequel vous scrapez, et il exige généralement une base légale, de la transparence et le respect des droits des personnes. Scraper des données personnelles — visages, profils, coordonnées — est la catégorie la plus risquée, et plusieurs autorités de régulation ont infligé de lourdes amendes à ce titre. Le CCPA/CPRA californien et une liste croissante d’autres lois sur la vie privée ajoutent leurs propres exigences.
6. Le trespass to chattels. Une doctrine ancienne qui peut s’appliquer lorsque le scraping nuit aux systèmes de la cible, par exemple en surchargeant ses serveurs. C’est le préjudice, et non l’accès, qui déclenche l’application de cette doctrine.
La conclusion : il n’existe pas de “loi sur le scraping” unique. La licéité d’un scraping dépend des corpus juridiques qu’il touche, et cela est déterminé par les données collectées, la méthode et le lieu.
Les affaires de référence à connaître
Quelques décisions ont façonné la pratique en la matière. (La jurisprudence évolue ; considérez ces affaires comme des repères, et non comme le dernier mot définitif.)
hiQ Labs c. LinkedIn (États-Unis, 9e Circuit). hiQ scrapait des profils LinkedIn publics. Les tribunaux ont indiqué que scraper des données publiquement disponibles ne constitue probablement pas un “accès non autorisé” au sens du CFAA — un signal fort que le scraping de données publiques n’est pas assimilable à du piratage criminel. À noter que hiQ a ensuite été exposé à une responsabilité sur le terrain contractuel pour violation des conditions de LinkedIn, ce qui illustre bien que le CFAA et les Conditions d’utilisation sont deux questions distinctes.
Van Buren c. United States (Cour suprême des États-Unis, 2021). La Cour a restreint la clause “excède l’accès autorisé” du CFAA : utiliser un accès que l’on détient légitimement à des fins inappropriées ne constitue pas automatiquement une violation du CFAA. Cela a réduit l’exposition au CFAA dans de nombreux scénarios de scraping.
Meta c. Bright Data (États-Unis, N.D. Cal., 2024). Un tribunal a jugé que scraper des données publiques de Facebook et Instagram ne violait pas les conditions de Meta, en partie parce que le scraper n’était pas connecté lors de la collecte de données publiques. Un élément supplémentaire indiquant que le scraping public sans authentification repose sur un terrain plus solide que le scraping derrière une authentification.
Clearview AI (autorités de régulation UE/Royaume-Uni). Des autorités de régulation ont sanctionné Clearview pour avoir scrapé des images de visages — des données personnelles — afin de constituer une base de données de reconnaissance, sans base légale. Une illustration claire que le scraping de données personnelles est régi par le droit de la vie privée, dont les règles sont strictes.
Le schéma qui se dégage de ces affaires : le scraping public, sans authentification, non personnel et factuel est le terrain le plus sûr ; l’authentification, les données personnelles et le contenu republié sont là où se concentre le risque juridique.
Quelle place pour les proxies ?
Une idée reçue courante est que l’utilisation d’un proxy modifie la situation juridique. Ce n’est pas le cas, dans un sens comme dans l’autre.
Un proxy résidentiel est un outil de routage, du même type que l’infrastructure qui alimente les CDN, les VPN et les réseaux d’entreprise. L’utiliser est licite. Mais un proxy ne “blanchit” pas la légalité : router un scraping illicite via un proxy ne le rend pas licite, et router un scraping licite via un proxy ne le rend pas illicite. Les proxies changent l’adresse IP depuis laquelle une requête est émise, pas le fait que vous devriez ou non l’émettre.
Ce que les proxies permettent légitimement, c’est d’opérer de manière responsable à grande échelle, en distribuant la charge pour ne pas marteler un seul point d’accès, et en accédant à des contenus géolocalisés. La légalité de l’activité sous-jacente reste inchangée. (Notre politique d’utilisation acceptable définit ce qui est autorisé sur Shifter, et elle s’appuie exactement sur ces principes.)
Bonnes pratiques pour rester du bon côté
Vous ne pouvez pas obtenir de certitude juridique à partir d’un article de blog, mais vous pouvez réduire considérablement votre risque en adoptant ces habitudes. Elles constituent d’ailleurs aussi de bonnes pratiques d’ingénierie.
- Scrapez des données publiques, pas des données protégées par un identifiant. L’authentification est une ligne claire. Si vous devez vous connecter ou contourner un contrôle d’accès pour y accéder, considérez cela comme un risque élevé et consultez un professionnel.
- Évitez les données personnelles sauf si vous disposez d’une base légale. Les noms, e-mails, profils et surtout les données biométriques ou sensibles relèvent du droit de la vie privée. Si vous n’avez pas besoin de données personnelles, ne les collectez pas. Si vous en avez besoin, obtenez des conseils appropriés sur votre base légale et vos obligations.
- Respectez le robots.txt lorsqu’il est contraignant. Ce n’est pas une loi, mais respecter le robots.txt et les souhaits exprimés d’un site est une preuve solide de bonne foi, et c’est la norme.
- Ne dégradez pas la cible. Limitez le débit, scrapez en dehors des heures de pointe lorsque c’est raisonnable, et ne laissez jamais votre collecte nuire aux performances du site. Le préjudice causé aux serveurs est le fondement des actions en trespass. (Les bonnes pratiques de scraping et le comportement licite se recoupent largement.)
- Extrayez des faits, ne republiez pas de contenu créatif. Les prix, les caractéristiques techniques et les données chiffrées sont bien plus sûrs que la copie d’articles, d’images ou d’autres expressions originales.
- Lisez les Conditions d’utilisation. Sachez ce à quoi vous consentez, notamment les clauses clickwrap, et évaluez le risque contractuel lié à leur violation.
- Tenez compte de la juridiction. Les personnes concernées dans l’UE font entrer le RGPD en jeu où que vous opériez ; les bases de données de l’UE font entrer les droits sur les bases de données ; les lois de votre propre pays s’appliquent également. Le scraping transfrontalier multiplie les corpus de règles applicables.
- Documentez votre objectif et votre processus. Un usage légitime et bien documenté (comparaison de prix, recherche, veille) est plus facile à défendre qu’une collecte vague ou agressive.
Ces principes sont les mêmes que ceux qui sous-tendent la constitution responsable de jeux de données et la collecte de données d’entraînement — conformité et qualité vont dans le même sens.
FAQ
Le web scraping est-il légal ? En général, scraper des données publiquement disponibles, non personnelles, sans contourner des contrôles d’accès ni nuire à la cible, est globalement licite dans de nombreuses juridictions. Cela devient juridiquement risqué lorsque cela implique des données personnelles, une authentification ou un paywall, du contenu protégé par le droit d’auteur, un préjudice causé aux serveurs ou une violation des Conditions d’utilisation. Cela dépend toujours des faits spécifiques et de la juridiction.
Est-il légal de scraper des données publiques ? Les données publiques accessibles sans authentification constituent le terrain le plus sûr — la jurisprudence américaine a indiqué à plusieurs reprises que scraper des pages publiquement accessibles ne constitue probablement pas un “accès non autorisé”. Mais “public” ne signifie pas “sans restriction” : si ces données publiques sont des données personnelles, le droit de la vie privée s’applique quand même, et republier du contenu public protégé par le droit d’auteur soulève toujours des questions de droit d’auteur.
Violer les Conditions d’utilisation rend-il le scraping illégal ? Pas au sens pénal, mais cela peut constituer un problème civil. Violer les Conditions d’utilisation relève généralement du droit contractuel et peut vous exposer à une responsabilité pour violation de contrat, distincte des lois sur l’accès informatique. Les clauses clickwrap (auxquelles vous avez activement consenti) ont plus de poids que les clauses browsewrap (un lien en bas de page).
Est-il légal de scraper des données personnelles ? C’est la catégorie la plus risquée. Les données personnelles déclenchent l’application de lois sur la vie privée telles que le RGPD (pour les personnes dans l’UE, quel que soit l’endroit depuis lequel vous scrapez) et le CCPA, qui exigent généralement une base légale et imposent des obligations. Plusieurs autorités de régulation ont sanctionné des entreprises pour avoir scrapé des données personnelles sans base légale. Consultez un juriste avant de scraper des données personnelles.
L’utilisation d’un proxy rend-elle le scraping légal ou illégal ? Ni l’un ni l’autre. Un proxy est un outil de routage licite ; il change l’adresse IP depuis laquelle une requête est émise, pas la licéité de l’activité sous-jacente. Il ne peut pas rendre licite un scraping illicite, et il ne rend pas illicite un scraping licite.
Est-il légal de scraper du contenu protégé par le droit d’auteur ? Extraire des faits (prix, caractéristiques techniques, chiffres) est généralement sans risque, car les faits ne sont pas protégeables par le droit d’auteur. Copier et republier du contenu créatif original — articles, photos, vidéos — peut constituer une violation du droit d’auteur, sauf si cela relève de l’usage loyal (fair use / fair dealing) ou d’une licence.
En conclusion
Le web scraping est, dans l’ensemble, légal — en particulier lorsque vous collectez des données publiques, non personnelles et factuelles sans contourner des contrôles d’accès ni nuire au site. Le risque juridique se situe aux marges : données personnelles, authentification, contenu protégé par le droit d’auteur, surcharge des serveurs et conditions contractuelles. Rester en conformité, c’est essentiellement rester en dehors de ces marges et agir de bonne foi.
Rien de tout cela ne remplace un conseil juridique sur votre projet spécifique — en cas de doute, consultez un avocat. Mais les principes sont cohérents et assimilables : scrapez ce qui est public, ne prenez que ce dont vous avez besoin, ne nuisez pas à la cible, respectez la vie privée et le droit d’auteur, et connaissez vos juridictions. En procédant ainsi, un réseau de proxies résidentiels de qualité n’est qu’une infrastructure responsable pour collecter des données publiques à grande échelle — exactement comme il est censé être utilisé. Pour en savoir plus sur le web scraping lui-même, commencez par ce qu’est le web scraping et comment il peut soutenir une entreprise.