A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Qu’est-ce que le Web scraping ?

Le Web scraping est le processus de collecte de contenu publiquement accessible à partir d’un site web et de sauvegarde dans une base de données, un fichier ou une feuille de calcul, pour une analyse ultérieure. Le Web scraping est généralement effectué en utilisant des bots (ou robots d’indexation) en combinaison avec une interface de contrôle. Les bots et les robots d’indexation sont des logiciels conçus pour visiter plusieurs sites web, ou pages d’un site, et collecter les données souhaitées sur les contenus de ces sites et pages. Le Web scraping collecte les données générées par l’indexation ciblée des sites web, et traite ces données pour trouver les informations spécifiques recherchées. Le Web scraping peut aussi être un processus manuel, mais les outils automatisés sont beaucoup plus efficaces, et plus courants.

L’indexation web est le terme employé pour décrire le passage de site en site, de lien en lien, pour trouver du contenu sur le web et indexer différentes pages sur des sites web. Le Web scraping diffère de l’indexation web, car le scraping se réfère à l’acte de collecte et de filtrage des contenus de chaque site ou page. Le scraping peut se concentrer sur des données spécifiques, telles que le prix de certains articles sur Amazon, ou des références à certaines personnes ou entreprises dans les Actualités. L’indexation Web et le Web scraping peuvent être utilisés ensemble ou indépendamment.

À quoi sert le Web scraping ?

Le Web scraping peut être utilisé pour collecter une variété de données. Toute donnée publiquement accessible sur Internet est accessible par les scrapers pour des choses comme :

  • Informations personnelles : Les bots peuvent rechercher spécifiquement des adresses, des adresses e-mail, des numéros de téléphone, des dossiers d’emploi ou de scolarité, ou d’autres indicateurs utilisés pour le profilage des personnes.
  • Applications de commerce : Les bots sont souvent utilisés pour recueillir des détails sur les prix, la disponibilité, et les avis des articles en vente.
  • Événements actuels : Les bots peuvent aider à surveiller les événements actuels et l’activité des marchés et investissements. Une entreprise pourrait utiliser un scraper pour surveiller les dernières nouvelles sur les sites d’Actualités.
  • Rechercher les offres des concurrents : Par exemple, une compagnie de voyage pourrait utiliser un bot pour se faire passer pour un client, remplir un formulaire de réservation, et voir quels tarifs un concurrent propose pour diverses dates, lieux, etc.
  • LLM/apprentissage automatique : Les bots peuvent extraire de grandes quantités de données sur un sujet particulier pour alimenter des modèles d’intelligence artificielle (IA).
  • Sites de hameçonnage : Un mauvais acteur pourrait utiliser un scraper pour obtenir tout ce qui est nécessaire à la création d’un site factice qui ressemble à l’original.

Les scrapers web ne collectent souvent pas de données nécessitant un Login pour l’accès, ou qui ne se trouvent pas en visitant une adresse racine de site web (et ses liens associés). Cependant, si la personne qui gère le scraper dispose des détails nécessaires pour accéder aux zones plus limitées du Web (qui font parfois, mais pas toujours, partie du Deep Web), ces sources de données sont à la portée d’un scraper.

Comment fonctionne le Web scraping ?

Il existe plusieurs méthodes utilisées pour extraire des données du web. Une méthode courante consiste à diriger un bot pour qu’il visite des sites web spécifiques et télécharge le contenu HTML. Le bot peut ensuite filtrer le HTML téléchargé pour obtenir les informations recherchées. Cela repose quelque peu sur le contenu web prévisible et organisé que fournit généralement le HTML. Une autre méthode pourrait consister à ce qu’un bot visite de nombreux sites web à la recherche d’un mot ou d’un terme spécifique. La méthode la plus simple, bien que la moins efficace, ne fait pas appel à un bot; elle consiste à couper et coller manuellement les informations cibles à partir de l’affichage du navigateur.

Les bots de Web scraping peuvent parcourir rapidement les sites et les données, car tout ce qu’ils font est copier ou rechercher le code HTML; ils ne prennent pas réellement le temps d’afficher la page résultante, comme le ferait un navigateur (navigateur) pour un utilisateur réel. Un logiciel compagnon peut fournir une interface qui facilite la conception et l’exécution de leurs propres Web scrapers par des non-programmeurs. Certains scrapers sont même disponibles sous forme d’extensions de navigateur (extensions), bien que celles-ci puissent être plus limitées en capacités ou en vitesse, puisqu’elles utilisent un navigateur qui affiche les résultats. Les scrapers à grande échelle sont généralement hébergés dans le cloud pour optimiser les performances.

Les données récupérées par le scraping peuvent nécessiter un travail supplémentaire pour les organiser (ou les « nettoyer ») et les structurer dans un format analysable. Cette capacité peut faire partie du logiciel de Web scraping.

Comment puis-je empêcher mes données d’être collectées par des scrapers Web ?

Réfléchissez à ce que vous publiez en ligne dans des espaces publics comme les réseaux sociaux. Utilisez les paramètres de confidentialité pour que les informations personnelles sur les réseaux sociaux soient accessibles uniquement aux amis et hors de portée des scrapers. Dans la mesure du possible, assurez-vous que vos informations personnelles sont protégées par des murs comme les connexions ou les paramètres de confidentialité. Si vous avez un site personnel (par exemple un blog ou un CV), envisagez d’incorporer certaines des méthodes discutées ci-dessus pour limiter l’activité de Web scraping sur votre site.

Prêt à braver le nouvel Internet avec Brave ?

Brave a été conçu par une équipe de pionniers du Web axés sur les performances et la confidentialité. Aidez-nous à rendre la navigation meilleure.