Datenschutz-Glossar

Web Scraping

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Was ist Web-Scraping?

Web-Scraping ist der Prozess des Sammelns öffentlich zugänglicher Inhalte von einer Website und deren Speicherung in einer Datenbank, Datei oder Tabelle zur späteren Analyse. Web-Scraping wird normalerweise mithilfe von Bots (oder Web-Crawlern) in Kombination mit einer Steuerungsschnittstelle durchgeführt. Bots und Crawler sind Software, die entwickelt wurde, um mehrere Websites oder Seiten innerhalb einer Website zu besuchen und gewünschte Daten über die Inhalte dieser Websites und Seiten zu sammeln. Web-Scraping sammelt die durch das Crawlen von Ziel-Websites generierten Daten und verarbeitet diese, um die gewünschten spezifischen Daten zu finden. Web-Scraping kann auch ein manueller Prozess sein, aber automatisierte Werkzeuge sind weitaus effizienter und häufiger.

Web Crawling ist der Begriff für das Bewegen von Seite zu Seite, um Inhalte im Web zu finden und verschiedene Seiten auf Websites zu indexieren. Web-Scraping unterscheidet sich vom Web Crawling, da sich das Scraping auf das Sammeln und Filtern der Inhalte jeder Website oder Seite bezieht. Das Scraping kann sich auf bestimmte Daten konzentrieren, wie z. B. die Preise bestimmter Artikel bei Amazon oder Erwähnungen bestimmter Personen oder Unternehmen in Nachrichtenportalen. Web Crawling und Web Scraping können zusammen oder unabhängig voneinander verwendet werden.

Wofür wird Web-Scraping verwendet?

Web-Scraping kann verwendet werden, um eine Vielzahl von Daten zu sammeln. Alle öffentlich zugänglichen Daten im Internet sind für Web Scraper zugänglich und können Folgendes umfassen:

  • Persönliche Informationen: Bots können gezielt nach Straßenadressen, E-Mail-Adressen, Telefonnummern, Beschäftigungs- oder Schulungsdaten oder anderen Indikatoren suchen, die zur Profilerstellung von Personen verwendet werden.
  • Commerce-Anwendungen: Bots werden häufig verwendet, um Details zu Preisen, Verfügbarkeit und Bewertungen von Artikeln zu sammeln, die zum Verkauf stehen.
  • Aktuelle Ereignisse: Bots können helfen, aktuelle Ereignisse sowie Investitions- und Marktaktivitäten zu überwachen. Ein Unternehmen könnte einen Scraper verwenden, um aktuelle Nachrichten auf Nachrichtenportalen zu beobachten.
  • Angebote von Wettbewerbern recherchieren: Zum Beispiel könnte ein Reiseunternehmen einen Bot verwenden, um sich als Kunde auszugeben, ein Reservierungsformular auszufüllen und zu sehen, welche Raten ein Wettbewerber für verschiedene Daten, Standorte usw. anbietet.
  • LLM/Maschinelles Lernen: Bots können große Mengen an Daten zu einem bestimmten Thema scrapen, um sie in Künstliche Intelligenz (KI)-Modelle einfließen zu lassen.
  • Phishing-Seiten: Ein böswilliger Akteur könnte einen Scraper verwenden, um alles Notwendige zu sammeln, um eine Nachahmer-Website zu erstellen, die genau wie die Original-Website aussieht.

Web Scraper sammeln nicht oft Daten, die ein Login zum Zugriff erfordern oder die nicht durch den Besuch einer Haupt-Website-Adresse (und der zugehörigen Links) gefunden werden können. Wenn die Person, die den Scraper betreibt, jedoch über die notwendigen Details verfügt, um auf die eingeschränkteren Bereiche des Webs zuzugreifen (manchmal—aber nicht immer—ein Teil des Deep Web), sind diese Datenquellen für einen Scraper erreichbar.

Wie funktioniert Web-Scraping?

Es gibt mehrere Methoden, um Daten aus dem Web zu scrapen. Eine gängige Methode besteht darin, einen Bot anzuweisen, bestimmte Websites zu besuchen und den HTML-Inhalt herunterzuladen. Der Bot kann dann den heruntergeladenen HTML-Code nach den gewünschten Informationen filtern. Dies beruht in gewisser Weise auf dem vorhersehbaren, organisierten Website-Inhalt, den HTML normalerweise bietet. Eine weitere Methode könnte darin bestehen, dass ein Bot viele Websites nach einem bestimmten Wort oder Begriff durchsucht. Die einfachste, wenn auch ineffizienteste Methode verwendet überhaupt keinen Bot—stattdessen besteht sie darin, die Zielinformationen manuell aus einer Browseranzeige zu schneiden und einzufügen.

Web-Scraping-Bots können Websites und Daten schnell durchforsten, da sie nur den HTML-Code kopieren oder durchsuchen—sie nehmen sich nicht die Zeit, die Ergebnisseite anzuzeigen, wie es ein Browser für einen echten Benutzer tun würde. Begleitsoftware kann ein Front-End bereitstellen, das es Nicht-Programmierern erleichtert, ihre eigenen Web Scraper zu entwerfen und auszuführen. Einige Scraper sind sogar als Erweiterungen für Browser verfügbar, obwohl diese in ihren Fähigkeiten oder ihrer Geschwindigkeit möglicherweise eingeschränkter sind, da sie einen Browser verwenden, der die Ergebnisse anzeigt. Groß angelegte Scraper werden normalerweise in der Cloud gehostet, um die Leistung zu optimieren.

Die durch Scraping abgerufenen Daten müssen möglicherweise zusätzlich organisiert (oder “gereinigt”) und in ein analysierbares Format strukturiert werden. Diese Fähigkeit kann Teil der Web-Scraping-Software sein.

Wie kann ich verhindern, dass meine Daten von Web Scrapers gesammelt werden?

Denke darüber nach, was du online in öffentlichen Bereichen wie sozialen Medien postest. Verwende Datenschutzeinstellungen, um persönliche Informationen in sozialen Medien nur für Freunde zugänglich und vor Scrapers unzugänglich zu machen. Wann immer möglich, stelle sicher, dass deine persönlichen Informationen hinter Wänden wie Logins oder Datenschutzeinstellungen geschützt sind. Wenn du eine persönliche Website hast (z. B. einen Blog oder Lebenslauf), solltest du einige der oben diskutierten Methoden einbeziehen, um die Aktivität des Web Scraping auf Ihrer Website zu begrenzen.

Bereit für Brave, dem neuen Internet?

Brave wurde von einem Team aus datenschutz- und leistungsorientierten Vorreitern des Webs entwickelt. Helfen Sie uns dabei, gemeinsam das Internet zu reparieren.