Beautiful Soup - Eine mächtige Python-Bibliothek für Screen-Scraping
Beautiful Soup ist eine seit 2004 existierende Python-Bibliothek, die speziell für schnell umzusetzende Projekte wie Screen-Scraping entwickelt wurde. Sie bietet eine Reihe von Vorteilen:
-
Einfache Navigation und Suche: Mit wenigen einfachen Methoden und Pythonischen Idiomen können Sie durch den Parse-Baum navigieren, suchen und diesen modifizieren. Es ist ein praktisches Toolkit, um ein Dokument zu analysieren und die benötigten Informationen zu extrahieren.
-
Unicode- und UTF-8-Unterstützung: Beautiful Soup konvertiert eingehende Dokumente automatisch in Unicode und ausgehende in UTF-8. So müssen Sie sich nur in Ausnahmefällen um Encodings kümmern.
-
Unterstützung verschiedener Parser: Sie kann auf beliebten Python-Parsern wie lxml und html5lib aufbauen, was Ihnen ermöglicht, verschiedene Parsing-Strategien auszuprobieren und Geschwindigkeit gegen Flexibilität zu tauschen.
Mit Beautiful Soup können Sie wertvolle Daten aus schlecht gestalteten Websites extrahieren, die zuvor schwer zugänglich waren. Projekte, die sonst Stunden gedauert hätten, können nun in wenigen Minuten erledigt werden.
Beautiful Soup 4.12.3 ist die aktuelle Version (Stand 17. Januar 2024) und kann mit pip install beautifulsoup4 installiert werden. In Debian und Ubuntu ist es als python3-bs4-Paket verfügbar, in Fedora als python3-beautifulsoup4-Paket. Beautiful Soup 3, die ehemalige offizielle Version, wurde bis März 2012 unterstützt und ist seit dem 1. Januar 2021, einem Jahr nach dem Python 2-Sunsetting, eingestellt. Projekte, die Beautiful Soup 3 verwenden, sollten auf Beautiful Soup 4 migriert werden.
Über die Jahre wurde Beautiful Soup in vielen verschiedenen Projekten eingesetzt, wie z.B. in "Movable Type", DXY-COVID-19-Crawler, Reddit und anderen.