Scrapy - Ein umfassendes Web-Scraping-Framework
Scrapy ist ein Open-Source- und kollaboratives Framework, das es ermöglicht, Daten aus Websites in einer schnellen, einfachen und doch erweiterbaren Weise zu extrahieren.
Core Features
- Schnell und leistungsfähig: Mit Scrapy können Sie Regeln definieren, um Daten zu extrahieren, und das Framework erledigt den Rest.
- Einfach erweiterbar: Es ist von Natur aus erweiterbar, so dass Sie neue Funktionalitäten problemlos hinzufügen können, ohne den Kern zu berühren.
- Portabel: Es ist in Python geschrieben und läuft auf Linux, Windows, Mac und BSD.
Basic Usage
- Installieren Sie die neueste Version von Scrapy mit
pip install scrapy
. - Sie können einen Spider erstellen, wie im Beispiel gezeigt:
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://www.zyte.com/blog/']
def parse(self, response):
for title in response.css('.oxy-post-title'):
yield {'title': title.css('::text').get()}
for next_page in response.css('a.next'):
yield response.follow(next_page, self.parse)
- Anschließend können Sie den Spider ausführen mit
scrapy runspider myspider.py
.
Scrapy hat eine gesunde Community mit vielen Mitwirkenden. Es hat 43.100 Sterne, 9.600 Forks und 1.800 Beobachter auf GitHub sowie 5.500 Follower auf Twitter und 18.000 Fragen auf StackOverflow.