Goutte - Ein einfaches PHP-Web-Scraping-Tool
Goutte ist eine interessante Lösung für das Screen Scraping und Web Crawling mit PHP. Es bietet eine benutzerfreundliche API, mit der Websites durchstöbert und Daten aus HTML/XML-Antworten gewonnen werden können.
Überblick: Goutte ist zwar ein nützliches Tool, jedoch ist zu beachten, dass es ab Version 4 zu einem einfachen Proxy für die HttpBrowser-Klasse aus dem Symfony BrowserKit-Komponenten geworden ist. Um zu migrieren, muss in Ihrem Code Goutte\Client durch Symfony\Component\BrowserKit\HttpBrowser ersetzt werden.
Kernfunktionen:
- Abhängigkeit von PHP 7.1+.
- Erstellung eines Goutte Client-Instanz, die von Symfony\Component\BrowserKit\HttpBrowser erweitert wird.
- Durchführung von Anfragen mit der request()-Methode.
- Klicken auf Links und Extraktion von Daten.
- Einreichen von Formularen.
Grundlegende Verwendung:
Um einen Goutte Client zu erstellen, wird folgender Code verwendet: use Goutte\Client; $client = new Client();
. Anfragen können dann mit der request()
-Methode gestellt werden. Zum Beispiel: $crawler = $client->request('GET', 'https://www.symfony.com/blog/')
.
Insgesamt bietet Goutte eine praktische Möglichkeit, mit PHP Webseiten zu erforschen und Daten zu extrahieren, aber es ist wichtig, die Änderungen in der neueren Version zu berücksichtigen.