Tutoriel pratique sur l'extraction rapidement et efficacement des informations Web à l'aide de PHP et PHPSPider

M66 2025-06-15

Comment extraire les informations requises d'une page Web à l'aide de PHP et PHPSPider?

Avec la richesse croissante du contenu Internet, les développeurs sont confrontés au défi d'extraire rapidement et avec précision des informations précieuses d'un grand nombre de pages Web. En tant que langage de développement largement utilisé, PHP peut nous aider à réaliser efficacement le rampage et le traitement des données de page Web avec le puissant cadre de robot PHPSPider.

1. Installer PhPSPider

PHPSPider est un framework Crawler basé sur PHP qui peut être installé via Composer. Ouvrez la ligne de commande et entrez la commande suivante:

 <span class="fun">Le compositeur nécessite un Spider / PHPSPider</span>

2. Écrivez le code de chenilles

Une fois l'installation terminée, créez un fichier nommé spider.php , introduisez d'abord le fichier de chargement automatique, puis créez l'objet Crawler et définissez l'URL de rampe initiale:

 <?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// Créer un objet Crawler<br>
$spider = new phpspider();</p>
<p>// Démarrage du réglageURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// Fonction de rappel qui définit la règle d&#39;extraction<br>
$spider->on_extract_page = function ($page, $data) {<br>
// Écrire une logique d&#39;extraction d&#39;informations ici<br>
return $data;<br>
};</p>
<p>// Commencer le robot<br>
$spider->start();<br>

3. Positionner et extraire les informations requises

Dans la fonction de rappel, les éléments de page peuvent être positionnés à l'aide de sélecteurs réguliers d'expressions, XPath ou CSS. L'exemple suivant montre comment obtenir le contenu du titre et du corps de la page Web:

 $spider->on_extract_page = function ($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);

return $data;

};

4. Enregistrer les résultats de l'extrait

Les informations extraites peuvent être enregistrées sur les supports de stockage tels que les fichiers et les bases de données. L'exemple de code suivant enregistre l'appendice de données dans un fichier texte:

 $spider->on_extract_page = function ($page, $data) {
    $title = $page['raw']['headers']['title'][0];
    $content = $page['raw']['content'];
$data['content'] = strip_tags($content);

// Enregistrer les résultats dans le fichier
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);

return $data;

};

5. Courir de coureurs

Après avoir terminé l'écriture de code, exécutez la commande suivante pour démarrer le robot:

 <span class="fun">php spider.php</span>

Le Crawler rampera la page de l'URL de départ, obtiendra les informations requises en fonction des règles d'extraction et les enregistrera.

Résumer

Grâce à PHP combiné avec le cadre PHPSPider, des robots Web puissants peuvent être rapidement construits pour obtenir une collection précise de grandes quantités d'informations sur les pages Web. L'utilisation de base introduite dans cet article convient aux débutants. PHPSPider prend également en charge des configurations et des fonctions plus complexes pour répondre à divers besoins de rampe de données.

Connexe

Comment extraire les informations requises d'une page Web à l'aide de PHP et PHPSPider?

Derniers articles