$ch = curl_init(); // initialisationcURL
$url = "http://example.com"; // URL de destination
curl_setopt($ch, CURLOPT_URL, $url); // Définir demandéURL
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // Renvoie du contenu au lieu de la sortie directe
$response = curl_exec($ch); // Exécuter une demande
curl_close($ch); // Fermez la session
echo $response; // Sortie de la page Web Contenu
Ce code complète le processus de base de la réalisation de la page HTML à partir d'un serveur distant.
$response = "<title>Example Title</title>"; // HypothèseHTMLcontenu
$pattern = '/<title>(.*?)<\/title>/'; // correspondre<title>contenu
preg_match($pattern, $response, $matches); // 执行correspondre
$title = $matches[1]; // Obtenez le titre
echo $title; // Sortir:Example Title
Cette méthode convient aux scénarios avec des structures plus simples ou des exigences de performance plus élevées.
$response = "<html><body>
<a href='http://example.com'>Link 1</a>
<a href='http://example.org'>Link 2</a>
</body></html>"; // page webHTMLcontenu
$dom = new DOMDocument();
libxml_use_internal_errors(true); // prévenirHTMLErreur d'analyse
$dom->loadHTML($response); // chargerHTMLcontenu
$links = $dom->getElementsByTagName('a'); // Faire toutaÉtiquette
foreach ($links as $link) {
echo $link->getAttribute('href') . "<br>"; // Sortir链接地址
}
Par rapport à l'appariement régulier, le DomDocument a une tolérance de défaut plus forte pour le HTML irrégulier et est recommandé pour une utilisation dans des pages structurées complexes.
Aggrégation de nouvelles et surveillance des médias
Comparaison des prix du produit et analyse du commerce électronique
Capture d'informations météorologiques et de trafic en temps réel
Collecte de données sur le marché financier et les stocks
En combinant de manière flexible les demandes de réseau et des technologies d'analyse HTML, les développeurs PHP peuvent créer divers outils d'extraction de données automatisés.