$ch = curl_init(); // 初期化cURL
$url = "http://example.com"; // 宛先URL
curl_setopt($ch, CURLOPT_URL, $url); // リクエストされたセットURL
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 直接出力の代わりにコンテンツを返します
$response = curl_exec($ch); // リクエストを実行します
curl_close($ch); // セッションを閉じます
echo $response; // 出力Webページコンテンツ
このコードは、リモートサーバーからページHTMLをプルする基本的なプロセスを完了します。
$response = "<title>Example Title</title>"; // 予測HTMLコンテンツ
$pattern = '/<title>(.*?)<\/title>/'; // マッチ<title>コンテンツ
preg_match($pattern, $response, $matches); // 执行マッチ
$title = $matches[1]; // タイトルを取得します
echo $title; // 出力:Example Title
この方法は、よりシンプルな構造またはより高いパフォーマンス要件を備えたシナリオに適しています。
$response = "<html><body>
<a href='http://example.com'>Link 1</a>
<a href='http://example.org'>Link 2</a>
</body></html>"; // ウェブページHTMLコンテンツ
$dom = new DOMDocument();
libxml_use_internal_errors(true); // 防ぐHTML分析エラー
$dom->loadHTML($response); // 負荷HTMLコンテンツ
$links = $dom->getElementsByTagName('a'); // すべてを取得しますaラベル
foreach ($links as $link) {
echo $link->getAttribute('href') . "<br>"; // 出力链接地址
}
通常のマッチングと比較して、Domdocumentは不規則なHTMLに対してより強い断層トレランスを持ち、複雑な構造化ページで使用することをお勧めします。
ニュース集約とメディア監視
製品価格の比較とeコマース分析
リアルタイムの天気と交通情報のキャプチャ
金融市場と株式データ収集
ネットワークリクエストとHTML解析テクノロジーを柔軟に組み合わせることにより、PHP開発者はさまざまな自動データ抽出ツールを構築できます。