$ch = curl_init(); // 초기화cURL
$url = "http://example.com"; // 대상 URL
curl_setopt($ch, CURLOPT_URL, $url); // 요청 된 설정URL
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 직접 출력 대신 컨텐츠를 반환합니다
$response = curl_exec($ch); // 요청을 실행하십시오
curl_close($ch); // 세션을 닫으십시오
echo $response; // 출력 웹 페이지 컨텐츠
이 코드는 원격 서버에서 페이지 html을 끌어내는 기본 프로세스를 완료합니다.
$response = "<title>Example Title</title>"; // 추정HTML콘텐츠
$pattern = '/<title>(.*?)<\/title>/'; // 성냥<title>콘텐츠
preg_match($pattern, $response, $matches); // 执行성냥
$title = $matches[1]; // 제목을 얻으십시오
echo $title; // 산출:Example Title
이 방법은 더 간단한 구조 또는 더 높은 성능 요구 사항이있는 시나리오에 적합합니다.
$response = "<html><body>
<a href='http://example.com'>Link 1</a>
<a href='http://example.org'>Link 2</a>
</body></html>"; // 웹 페이지HTML콘텐츠
$dom = new DOMDocument();
libxml_use_internal_errors(true); // 예방하다HTML분석 오류
$dom->loadHTML($response); // 짐HTML콘텐츠
$links = $dom->getElementsByTagName('a'); // 모든 것을 얻으십시오a상표
foreach ($links as $link) {
echo $link->getAttribute('href') . "<br>"; // 산출链接地址
}
정기적 인 일치와 비교할 때 DomDocument는 불규칙한 HTML에 대한 더 강력한 결함 공차를 가지며 복잡한 구조화 된 페이지에 사용하는 것이 좋습니다.
뉴스 집계 및 미디어 모니터링
제품 가격 비교 및 전자 상거래 분석
실시간 날씨 및 교통 정보 캡처
금융 시장 및 주식 데이터 수집
PHP 개발자는 네트워크 요청과 HTML 구문 분석 기술을 유연하게 결합하여 다양한 자동 데이터 추출 도구를 구축 할 수 있습니다.