웹 개발에서는 종종 디스플레이, 스토리지 또는 분석을 위해 HTML 페이지에서 구조화 된 데이터를 추출해야합니다. 일부 오픈 소스 도구를 사용하면이 프로세스를 크게 단순화 할 수 있습니다. PHP Simple HTML Dom Parser는 강력하고 사용하기 쉬운 라이브러리입니다. 이 기사를 사용하면 단계별로 사용법을 이해하게됩니다.
PHP Simple HTML Dom Parser는 개발자가 CSS 선택기와 같은 방식으로 HTML 문서의 요소에 액세스 할 수있는 가벼운 HTML 구문 분석 라이브러리입니다. 문법 스타일은 jQuery에 가깝기 때문에 학습 비용이 적고 다양한 웹 페이지 데이터 추출 작업에 적합합니다.
먼저 공식 소스에서 최신 버전의 라이브러리 파일을 다운로드해야합니다. 다운로드가 완료되면 PHP 프로젝트 디렉토리에 넣고 다음과 같이 소개하십시오.
require('simple_html_dom.php');
라이브러리가 소개되면 File_Get_html () 함수를 사용하여 웹 페이지 컨텐츠를로드 할 수 있습니다. 이 기능은 원격 URL과 로컬 HTML 파일 경로를 모두 지원합니다.
$html = file_get_html('http://www.example.com');
HTML을로드 한 후 CSS 선택기를 사용하여 DOM 노드를 찾고 처리 할 수 있습니다. 몇 가지 일반적인 작업은 다음과 같습니다.
예를 들어, 모든 것을 얻습니다 요소:
$elements = $html->find('span');
첫 번째 링크의 HREF 값을 얻는 것과 같은 요소의 속성 값을 읽으려면
$url = $elements[0]->getAttribute('href');
태그의 일반 텍스트 내용은 내부 텍스트 속성을 통해 액세스 할 수 있습니다.
foreach ($elements as $element) {
$text = $element->innertext;
echo $text;
}
작업이 완료된 후에는 메모리를 확보하기 위해 리소스를 청소하는 것이 좋습니다.
$html->clear();
다음은 완전한 HTML 구문 분석 샘플 코드입니다.
require('simple_html_dom.php');
$html = file_get_html('http://www.example.com');
$elements = $html->find('span');
// 링크를 얻으십시오URL재산
$url = $elements[0]->getAttribute('href');
echo $url;
// 모든 타이틀에 대한 텍스트 내용을 얻습니다
foreach ($elements as $element) {
$text = $element->innertext;
echo $text;
}
$html->clear();
PHP Simple HTML Dom Parser를 사용하면 복잡한 정규 표현이 필요없이 HTML 페이지의 구조화 된 구문 분석을 쉽게 구현할 수 있습니다. 간단하고 직관적 인 API는 특히 웹 크롤러 또는 데이터 추출 스크립트의 빠른 개발에 적합합니다. 이 기사의 단계와 예를 통해이 라이브러리를 쉽게 시작하고 HTML 처리 효율을 향상시킬 수 있습니다.