현재 위치: > 최신 기사 목록> HTML/XML 문서를 구문 분석하고 특정 요소 추출을위한 전체 자습서

HTML/XML 문서를 구문 분석하고 특정 요소 추출을위한 전체 자습서

M66 2025-06-17

개요 :

웹 개발 및 데이터 처리에서 특정 요소 또는 정보를 추출하기 위해 HTML 또는 XML 문서를 구문 분석해야합니다. PHP는이 프로세스를 효율적이고 간단하게 만드는 강력한 기능과 클래스를 제공합니다. 이 기사는 PHP에서 HTML/XML 문서를 구문 분석하는 방법을 소개하고 인스턴스를 통해 특정 요소를 추출하는 방법을 보여줍니다.

1. 구문 분석 HTML/XML 문서

1. SimpleXML 확장자 사용 :

SimpleXML 확장자는 XML 문서를 구문 분석하는 간단하고 직관적 인 방법을 제공합니다. 다음은 XML 문서를 구문 분석하고 SimpleXML을 사용하여 정보를 추출하기위한 샘플 코드입니다.
$ xmlstring = &#39;<root><name> 존 도</name><age> 25</age></root> &#39;;;
$ xml = simplexml_load_string ($ xmlstring);
$ name = $ xml-> 이름;
$ age = $ xml-> Age;
echo "이름 : $ 이름, 나이 : $ age";

2. DOM 확장 사용 :

DOM 확장은 HTML/XML 문서를 구문 분석하고 처리하는보다 근본적이고 유연한 방법입니다. 다음 예는 DOM 확장으로 HTML 문서를 구문 분석하고 특정 요소를 추출하는 방법을 보여줍니다.
$ htmlstring = &#39;<html><body><h1> 안녕하세요 세계</h1><p> 내 웹 사이트에 오신 것을 환영합니다</p><p> 지금 <a href="https://example.com">PHP 무료 연구 노트를</a> <span>배우십시오</span></p></body></html> &#39;;;
$ dom = 새로운 domdocument ();
$ dom-> loadhtml ($ htmlstring);
$ headings = $ dom-> getElementsByTagName ( &#39;H1&#39;);
foreach ($ 제목으로 $ 제목) {
    echo $ heading-> nodevalue;
}

2. 프로세스 HTML/XML 요소

1. 요소의 속성을 추출합니다.

HTML/XML을 구문 분석 할 때 종종 특정 요소의 특성을 추출해야합니다. 다음 예제는 SimpleXML 확장을 사용하여 요소 특성을 추출하는 방법을 보여줍니다.
$ xmlstring = &#39;<root><book title="행동중인 PHP" price="29.99" /></root> &#39;;;
$ xml = simplexml_load_string ($ xmlstring);
$ title = $ xml-> book [ &#39;title&#39;];
$ price = $ xml-> book [ &#39;price&#39;];
echo "제목 : $ 제목, 가격 : $ 가격";

2. 반복 요소와 자식 요소 :

요소의 모든 어린이 요소를 반복 해야하는 경우 DOM 확장을 사용할 수 있습니다. 다음 코드는 HTML 문서의 모든 요소를 ​​반복하는 방법을 보여줍니다.
$ htmlstring = &#39;<html><h1> 제목 1</h1><p> 단락 1</p><h2> 제목 2</h2><p> 단락 2</p></html> &#39;;; $ dom = 새로운 domdocument (); $ dom-> loadhtml ($ htmlstring); $ elements = $ dom-> getElementsByTagName ( &#39;*&#39;); foreach ($ elements as $ element) {echo $ element-> nodename. &#39;:&#39;. $ element-> nodevalue. &#39;<br> &#39;;; }

3. XPath를 사용하여 요소 추출 :

XPath는 HTML/XML 문서에서 특정 노드를 찾는 데 사용됩니다. PHP의 domxpath 클래스는 XPath를 지원합니다. 다음 샘플 코드는 XPath 표현식을 통해 HTML 문서에서 특정 요소를 추출하는 방법을 보여줍니다.
$ htmlstring = &#39;<html><div><h1> 제목 1</h1><p> 단락 1</p></div><div><h2> 제목 2</h2><p> 단락 2</p></div></html> &#39;;;
$ dom = 새로운 domdocument ();
$ dom-> loadhtml ($ htmlstring);
$ xpath = 새로운 domxpath ($ dom);
$ 단락 = $ xpath-> query ( &#39;// p&#39;);
foreach ($ 단락으로 $ 단락) {
    echo $ 문단-> nodevalue. &#39;<br> &#39;;;
}

결론적으로 :

PHP에서 Parsing 및 Processing HTML/XML 문서는 매우 실용적이고 일반적인 작업입니다. SimpleXML 및 DOM 확장을 사용하여 개발자는 특정 정보를 신속하게 추출하여 웹 개발 및 데이터 처리의 효율성을 크게 향상시킬 수 있습니다. 위의 예를 통해 이러한 PHP 기술을 적용하여 복잡한 HTML/XML 문서를 처리하는 방법을 더 잘 이해할 수 있습니다.