인터넷 컨텐츠의 풍부함이 높아짐에 따라 개발자는 많은 웹 페이지에서 귀중한 정보를 빠르고 정확하게 추출 해야하는 과제에 직면 해 있습니다. PHP는 널리 사용되는 개발 언어로서 강력한 PhpsPider 크롤러 프레임 워크로 웹 페이지 데이터의 크롤링 및 처리를 효율적으로 실현하는 데 도움이 될 수 있습니다.
PhpsPider는 작곡가를 통해 설치할 수있는 PHP 기반 크롤러 프레임 워크입니다. 명령 줄을 열고 다음 명령을 입력하십시오.
<span class="fun">작곡가는 PHP- 스파이더/phpspider가 필요합니다</span>
설치가 완료된 후 Spider.php 라는 파일을 만들고 먼저 자동로드 파일을 소개 한 다음 크롤러 개체를 작성하고 초기 크롤링 URL을 설정하십시오.
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// 크롤러 개체를 만듭니다<br>
$spider = new phpspider();</p>
<p>// 설정 시작URL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// 추출 규칙을 정의하는 콜백 함수<br>
$spider->on_extract_page = function ($page, $data) {<br>
// 여기에 정보 추출 로직을 작성하십시오<br>
return $data;<br>
};</p>
<p>// 크롤러를 시작하십시오<br>
$spider->start();<br>
콜백 함수에서 페이지 요소는 정규 표현식, XPath 또는 CSS Selector를 사용하여 위치 할 수 있습니다. 다음 예는 웹 페이지의 제목 및 신체 내용을 얻는 방법을 보여줍니다.
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
추출 된 정보는 파일 및 데이터베이스와 같은 스토리지 미디어에 저장할 수 있습니다. 다음 코드 예제는 데이터 부록을 텍스트 파일에 저장합니다.
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// 결과를 파일에 저장하십시오
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
코드 쓰기를 완료 한 후 다음 명령을 실행하여 크롤러를 시작하십시오.
<span class="fun">PHP Spider.php</span>
크롤러는 시작 URL에서 페이지를 크롤링하고 추출 규칙에 따라 필요한 정보를 얻고 저장합니다.
Phpspider 프레임 워크와 결합 된 PHP를 통해 강력한 웹 크롤러는 신속하게 구축하여 많은 양의 웹 페이지 정보를 정확하게 수집 할 수 있습니다. 이 기사에서 소개 된 기본 사용법은 초보자에게 적합합니다. PhpsPider는 또한 다양한 데이터 크롤링 요구를 충족시키기 위해보다 복잡한 구성 및 기능을 지원합니다.