최신 인터넷 응용 프로그램에서 웹 크롤링 (웹 크롤러)은 데이터 분석 및 처리의 중요한 수단이되었습니다. PHP 언어와 강력한 프레임 워크 PhpsPider를 사용하여 개발자는 효율적인 크롤러 프로그램을 쉽게 구축하고 웹 페이지 데이터를 자동으로 얻을 수 있습니다. 이 기사는 PHP 환경에서 PhpsPider 프레임 워크를 사용하여 웹 크롤러 프로그래밍을 신속하게 시작하는 방법을 자세히 소개합니다.
PHP 및 PhpsPider를 실행하려면 먼저 현지에서 PHP 개발 환경을 구축해야합니다. 통합 개발 환경 (예 : XAMPP 또는 WAMP)을 선택하거나 PHP 및 Apache를 별도로 설치할 수 있습니다. 설치가 완료된 후 PHP 버전이 5.6 이상인지 확인하고 필요한 확장자 (예 : CURL)를 설치했는지 확인하십시오.
PHP 환경 구성을 완료 한 후에는 Phpspider 프레임 워크를 설치해야합니다. github를 통해 최신 버전의 phpspider를 다운로드하고 압축 된 파일을 PHP 환경의 웹 루트 디렉토리에 넣을 수 있습니다.
spider.php라는 파일을 만들고 phpspider의 핵심 파일을 소개하십시오. 다음은 기본 크롤러의 예입니다.
include 'spider.php';
// 크롤러 인스턴스를 만듭니다
$spider = new Spider();
// 초기 설정URL
$spider->setUrl('https://www.example.com');
// 크롤러 깊이를 설정하십시오
$spider->setMaxDepth(5);
// 크롤링 된 페이지 수를 설정하십시오
$spider->setMaxPages(50);
// 설정User-Agent
$spider->setUserAgent('Mozilla/5.0');
// 설정爬取间隔时间
$spider->setDelay(1);
// 설정超时时间
$spider->setTimeout(10);
// 크롤러를 시작하십시오
$spider->run();
위의 코드는 Spider.php 파일을 소개하여 새로운 크롤러 인스턴스를 생성하고 초기 URL, 최대 깊이, 최대 페이지 크롤러와 같은 매개 변수를 설정합니다. 실행 방법을 호출 한 후 크롤러는 실행을 시작하고 지정된 웹 페이지를 기어 다닙니다.
크롤러는 웹 컨텐츠를 크롤링해야 할뿐만 아니라 크롤링 된 데이터를 구문 분석해야합니다. phpspider는 get, post, xpath 등과 같은 풍부한 분석 방법을 제공합니다. 다음은 xpath를 사용하여 웹 컨텐츠를 구문 분석하는 예입니다.
include 'spider.php';
$spider = new Spider();
// 초기 설정URL
$spider->setUrl('https://www.example.com');
// 설정最大深度和页面数量
$spider->setMaxDepth(1);
$spider->setMaxPages(1);
// 설정User-Agent
$spider->setUserAgent('Mozilla/5.0');
// 설정爬取间隔和超时时间
$spider->setDelay(1);
$spider->setTimeout(10);
// 웹 컨텐츠를 분석합니다
$spider->setPageProcessor(function($page) {
$title = $page->xpath('//title')[0];
echo '웹 페이지 제목:' . $title . PHP_EOL;
});
// 크롤러를 시작하십시오
$spider->run();
이 코드는 콜백 함수를 설정하여 웹 페이지 컨텐츠를 파싱합니다. 콜백 함수는 XPath 메소드를 사용하여 웹 페이지의 제목을 얻고 출력합니다.
파일을 저장 한 후 다음 명령으로 명령 줄에서 Crawler 프로그램을 실행할 수 있습니다.
php spider.php
이 프로그램은 지정된 URL에서 웹 페이지를 크롤링하고 출력 구문 분석 결과를 하나씩 시작합니다.
이 기사는 환경 구성, 프레임 워크 설치, 크롤러 쓰기 및 웹 페이지 구문 분석과 같은 주요 단계를 다루는 PHP 및 PhpsPider를 사용하여 웹 크롤러 프로그래밍을 신속하게 시작하는 방법을 소개합니다. 이러한 기본 지식을 마스터 한 후 개발자는보다 복잡한 크롤링 기능을 탐색하여 데이터 크롤링, 분석 및 처리를 수행 할 수 있습니다. 이 기사가 Crawler 프로그래밍 여행을 원활하게 시작하는 데 도움이되기를 바랍니다.