မျက်မှောက်ခေတ်အင်တာနက်အပလီကေးရှင်းများတွင် Web Crawling (Web Crawler) သည်အချက်အလက်ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်အပြောင်းအလဲအတွက်အရေးကြီးသောနည်းလမ်းတစ်ခုဖြစ်လာသည်။ PHP Language နှင့်၎င်း၏အင်အားကြီးသောမူဘောင် Phpspterider ကိုအသုံးပြုခြင်းသည်ထိရောက်သောတွားတတ်သောတွားသမားပရိုဂရမ်များကိုအလွယ်တကူတည်ဆောက်ပြီးဝက်ဘ်စာမျက်နှာဒေတာများကိုအလိုအလျောက်ရယူနိုင်ရန်လွယ်ကူစွာတည်ဆောက်နိုင်သည်။ PHP ပတ်ဝန်းကျင်တွင် Phpspider မူဘောင်ကို အသုံးပြု. Web Crawler ပရိုဂရမ်ဖြင့်မည်သို့စတင်စတင်မည်ကိုဤဆောင်းပါးကအသေးစိတ်မိတ်ဆက်ပေးလိမ့်မည်။
PHP နှင့် PPSPSPIDER ကိုသုံးရန်ဒေသအလိုက် PHP Development Reject ကိုပထမဆုံးတည်ဆောက်ရမည်။ သင် (Xampp သို့မဟုတ် Wamp ကဲ့သို့သော) ပေါင်းစည်းထားသောဖွံ့ဖြိုးရေးပတ်ဝန်းကျင်ကိုရွေးချယ်နိုင်သည်သို့မဟုတ် PHP နှင့် Apache ကိုသီးခြားတပ်ဆင်နိုင်သည်။ တပ်ဆင်မှုပြီးပြည့်စုံပြီးနောက်သင်၏ PHP ဗားရှင်းသည် 5.6 နှင့်အထက်ရှိသေချာအောင်လုပ်ပါ။
PHP ပတ် 0 န်းကျင်ဆိုင်ရာဖွဲ့စည်းမှုကိုဖြည့်စွက်ပြီးပါက Phpspider မူဘောင်ကိုသင်တပ်ဆင်ရန်လိုအပ်သည်။ နောက်ဆုံးပေါ် phpspider ဗားရှင်းကို Github မှတဆင့်ကူးယူပြီး unzipped ဖိုင်ကိုသင်၏ PHP ပတ်ဝန်းကျင်၏ web root directory ထဲသို့ကူးယူနိုင်သည်။
spider.php ဟုခေါ်သောဖိုင်တစ်ခုကိုဖန်တီးပြီး Phpspider ၏အဓိကဖိုင်ကိုမိတ်ဆက်ပေးပါ။ ဤတွင်အခြေခံတွားမြင်ကွင်း၏ဥပမာတစ်ခုဖြစ်သည်။
include 'spider.php';
// တွားတတ်သောဥပမာတစ်ခုဖန်တီးပါ
$spider = new Spider();
// ကန ဦး settingURL
$spider->setUrl('https://www.example.com');
// အဆိုပါ crawler နက်ရှိုင်းထားပါ
$spider->setMaxDepth(5);
// တွားသွားပုံစာမျက်နှာအရေအတွက်ကိုသတ်မှတ်ပါ
$spider->setMaxPages(50);
// တည်ဆောက်သည်User-Agent
$spider->setUserAgent('Mozilla/5.0');
// တည်ဆောက်သည်爬取间隔时间
$spider->setDelay(1);
// တည်ဆောက်သည်超时时间
$spider->setTimeout(10);
// တွားသွား
$spider->run();
အထက်ပါကုဒ်သည် Spider.php ဖိုင်ကိုမိတ်ဆက်ပေးခြင်းဖြင့်တွား 0 င်ပုံအသစ်တစ်ခုကိုဖန်တီးပေးပြီး parameters များကိုအမြင့်ဆုံးအတိမ်အနက်, Run Method ကိုခေါ်ပြီးနောက်တွားသည်သတ်မှတ်ထားသောဝဘ်စာမျက်နှာကိုစတင်ပြေးနေပြီးတွားသွားသည်။
တွားသမားများသည်ဝက်ဘ်ဆိုက်ကိုတွားသွားရန်သာမကတွားသွားသည့်အချက်အလက်များကိုခွဲခြမ်းစိတ်ဖြာရန်လည်းလိုအပ်သည်။ Phpspider သည် Rice, Post, XPath စသည်ဖြင့်ကြွယ်ဝသောခွဲခြမ်းစိတ်ဖြာခြင်းနည်းလမ်းများကိုပေးသည်။ XPATES ကို အသုံးပြု. ဝက်ဘ်အကြောင်းအရာများကိုခွဲခြမ်းစိတ်ဖြာခြင်း၏ဥပမာတစ်ခုဖြစ်သည်။
include 'spider.php';
$spider = new Spider();
// ကန ဦး settingURL
$spider->setUrl('https://www.example.com');
// တည်ဆောက်သည်最大深度和页面数量
$spider->setMaxDepth(1);
$spider->setMaxPages(1);
// တည်ဆောက်သည်User-Agent
$spider->setUserAgent('Mozilla/5.0');
// တည်ဆောက်သည်爬取间隔和超时时间
$spider->setDelay(1);
$spider->setTimeout(10);
// ဝက်ဘ်ဆိုက်ကိုခွဲခြမ်းစိတ်ဖြာပါ
$spider->setPageProcessor(function($page) {
$title = $page->xpath('//title')[0];
echo 'ဝက်ဘ်စာမျက်နှာခေါင်းစဉ်:' . $title . PHP_EOL;
});
// တွားသွား
$spider->run();
ဤကုဒ်သည် callback function ကိုသတ်မှတ်ခြင်းဖြင့်ဝက်ဘ်စာမျက်နှာအကြောင်းအရာများကိုခွဲခြားထားသည်။ callback function သည် 0 က်ဘ်စာမျက်နှာ၏ခေါင်းစဉ်ကိုရရှိရန်နှင့် output ကိုရရှိရန် XPath နည်းလမ်းကိုအသုံးပြုသည်။
ဖိုင်ကိုသိမ်းဆည်းပြီးပါက command line မှ command line မှ command line မှ run နိုင်သည်။
php spider.php
ပရိုဂရမ်သည်သတ်မှတ်ထားသော URL နှင့် output parsing ရလဒ်များမှဝက်ဘ်စာမျက်နှာများကိုတွားသွားလိမ့်မည်။
ဤဆောင်းပါးသည် PHP နှင့် PhpsperPer အသုံးပြု. PHPSPERER ကို အသုံးပြု. Web Crawler ပရိုဂရမ်ဖြင့်လျင်မြန်စွာမည်သို့စတင်မည်ကိုမိတ်ဆက်ပေးသည်။ ဤအခြေခံဗဟုသုတများကိုကျွမ်းကျင်ပြီးသောအခါ developer များကအချက်အလက်များလောင်ကျွမ်းခြင်း, ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်အပြောင်းအလဲနဲ့အပြောင်းအလဲများကိုပြုလုပ်ရန်ပိုမိုရှုပ်ထွေးသောတွားတတ်သောလုပ်ဆောင်ချက်များကိုထပ်မံလေ့လာနိုင်သည်။ ဤဆောင်းပါးသည်သင်၏ crawler ပရိုဂရမ်းမင်းခရီးကိုချောချောမွေ့မွေ့စတင်ရန်ကူညီလိမ့်မည်ဟုမျှော်လင့်ပါ။