ဒေတာမောင်းနှင်အား 0 ယ်လိုအားတိုးများလာခြင်းနှင့်အတူ 0 က်ဘ်ဆိုက်များကိုအလိုအလျောက် 0 ယ်လိုသော 0 က်ဘ်ဆိုက်အကြောင်းအရာများသည် developer များစွာ၏အဓိကတာဝန်တစ်ခုဖြစ်လာသည်။ PHPP ဘာသာစကားနှင့် phpspider crawler မူဘောင်ကိုပြောင်းလွယ်ပြင်လွယ်မှုဖြင့်ကျွန်ုပ်တို့သည် Content Mosition, Data Analysis နှင့်အခြားရည်ရွယ်ချက်များအတွက်သင့်တော်သောအလိုအလျောက်ဒေတာတွားသောစနစ်ကိုလျင်မြန်စွာတည်ဆောက်နိုင်သည်။
Phpspider သည်ပေါ့ပါးသော PHP Crawler Frameway ဖြစ်သည်။ ၎င်းသည်စာမျက်နှာ HTML source code code ကိုတွားသွားရုံသာမကထုံးစံနည်းလမ်းများမှတစ်ဆင့်ဖွဲ့စည်းထားသောအချက်အလက်များကိုလည်းဖြန့်ဖြူးနိုင်သည်။
Phspspider မှတဆင့် Phpspider မှတဆင့် Install လုပ်ပါ။
composer require phpspider/phpspider
script file အသစ်တစ်ခုကို spider.php ဟုခေါ်သော script file ကိုဖန်တီးပါ,
<?php
require_once 'vendor/autoload.php';
class MySpider extends phpSpiderSpider
{
// စတင် URL ကိုသတ်မှတ်ပါ
public $start_url = 'https://example.com';
// တွားဝင်မတိုင်မီကြိုတင်အပြောင်းအလဲနဲ့
public function beforeDownloadPage($page)
{
// တောင်းဆိုမှုကိုပထမ ဦး ဆုံး parameters တွေကိုသတ်မှတ်နိုင်ပါတယ်
return $page;
}
// crawled စာမျက်နှာများ process
public function handlePage($page)
{
$html = $page['raw'];
// ဒီမှာရေးထားတယ်HTMLခွဲခြမ်းစိတ်ဖြာယုတ္တိဗေဒ
// ...
}
}
// creatler ဖန်တီးနှင့်စတင်ပါ
$spider = new MySpider();
$spider->start();
အထက်ပါကုဒ်သည်မူဘောင်အတန်းကိုမည်သို့အမွေခံနိုင်ကြောင်းနှင့်တွားတတ်သောစည်းမျဉ်းများကိုသတ်မှတ်ရမည်ကိုပြသသည်။ Beforcownownopage သည် 0 င်ရောက်ခြင်းမပြုမီ အပြောင်းအလဲနဲ့ ယုတ္တိဗေဒကိုသတ်မှတ်နိုင်သည်။
Crawler scripts များကို Periodic Execution အကောင်အထည်ဖော်ရန်အချိန်ကိုက်အလုပ်များပြုလုပ်ရန် Linux Cromab Tool ကိုသုံးနိုင်သည်။
Timing Task Configuration ကိုတည်းဖြတ်ပါ။
crontab -e
တစ်မိနစ်တိုင်း crawler scripts များကို execute လုပ်ရန်အောက်ပါ configuration ကိုထည့်ပါ။
* * * * * php /path/to/spider.php > /dev/null 2>&1
/path/tath/spider.php ကို အမှန်တကယ် script လမ်းကြောင်းဖြင့်အစားထိုးပါ။ Redirect သင်္ကေတသည် output log ကိုလျစ်လျူရှုရန်အသုံးပြုသည်။
cromacab configuration file file ကိုချွေတာပြီးနောက်သင်အလုပ်ကိုအောက်ပါ command ဖြင့်တင်နိုင်သည်။
crontab spider.cron
ထို့နောက်စနစ်သည် set ကိုကြိမ်နှုန်းဖြင့် script ကို execute လုပ်ပြီးဝက်ဘ်စာမျက်နှာအကြောင်းအရာကိုဖမ်းယူလိမ့်မည်။
PHPP, Phpspider နှင့် Linux Timing Tasks များကိုပေါင်းစပ်ခြင်းအားဖြင့်ကျွန်ုပ်တို့သည် Internetial Webswling System ကိုအလျင်အမြန်တည်ဆောက်နိုင်ပြီးသတင်းစုဆောင်းခြင်း, ဒေတာထပ်တူပြုခြင်း, မူဘောင်ကိုယ်နှိုက်သည်ပြောင်းလွယ်ပြင်လွယ်ရှိသောစကေးနိုင်မှုနှင့်ယုတ္တိဗေဒကိုထုတ်ပေးသည်။
ငါဒီသင်ခန်းစာကသင့်ကို PHP အလိုအလျောက်စုဆောင်းမှုအတွက်ရည်ညွှန်းခြင်းနှင့်အကူအညီပေးနိုင်မယ်လို့မျှော်လင့်ပါတယ်။