အင်တာနက်အကြောင်းအရာကြွယ်ဝမှုတိုးများလာခြင်းနှင့်အတူ developer များသည်ဝဘ်စာမျက်နှာများမှအဖိုးတန်သောသတင်းအချက်အလက်များကိုလျင်မြန်စွာနှင့်တိကျစွာဖြည့်ဆည်းပေးခြင်း၏စိန်ခေါ်မှုကိုရင်ဆိုင်နေရသည်။ ကျယ်ကျယ်ပြန့်ပြန့်အသုံးပြုသောဖွံ့ဖြိုးရေးဘာသာစကားတစ်ခုအနေဖြင့် PHP သည် 0 က်ဘ်စာမျက်နှာဒေတာများကိုတွားသွားသည့် Phpspider Crawler Framework ရှိ 0 က်ဘ်စာမျက်နှာဒေတာများကိုထိရောက်စွာနားလည်သဘောပေါက်ရန်အထောက်အကူပြုနိုင်သည်။
PHPSPIDER သည် PHP-based crawler framework တစ်ခုဖြစ်သောတေးရေးဆရာမှတဆင့်တပ်ဆင်နိုင်သည်။ command line ကိုဖွင့်ပြီးအောက်ပါ command ကိုရိုက်ထည့်ပါ။
<span class="fun">တေးရေးဆရာ Php-Spider / Phpspider လိုအပ်ပါတယ်</span>
တပ်ဆင်မှုပြီးပြည့်စုံပြီးသောအခါ spider.php အမည်ရှိဖိုင်ကိုဖန်တီးပါ။ အလိုအလျောက်တင်ထားသောဖိုင်ကို ဦး စွာမိတ်ဆက်ပါ။
<?php
require 'vendor/autoload.php';
<p>use phpspider\core\phpspider;</p>
<p>// တစ် ဦး crawler အရာဝတ်ထုဖန်တီးပါ<br>
$spider = new phpspider();</p>
<p>// စတင်ခြင်းစတင်ခြင်းURL<br>
$spider->add_start_url('<a rel="noopener" target="_new" class="" href="http://www.example.com">http://www.example.com</a>');</p>
<p>// ထုတ်ယူခြင်းအုပ်ချုပ်မှုအဖြစ်သတ်မှတ်ပေးသော callback function ကို<br>
$spider->on_extract_page = function ($page, $data) {<br>
// သတင်းအချက်အလက်ထုတ်ယူနည်းစနစ်ကိုဤနေရာတွင်ရေးပါ<br>
return $data;<br>
};</p>
<p>// တွားသွား<br>
$spider->start();<br>
Callback function တွင်စာမျက်နှာ element များကိုပုံမှန်အသုံးအနှုန်းများ, အောက်ပါဥပမာသည်ဝဘ်စာမျက်နှာ၏ခေါင်းစဉ်နှင့်ခန္ဓာကိုယ်အကြောင်းအရာများကိုမည်သို့ရယူရမည်ကိုပြသသည်။
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['title'] = $title;
$data['content'] = strip_tags($content);
return $data;
};
ထုတ်ယူထားသောသတင်းအချက်အလက်များကိုဖိုင်များနှင့်ဒေတာဘေ့စ်ကဲ့သို့သောသိုလှောင်မှုမီဒီယာများသို့သိမ်းဆည်းနိုင်သည်။ အောက်ဖော်ပြပါကုဒ်ဥပမာသည်စာသားဖိုင်တစ်ခုသို့ဒေတာ appendage ကိုသိမ်းဆည်းသည်။
$spider->on_extract_page = function ($page, $data) {
$title = $page['raw']['headers']['title'][0];
$content = $page['raw']['content'];
$data['content'] = strip_tags($content);
// ရလဒ်များကို file သို့သိမ်းဆည်းပါ
file_put_contents('extracted_data.txt', var_export($data, true), FILE_APPEND);
return $data;
};
Code ရေးသားခြင်းကိုဖြည့်စွက်ပြီးပါက,
<span class="fun">PHP Spider.php</span>
Grawler သည်စာမျက်နှာကို စတင်. URL မှစာမျက်နှာကိုတွားသွားလိမ့်မည်။
PHP မှ PHP PHPP မှတစ်ဆင့် PHPSPIDER မူဘောင်နှင့်အတူအင်အားကြီးသော 0 က်ဘ်တွားသူများသည်ဝက်ဘ်စာမျက်နှာအချက်အလက်အမြောက်အမြားစုဆောင်းမှုရရှိရန်လျင်မြန်စွာတည်ဆောက်နိုင်သည်။ ဤဆောင်းပါးတွင်မိတ်ဆက်ပေးသောအခြေခံအသုံးပြုမှုသည်အစပြုသူများအတွက်သင့်တော်သည်။ PHPSPIDER သည်ရှုပ်ထွေးသောဒေတာများလိုအပ်ချက်များနှင့်တွေ့ဆုံရန်ပိုမိုရှုပ်ထွေးသော configurations များနှင့်လုပ်ဆောင်ချက်များကိုလည်းထောက်ခံသည်။