အင်တာနက်၏လျင်မြန်စွာဖွံ့ဖြိုးတိုးတက်မှုနှင့်ကြီးမားသောအချက်အလက်များရယူခြင်းနှင့်ပြုပြင်ခြင်းသည်စီးပွားရေးလုပ်ငန်းများနှင့် developer များအတွက်အရေးကြီးသောလိုအပ်ချက်ဖြစ်လာသည်။ စွမ်းဆောင်ရည်အားကောင်းသော PHP 0 က်ဘ် 0 ဘွဲဂါသူမူဘောင်တစ်ခုအနေဖြင့် Phpspider သည်အသုံးဝင်မှုနှင့်မြင့်မားနိုင်မှုအတွက်လူကြိုက်များသည်။ ဤဆောင်းပါးသည် phpspider ၏တပ်ဆင်ခြင်း, ပြင်ဆင်ခြင်းနှင့်အဓိကလုပ်ဆောင်ချက်များကိုနက်ရှိုင်းစွာနားလည်ခြင်းနှင့်သင့်အားအမှန်တကယ်ဥပမာများမှတဖြည်းဖြည်းချင်းထိထိရောက်ရောက်အကောင်အထည်ဖော်နိုင်မည်ကိုသင်ပေးပါမည်။
PhPSPIDER ကို install လုပ်ခြင်းသည်အလွန်ရိုးရှင်းပြီးတေးရေးအတွက်ကိရိယာမှတဆင့်လျင်မြန်စွာပြီးစီးနိုင်သည်။ Project ၏ root directory ကို command line တွင်ထည့်ပြီးအောက်ပါ command ကို execute လုပ်ပါ။
တေးရေးဆရာ Phpspider / Phpspider လိုအပ်ပါတယ်
တပ်ဆင်မှုပြီးစီးပြီးနောက် crawler code ကိုရေးရန်ပရောဂျက်အမြစ်ဆိုင်ရာလမ်းညွှန်တွင် spider.php ဖိုင်ကိုဖန်တီးပါ။
Code ကိုမရေးမီအခြေခံအချက်အလက်အချို့ကိုပြုပြင်ရန်နှင့် crawler parameters များကိုသတ်မှတ်ရန်လိုအပ်သည်။ ဤတွင်ရိုးရှင်းသော configuration ဥပမာတစ်ခုဖြစ်သည်။
<?php require './vendor/autoload.php'; use phpspider\core\phpspider; $configs = array( 'name' => 'Phpspider demo', 'Domains' => Array ('Sent.com'), 'scan_urls' => array (https://www.example.com/ ') 'Content_URL_REAGEXExes' => array (https://www.example.com/article/w+), 'list_URL_REAGEXExes' => array (https://www.example.com/article/w+ '), 'fields' => Array ( array ( 'NAME' => "ခေါင်းစဉ်", 'selector' => "// h1", '' လိုအပ်သည် '=> စစ်မှန်တဲ့ ), array ( 'NAME' => "Content", 'Selector' = >> "// div [@ id = '']" '' လိုအပ်သည် '=> စစ်မှန်တဲ့ ), ), ); $ spider = phpspider အသစ် ($ configs); $ spider-> on_extract_field = function ကို ($ fiatername, $ ဒေတာ, $ စာမျက်နှာ) { IF ($ fiatername == '' အကြောင်းအရာ ') { $ ဒေတာ = strip_tags ($ ဒေတာ); // HTML tag ကိုဖယ်ရှားပါ} $ ဒေတာများကိုပြန်သွားပါ။ }; $ spider-> start (); >
ဤနမူနာခွက်သည် https://www.exampexample.com/ အောက်ရှိဆောင်းပါး၏ခေါင်းစဉ်နှင့်အကြောင်းအရာကိုတွားသွားလိမ့်မည်။
Scan_urls နှင့် list_Url_regexes parameters တွေကိုသတ်မှတ်ခြင်းအားဖြင့်တွားသွားသည့်စာရင်းစာမျက်နှာ URL ကိုကျွန်ုပ်တို့သတ်မှတ်နိုင်သည်။ Content_URL_Regexes parameter သည်အကြောင်းအရာစာမျက်နှာ URL ကိုသတ်မှတ်ရန်အသုံးပြုသည်။
ထုတ်ယူမည့်လယ်ကွင်းအမည်များနှင့်ထုတ်ယူခြင်းစည်းမျဉ်းများကိုထုတ်ယူရန်စည်းမျဉ်းစည်းကမ်းများသည် (XPath Syntax ကို အသုံးပြု. ) လယ်ကွင်းများကသတ်မှတ်ချက်များတွင်သတ်မှတ်ထားသည်။ Phpspider သည်ဤစည်းမျဉ်းများအရစာမျက်နှာမှအချက်အလက်များကိုအလိုအလျောက်ထုတ်ယူလိမ့်မည်။
Extracted data ကို HTML tags များကိုဖယ်ရှားခြင်းစသည့် callback function မှတဆင့် preprocess လုပ်နိုင်ပါတယ်။
Phpspider သည်စာမျက်နှာအကြောင်းအရာများကိုဒေသအလိုက် download လုပ်ခြင်းသို့မဟုတ်၎င်းကိုအခြားနည်းလမ်းများဖြင့်သိမ်းဆည်းထားသည်။
$ Spider-> On_Download_Page = function ($ စာမျက်နှာ, $ phpspider) { File_Props_contents ('/ လမ်းကြောင်း / save', $ စာမျက်နှာ ['body']); // စာမျက်နှာအကြောင်းအရာကိုဒေသခံပြန်လာရန်သိမ်းဆည်းပါ။ };
Crowling ထိရောက်မှုကိုတိုးတက်စေရန် Phpspider သည် Multi-Threaded crawling ကိုထောက်ခံသည်။ သင် 0 န်ဆောင်မှုပေးခြင်းအားဖြင့် 0 င်ရောက်နေသောချည်အရေအတွက်ကို 0 န်ဆောင်မှုပေးခြင်းဖြင့်သတ်မှတ်နိုင်သည်။ ဆာဗာစွမ်းဆောင်ရည်အရ Threads အရေအတွက်သည်မြန်နှုန်းနှင့်အရင်းအမြစ်သုံးစွဲမှုကိုဟန်ချက်ညီစေရန်သင့်တင့်လျောက်ပတ်စွာရွေးချယ်သည်။
$ configs ['wither_num'] = 10;
တွားသွားရန် proxy server တစ်ခုကိုသုံးရန်လိုအပ်ပါက Phpspider သည် proxy parameters များကို proxy ကိုပြင်ဆင်ရန် proxy parameter များကိုထောက်ပံ့ပေးသည်။
$ configs ['proxy'] = array ('array) 'host' => '127.0.0.1' ', 'port' => 8888, );
အစွမ်းထက်သော crawler မူဘောင်တစ်ခုအနေဖြင့် Phpspider သည်အမျိုးမျိုးသောရှုပ်ထွေးသောတွားသမားလုပ်ငန်းများကိုကိုင်တွယ်နိုင်သည်။ Phpspider စွမ်းဆောင်ရည်ကိုတိုးတက်စေရန်နည်းဗျူဟာအချို့မှာဤတွင်ဖော်ပြထားသည်။
ချည်မျှင်ပေါင်းစုံတွားခြင်းနှင့်ဖြန့်ဝေထားသောတွားသွားသော 0 တ်ကြည့်ခြင်းအားဖြင့် Phpspider သည်အကြီးစားဒေတာများတွားတတ်သောတာ 0 န်များကိုအလွယ်တကူကိုင်တွယ်နိုင်သည်။
PhPSPIDER ၏အားကောင်းသောဒေတာလုပ်ဆောင်နိုင်စွမ်းနှင့်အတူသငျသညျကောက်ယူသောဒေတာများကိုပြင်ဆင်ခြင်း, ထုတ်ယူခြင်းလုပ်ငန်းများကိုပြုပြင်ခြင်း,
Phpspider သည်ပြောင်းလွယ်ပြင်လွယ် configuration files များနှင့်ကုဒ်ချိန်ညှိချက်များကိုထောက်ခံသည်။
Phpspider သည် CSV, Excel, Database စသဖြင့်သိုလှောင်နည်းအမျိုးမျိုးကိုထောက်ပံ့သည်။
Phpspider's Plug-ins နှင့် extension ယန္တရား၏အကူအညီဖြင့်စီမံကိန်းလိုအပ်ချက်များအရ၎င်း၏လုပ်ဆောင်မှုများကိုတိုးချဲ့နိုင်သည်။
အားကောင်းသော web crawler မူဘောင်တစ်ခုအနေဖြင့် Phpspider သည် developer များအနေဖြင့်၎င်း၏မြင့်မားသောပမာဏနှင့်ပြောင်းလွယ်ပြင်လွယ်မှုဖြင့်အချက်အလက်များကိုတွားသွားရန်ပထမ ဦး ဆုံးကိရိယာတစ်ခုဖြစ်လာသည်။ Phpspider ကိုစနစ်တကျပြင်ဆင်ခြင်းနှင့်အသုံးပြုခြင်းအားဖြင့်အကြီးစားအချက်အလက်များကိုသန့်ရှင်းစင်ကြယ်စွာဖြင့်ထိရောက်စွာဖြင့်သင်ထိရောက်စွာတွားသွားနိုင်သည်။