စဉ်ဆက်မပြတ်အင်တာနက်နည်းပညာတိုးတက်မှုနှင့်အတူတွားသည်ရင့်ကျက်လာသည်နှင့်အမျှဒေတာလုံခြုံရေးကာကွယ်ရန်အတွက်ဝက်ဘ်ဆိုက်များသည်များသောအားဖြင့် crawler antiing anties အစီအမံများပြုလုပ်လေ့ရှိသည်။ PHP လယ်ကွင်းတွင်အားကြီးသော Crawler Framework အနေဖြင့် PHPSPIDER သည်စိစစ်အတည်ပြုကုဒ်များနှင့်ရင်ဆိုင်နေရသည့်အခက်အခဲအချို့ရှိသည်။ ဤဆောင်းပါးသည် Phpspider နှင့်အတူ Phpspider နှင့်အတူ PHPP နှင့်အတူ PHPP နှင့်အတူအသုံးပြုနည်းကိုစနစ်တကျမိတ်ဆက်ပေးနိုင်သည်။
အတည်ပြုကုဒ်ကိုယေဘုယျအားဖြင့် http တောင်းဆိုမှုမှတဆင့်ပုံရိပ်တစ်ခု၏ပုံစံဖြင့်ပြန်လည်ရောက်ရှိသည်။ PHP ၏ Curl စာကြည့်တိုက်ကိုအသုံးပြုခြင်းအားဖြင့်အတည်ပြုကုဒ်ပုံရိပ်များကိုရယူရန်နှင့်ဓာတ်ပုံများကို GD စာကြည့်တိုက်မှတစ်ဆင့်ပြုလုပ်နိုင်သည်။
$url = "http://www.example.com/captcha.php";
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($curl);
curl_close($curl);
// အတည်ပြုကုဒ်ရုပ်ပုံကိုသိမ်းဆည်းပါ
file_put_contents("captcha.jpg", $response);
အတည်ပြုကုဒ်ရုပ်ပုံလွှာကိုရရှိပြီးနောက်, ပုံသည်စာသားအသိအမှတ်ပြုခံရရန်လိုအပ်သည်။ PHP သည် Tesseract OCR စာကြည့်တိုက်ကိုအလိုအလျောက်အသိအမှတ်ပြုမှုရရှိရန်အတွက်သိသိသာသာတိုးတက်စေခြင်း၏ထိရောက်မှုကိုသိသိသာသာတိုးတက်စေနိုင်သည်။
exec("tesseract captcha.jpg captcha");
// အသိအမှတ်ပြုမှုရလဒ်များကိုဖတ်ပါ
$captcha = trim(file_get_contents("captcha.txt"));
အတည်ပြုကုဒ်ကိုဖော်ထုတ်ပြီးနောက်ဝက်ဘ်ဆိုက်အတည်ပြုချက်ကိုဖြည့်စွက်ရန်အတည်ပြုကုဒ် input box ကိုဖြည့်ရန်လိုအပ်သည်။ အောက်ဖော်ပြပါဥပမာတွင် Phpspider ကိုမည်သို့အသုံးပြုရမည်ကိုအတည်ပြုသည့်ကုဒ်တွင်ဖြည့်စွက်ရန် Phpspider ကိုမည်သို့အသုံးပြုရမည်ကိုပြသသည်။
// တွားတတ်သောဥပမာတစ်ခုဖန်တီးပါ
$spider = new phpspider();
// အတည်ပြုကုဒ် input ကိုသတ်မှတ်ပါ
$spider->on_handle_img = function($obj, $data) use ($captcha) {
$obj->input->set_value("captcha", $captcha);
};
// အခြားတွားသော crawler configurations...
// တွားသွား
$spider->start();
0 က်ဘ်ဆိုက်များ၏အတည်ပြုကုဒ် input box များ၏အမည်၏အမည်များသည်ကွဲပြားခြားနားသောကြောင့်ကွဲပြားခြားနားပြီး Code ကိုသီးခြားစာမျက်နှာအရချိန်ညှိရန်လိုအပ်သည်။
အချို့သောဝက်ဘ်ဆိုက်များသည်အထူးတောင်းဆိုမှုခေါင်းစဉ်များသို့မဟုတ် Javascript မှ Dycomscript dynamically codes များမှတစ်ဆင့်တချိန်တည်းမှာတွားသွားသတ္တဝါများကိုမြှင့်တင်ပေးလိမ့်မည်။ ဤကိစ္စနှင့်စပ်လျဉ်း။ တောင်းဆိုချက်ကို header parameters များကိုစိတ်ကြိုက်ပြုပြင်ခြင်းဖြင့်၎င်းကိုကျော်လွှားနိုင်သည်။
$url = "http://www.example.com";
$options = [
'headers' => [
'Referer: http://www.example.com/',
'User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
// အခြားသီးခြားတောင်းဆိုမှုခေါင်းစီးများ...
],
];
$curl = curl_init($url);
curl_setopt_array($curl, $options);
$response = curl_exec($curl);
curl_close($curl);
// တုံ့ပြန်မှုအကြောင်းအရာပြုပြင်ခြင်း
ပစ်မှတ် 0 က်ဘ်ဆိုက်၏အကာအကွယ်ပေးထားသောအကာအကွယ်အစီအမံများအရတိကျသောတောင့်တင်းသောမဟာဗျူဟာသည်ပြောင်းလွယ်ပြင်လွယ်ရှိသင့်သည်။
ဤဆောင်းပါးသည် PHP နှင့် PPSPSPERER ကို အသုံးပြု. PHPSPADER ကို အသုံးပြု. စိစစ်ရေးကုဒ်များကိုခွဲခြားသတ်မှတ်ထားသော crawler streties များကိုဖော်ထုတ်ခြင်းနှင့်ထည့်သွင်းမှုဆိုင်ရာနည်းဗျူဟာများနှင့်ကိုင်တွယ်ရန်နည်းလမ်းများနှင့်နည်းလမ်းများကိုဖြည့်ဆည်းပေးနိုင်သည်။ ကျိုးကြောင်းဆီလျော်သောဒီဇိုင်းနှင့်နည်းပညာဆိုင်ရာနည်းလမ်းများမှတဆင့်ထိရောက်ပြီးတည်ငြိမ်သောဒေတာများတွားသွားနိုင်သည်။ သို့သော်သက်ဆိုင်ရာ 0 ဘ်ဆိုဒ်ပေါ်လစီများကိုလိုက်နာရန်နှင့်စည်းမျဉ်းစည်းကမ်းများနှင့်အညီတွားတတ်သောနည်းပညာကိုအသုံးပြုရန်လည်းအကြံပြုသည်။