လက်ရှိတည်နေရာ: ပင်မစာမျက်နှာ> နောက်ဆုံးရဆောင်းပါးများစာရင်း> PHP ရိုးရှင်းသော HTML dom parser ကိုအသုံးပြုပြီး HTML စာမျက်နှာများကိုခွဲခြမ်းစိတ်ဖြာခြင်းအတွက်လက်တွေ့လမ်းညွှန်

PHP ရိုးရှင်းသော HTML dom parser ကိုအသုံးပြုပြီး HTML စာမျက်နှာများကိုခွဲခြမ်းစိတ်ဖြာခြင်းအတွက်လက်တွေ့လမ်းညွှန်

M66 2025-06-24

PHP အတွက် HTML စာမျက်နှာများကိုခွဲခြမ်းစိတ်ဖြာရန်လွယ်ကူသောနည်းလမ်း

Web Development တွင်ပြသခြင်း, သိုလှောင်ခြင်း, ခွဲခြမ်းစိတ်ဖြာခြင်းအတွက် HTML စာမျက်နှာများမှတည်ဆောက်ထားသည့်အချက်အလက်များကိုဖြိုခွဲရန်လိုအပ်သည်။ ပွင့်လင်းသောအရင်းအမြစ်ကိရိယာများနှင့်အတူဤလုပ်ငန်းစဉ်ကိုကျွန်ုပ်တို့အလွန်ရိုးရှင်းစွာလွယ်ကူစွာရိုးရှင်းနိုင်သည်။ PHP ရိုးရှင်းသော HTML dom parser သည် အလွန်အစွမ်းထက်။ အသုံးပြုရလွယ်ကူသောစာကြည့်တိုက်ဖြစ်သည်။ ဤဆောင်းပါးသည်သင့်အား၎င်း၏အသုံးပြုမှုခြေလှမ်းကိုတစ်နည်းအားဖြင့်နားလည်ရန်သင့်အားယူပါလိမ့်မည်။

PHPP ရိုးရှင်းသော HTML dom parerser ဆိုတာဘာလဲ။

PHP ရိုးရှင်းသော HTML dom parser သည်ပေါ့ပါးသော HTML parsing စာကြည့်တိုက်ဖြစ်သည်။ သဒ္ဒါစတိုင်သည် JQuery နှင့်နီးသည်။

အဆင့် 1: စာကြည့်တိုက်ဖိုင်ကိုဒေါင်းလုပ်လုပ်ပြီးတင်သွင်းပါ

ပထမ ဦး စွာသင်သည်၎င်း၏တရားဝင်အရင်းအမြစ်မှ Library ဖိုင်၏နောက်ဆုံးပေါ်မူကွဲကို download လုပ်ရန်လိုအပ်သည်။ Download ပြီးဆုံးပြီးနောက်၎င်းကိုသင်၏ PHP စီမံကိန်းလမ်းညွှန်သို့ထည့်ပြီးအောက်ပါအတိုင်းမိတ်ဆက်ပေးသည်။

 require('simple_html_dom.php');

အဆင့် 2: HTML စာမျက်နှာအကြောင်းအရာကို load လုပ်ပါ

စာကြည့်တိုက်ကိုမိတ်ဆက်ပြီးနောက်သင်ဝက်ဘ်စာမျက်နှာအကြောင်းအရာကိုဖွင့်ရန် file_get_htmm () function ကိုသုံးနိုင်သည်။ ဤလုပ်ဆောင်ချက်သည် Remote URLs နှင့် local HTML ဖိုင်လမ်းကြောင်းနှစ်ခုလုံးကိုထောက်ပံ့သည်။

 $html = file_get_html('http://www.example.com');

အဆင့် 3 - ဝက်ဘ်စာမျက်နှာမှ HTML element များကို Extract လုပ်ပါ

HTML ကိုတင်ပြီးနောက် Dom node များကိုရှာဖွေရန် CSS Selector ကိုသုံးနိုင်သည်။ ဤတွင်အချို့သောဘုံလုပ်ငန်းများမှာ -

သတ်မှတ်ထားသော tag ကိုရှာပါ

ဥပမာအားဖြင့်အားလုံးရရန် ဒြပ်စင်:

 $elements = $html->find('span');

Element attribute တွေရ

ပထမ ဦး ဆုံးလင့်ခ်၏ href တန်ဖိုးကိုရယူခြင်းကဲ့သို့သောဒြပ်စင်တစ်ခု၏ attribute တန်ဖိုးကိုဖတ်ရန် -

 $url = $elements[0]->getAttribute('href');

Element စာသားအကြောင်းအရာကိုရယူပါ

TAG ထဲရှိလွင်ပြင်စာသားအကြောင်းအရာကို သာဓက သုံးရန်အတွက် 0 င်ရောက်နိုင်သည်။

 
foreach ($elements as $element) {
    $text = $element->innertext;
    echo $text;
}

အဆင့် 4: Dom အရင်းအမြစ်များကိုဖြန့်ချိပါ

စစ်ဆင်ရေးပြီးဆုံးသွားသောအခါ, မှတ်ဥာဏ်ကိုလွှတ်ရန်အရင်းအမြစ်များကိုသန့်ရှင်းရေးလုပ်ရန်အကြံပြုသည်။

 $html->clear();

နမူနာကုဒ်အပြည့်အစုံ

ဤတွင်ပြီးပြည့်စုံသော HTML parsing နမူနာကုဒ်ဖြစ်သည်။

 
require('simple_html_dom.php');

$html = file_get_html('http://www.example.com');

$elements = $html->find('span');

// link ကိုရယူပါURLဉစ်စာပစ္စည်းများ
$url = $elements[0]->getAttribute('href');
echo $url;

// ခေါင်းစဉ်အားလုံးအတွက်စာသားအကြောင်းအရာများကိုရယူပါ
foreach ($elements as $element) {
    $text = $element->innertext;
    echo $text;
}

$html->clear();

အကျဉ်းချုပ်

PHP ရိုးရှင်းသော HTMML dom parser ကိုအသုံးပြုခြင်းသည်ရှုပ်ထွေးသောပုံမှန်အသုံးအနှုန်းများမလိုအပ်ပါက HTML စာမျက်နှာများကိုအလွယ်တကူအကောင်အထည်ဖော်နိုင်သည်။ ၎င်း၏ရိုးရှင်းသောနှင့်အလိုလိုသိသော API သည် 0 က်ဘ်တွားသူများသို့မဟုတ်အချက်အလက်ထုတ်ယူသည့် scripts များဖွံ့ဖြိုးတိုးတက်စေရန်အတွက်အထူးသဖြင့်သင့်တော်သည်။ ဒီဆောင်းပါးမှာအဆင့်တွေနဲ့ဥပမာတွေကနေတဆင့်ဒီစာကြည့်တိုက်နဲ့အလွယ်တကူစတင်နိုင်ပြီး HTML processing ကိုတိုးတက်အောင်လုပ်နိုင်ပါတယ်။