အချက်အလက်ပမာဏတိုးများလာခြင်းနှင့်အတူစာသားအချက်အလက်များကိုထိရောက်စွာလုပ်ဆောင်နိုင်စွမ်းသည်ယနေ့အချက်အလက်ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့်ဆုံးဖြတ်ချက်အထောက်အပံ့အတွက်အရေးကြီးသောအကြောင်းအရာတစ်ခုဖြစ်လာသည်။ စာသားခွဲခြားခြင်းနှင့်သဘာဝဘာသာစကားပြုပြင်ခြင်း (NLP) နည်းပညာများကိုကျယ်ကျယ်ပြန့်ပြန့်အသုံးပြုသည်။ ၎င်းတို့သည်လူမှုမီဒီယာခွဲခြမ်းစိတ်ဖြာခြင်း, ဤဆောင်းပါးသည် developer များကဤနည်းပညာများကိုနားလည်စေရန်နှင့်လက်တွေ့ကျင့်သုံးရန်စာသားအမျိုးအစားခွဲခြားခြင်းနှင့်သဘာဝဘာသာစကားပြုပြင်ခြင်းအတွက် PHP ကိုမည်သို့အသုံးပြုရမည်ကိုမိတ်ဆက်ပေးလိမ့်မည်။
စာသားခွဲခြားသတ်မှတ်ခြင်းသည်အချို့သောစံသတ်မှတ်ချက်များနှင့်အညီစာသားအချက်အလက်များကိုအချို့သောစံသတ်မှတ်ချက်များနှင့်အများအားဖြင့်စာသား၏ပါဝင်မှုသို့မဟုတ်ဝိသေသလက္ခဏာများအပေါ်အခြေခံသည်။ အခြေခံအဆင့်များမှာ - ပထမ ဦး ဆုံးစာသားဒေတာများကိုကွန်ပျူတာနားလည်နိုင်သည့်ပုံစံသို့ပြောင်းလဲခြင်း,
PHP တွင် textclassifier နှင့် PHP-ML အပါအ 0 င်များသောအားဖြင့်အသုံးပြုသောစာသားခွဲခြားစာကြည့်တိုက်များရှိသည်။ ဤစာကြည့်တိုက်များသည်စွမ်းဆောင်ရည်ထုတ်ယူခြင်း, algorithm လေ့ကျင့်မှုနှင့်မော်ဒယ်အကဲဖြတ်ခြင်းကဲ့သို့သောအစွမ်းထက်သောစာသားပြုပြင်ခြင်းစွမ်းရည်များကိုပေးနိုင်သည်။ အောက်ပါတို့သည်စာသားကိုဥပမာတစ်ခုအနေဖြင့်စာသားများကိုမည်သို့ခွဲခြားရမည်ကိုမိတ်ဆက်ပေးလိမ့်မည်။
textlassifier သည် PHP ကို အခြေခံ. open source text classification library တစ်ခုဖြစ်ပြီး၎င်းသည်တေးရေးဆရာမှတဆင့်တပ်ဆင်နိုင်သည်။ စီမံကိန်း root directory တွင် composer.json ဖိုင်ကိုအောက်ပါအကြောင်းအရာများဖြင့်ဖန်တီးပါ။
{ "တောင်းဆို": { "migulenibral / text-classifier": "Dev-Master": } }
ထို့နောက် textlassifier ကို install လုပ်ရန်အောက်ပါ command ကို run ပါ။
တေးရေးဆရာ install လုပ်ပါ
ထည့်သွင်းမှုပြီးဆုံးပြီးသောအခါ, သင်သည်အောက်ပါကုဒ်ကို အသုံးပြု. ခွဲခြားမှုပုံစံကို ဖန်တီး. လေ့ကျင့်နိုင်သည်။
quant_once 'ရောင်းချသူ / autoload.php'; textclassifier \ tedclassifier ကိုသုံးပါ။ $ classifier = textclassifier အသစ် (); // လေ့ကျင့်ရေးဒေတာ $ classifier-> addexample ('ငါဒီရုပ်ရှင်ကိုချစ်' addexample ('ငါဒီရုပ်ရှင်ကိုချစ်') ။ $ classifier-> addexample ('ဒီရုပ်ရှင်ဟာကြောက်စရာကောင်းတယ်', // မော်ဒယ် $ classifier-> ရထား (); // Model $ classifier-> Savemodel ('Model.ser') ကိုချွေတာပါ။
အပေါ်ကဥပမာမှာကျွန်ုပ်တို့သည်ပထမ ဦး ဆုံး textclassifier အရာဝတ်ထုတစ်ခုကိုဖန်တီးပြီးစာသားနှစ်ခုနှင့်၎င်းတို့၏သက်ဆိုင်ရာ tags များ ('အပြုသဘော' နှင့် 'အနုတ်လက်ခဏာ') ကိုထည့်ပါ။ ထို့နောက်ရထား () နည်းလမ်းကိုခေါ်ဆိုခြင်းဖြင့်မော်ဒယ်ကိုလေ့ကျင့်ပါ။
သင်တန်းပြီးဆုံးသည်နှင့်မော်ဒယ်ကိုသိမ်းဆည်းပြီးသည်နှင့်၎င်းကိုမသိသောစာသားများကိုခွဲခြားရန်အသုံးပြုနိုင်သည်။ ဒီမှာကုဒ်ဥပမာတစ်ခုပါ။
quant_once 'ရောင်းချသူ / autoload.php'; textclassifier \ tedclassifier ကိုသုံးပါ။ $ classifier = textclassifier အသစ် (); // သိမ်းဆည်းထားသောမော်ဒယ် $ classifier-> loadmodel ('model.ser') ကို load လုပ်ပါ။ // $ text ကိုခွဲခြားရန်လိုအပ်သည့်စာသား = 'ဒီရုပ်ရှင်ကအရမ်းကောင်းတယ်'; // အမျိုးအစား $ အမျိုးအစား = $ classifier-> classifier ($ စာသား); ECHO "စာသား 'စာသား' စာသားအမျိုးအစားသည် '$ အမျိုးအစား' ဖြစ်သည်။
အထက်ပါကုဒ်များဖြင့်ကျွန်ုပ်တို့သည်သိမ်းဆည်းထားသောမော်ဒယ်ကိုဖွင့်ပြီးစာသားအသစ်များကိုခွဲခြားရန်၎င်းကိုအသုံးပြုသည်။
Lexical Analysis, syntactic ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် Semantic Analysis စသည့်ဘာသာစကားဘာသာစကားနှင့်သက်ဆိုင်သောလုပ်ငန်းများကိုလုပ်ဆောင်ရန်သဘာဝဘာသာစကားဖြင့်ရေးဆွဲခြင်း (NLP) သည်လူ့ဘာသာစကားကိုကွန်ပျူတာများအောက်ဖော်ပြပါလုပ်ငန်းများကိုပြောင်းလဲရန်ရည်ရွယ်သည်။ NLP နည်းပညာသည်ဘာသာစကား၏ဖွဲ့စည်းတည်ဆောက်ပုံနှင့်အဓိပ္ပာယ်ကိုနားလည်ရန်နှင့်၎င်းကိုစက်ဖြင့်ဘာသာပြန်ဆိုခြင်း,
PHP တွင်အများအားဖြင့်အသုံးပြုလေ့ရှိသောသဘာဝဘာသာစကားထုတ်ယူခြင်းစာကြည့်တိုက်များတွင်အချိုးကျနှင့် opencalais တို့ပါဝင်သည်။ သူတို့ကစကားလုံးပါ 0 င်မှု, တစ်စိတ်တစ်ပိုင်းစကားမပြော,
symmetsca သည် PHP ကို အခြေခံ. ပွင့်လင်းသောအရင်းအမြစ်သဘာဝဘာသာစကားစာကြည့်တိုက်ဖြစ်ပြီး PHP ကို အခြေခံ. စာသင်ခန်းမှလည်းတပ်ဆင်နိုင်သည်။ စီမံကိန်း root directory တွင် composer.json ဖိုင်ကိုအောက်ပါအကြောင်းအရာများဖြင့်ဖန်တီးပါ။
{ "တောင်းဆို": { "Kalmanolah / symmetsca": "dev-master": } }
ထို့နောက် Symmetsca ကို install လုပ်ရန်အောက်ပါ command ကို run ပါ။
တေးရေးဆရာ install လုပ်ပါ
ဤနေရာတွင် symmetsca သုံး. စကားလုံး segmentation အတွက်ကုဒ်နမူနာတစ်ခုရှိသည်။
quant_once 'ရောင်းချသူ / autoload.php'; symmetsca \ tokenizer ကိုသုံးပါ။ $ tokenizer = အသစ် tokenizer (); $ text = 'ဒါကနမူနာဝါကျတစ်ခုပဲ'; // Word ပါ 0 င်ပါ 0 င်မှု $ တိုကင် = $ tokenizer-> tokenizer ($ စာသား); // output justle ရလဒ် foreach forach ($ တိုကင်အဖြစ် $ တိုကင်အဖြစ်) ECHO $ token ။ php_eol; }
အထက်ပါဥပမာတွင်ကျွန်ုပ်တို့သည် tokenizer အရာဝတ်ထုတစ်ခုကို ဦး စွာဖန်တီးပြီးစာသားကိုသီးခြားစကားလုံးများဖြင့်ခွဲထုတ်ရန်နှင့်နောက်ဆုံးတွင်ဤစကားလုံးများကိုထုတ်လုပ်ရန်ဖြတ်သန်းရန် tokenize () နည်းလမ်းကိုသုံးပါ။
Participle တွင်ပါ 0 င်မှုအပြင် symmmetrica ကိုစာသားအတွက်သော့ချက်စာလုံးများကိုထုတ်ယူရန်လည်းအသုံးပြုနိုင်သည်။ ဤတွင်သက်ဆိုင်ရာကုဒ်နမူနာဖြစ်ပါတယ်:
quant_once 'ရောင်းချသူ / autoload.php'; symmetsca \ keywordextractor ကိုသုံးပါ။ $ extractractor = keywordextractor (), $ text = 'ဒါကနမူနာဝါကျတစ်ခုပဲ'; // သော့ချက်စာလုံးထုတ်ယူခြင်း $ သော့ချက်စာလုံးများ = $ extractor-> ထုတ်ယူ ($ စာသား); // output keyword foreach ($ သော့ချက်စာလုံးအဖြစ် $ သော့ချက်စာလုံးများ) { ECHO $ သော့ချက်စာလုံး။ php_eol; }
အထက်ပါကုဒ်များမှတစ်ဆင့်ကျွန်ုပ်တို့သည်စာသားမှသော့ချက်စာလုံးများကိုထုတ်ယူရန် SymmetsTrica ၏သော့ချက်စာလုံးများကိုအသုံးပြုသည်။
ဤဆောင်းပါးသည်စာသားအမျိုးအစားခွဲခြားခြင်းနှင့်သဘာဝဘာသာစကားပြုပြင်ခြင်းအတွက် PHP ကိုမည်သို့အသုံးပြုရမည်ကိုမိတ်ဆက်ပေးပြီးသက်ဆိုင်ရာကုဒ်များဥပမာများကိုထောက်ပံ့ပေးသည်။ ဤနည်းပညာများကိုလေ့လာခြင်းနှင့်လေ့ကျင့်ခြင်းအားဖြင့် developer များသည် textclassifier နှင့် symmetstera ကဲ့သို့သော PHP စာကြည့်တိုက်များနှင့်အချိုးကျသောလက်တွေ့ကျသော applications များအဖြစ်ပြောင်းလဲနိုင်သည်။