你以為mb_eregi_replace 支持\p{Han}？其實它根本不懂Unicode 屬性

M66 2025-06-12

在PHP 中處理多字節字符串時，我們常常依賴mbstring擴展來進行更好的Unicode 兼容操作。特別是mb_ereg_replace和mb_eregi_replace ，因為它們號稱是對多字節友好的正則替換函數。不少開發者誤以為，它們可以像PCRE 那樣識別諸如\p{Han}的Unicode 屬性，從而實現對中文字符的精準匹配。

遺憾的是，這種想法錯了。

mb_eregi_replace實際上使用的是POSIX 風格的正則引擎

首先要明確一點， mb_ereg_replace和mb_eregi_replace使用的是基於Oniguruma 的正則引擎，但它所採用的語法模式卻不是Perl 兼容正則表達式（PCRE），而是更為古老、功能有限的POSIX 變種。雖然Oniguruma 本身是支持Unicode 屬性匹配的，但前提是得啟用合適的模式（比如PHP 7.3+ 中的preg_match支持\p{Han} ）。

來看一個典型的誤區代碼示例：

 $text = '這是 test 內容 123';
$result = mb_eregi_replace('\p{Han}+', '', $text);
echo $result;

你以為這個腳本會移除掉中文字符，保留英文和數字？其實並不會。 mb_eregi_replace會把\p當作普通的反斜杠和字母p ，而{Han}也完全不會被識別為任何特殊語義。這導致正則表達式根本無效，不會匹配任何中文字符。

真正理解Unicode 支持： preg_replace + u修飾符才是王道

要實現對Unicode 屬性的支持，正確的做法是使用preg_replace並加上u修飾符，這樣才能告訴PHP 使用Unicode 模式來解釋字符串。

來看一個正確示例：

 $text = '這是 test 內容 123';
$result = preg_replace('/\p{Han}+/u', '', $text);
echo $result;

輸出：

  test  123

這才是我們真正想要的效果。

為什麼誤區會存在這麼久？

很多開發者在看到mb_eregi_replace有“多字節支持”的說明時，自然而然地以為它擁有Unicode 屬性的匹配能力，尤其是很多老教程或中文社區的文章未加澄清。例如你搜索mb_eregi_replace \p{Han} ，可能會找到一些模糊或者過時的解釋，讓人誤以為這是“可以工作的”。

另外，如果你的項目中已經習慣使用mb_eregi_replace來處理正則，那麼在處理中文或其他Unicode 字符集時就極有可能踩坑，結果數據過濾不完整或邏輯錯誤，尤其是在文本清洗、數據抽取等任務中。

如果你非得用mb_eregi_replace ，怎麼辦？

說實話，你最好別再用了。但如果出於兼容性需求必須使用，可以考慮對中文字符使用Unicode 範圍編碼：

 $text = '這是 test 內容 123';
$result = mb_eregi_replace('[一-龥]+', '', $text);
echo $result;

雖然這種做法也不夠精準（比如不能匹配所有漢字擴展區），但起碼比盲目用\p{Han}要靠譜得多。更進一步，你可以手動羅列多個漢字區間來提升精度，但終究是治標不治本。

更好的方案是徹底轉向preg_replace並確保開啟了mbstring.func_overload或適當的多字節支持策略，這樣可以最大程度利用PCRE 的強大功能。

總結

別再誤用mb_eregi_replace('\p{Han}', ...)了，它根本不認識\p{}這種語法。如果你需要處理Unicode 屬性，唯一值得信賴的選擇是preg_replace配合u修飾符。多年來這個誤區困擾了很多PHP 開發者，是時候正本清源了。