strat_splitおよびmb_convert_encoding

M66 2025-05-27

PHPでは、特に文字列処理機能を使用する場合、中国の文字列を扱うときにいくつかのエンコードの問題に遭遇する可能性があります。 STR_SPLIT関数は、文字列を分割するために一般的に使用される関数ですが、マルチバイト文字（中国語など）を処理するときに予期しない結果が生じる可能性があります。中国の弦を正しく処理するために、 STR_SPLITとMB_CONVERT_ENCODINGを組み合わせて使用して、正しい文字エンコードを確保し、文字化けまたは切り捨てられた問題を避けることができます。

1。STR_SPLITおよび漢字

STR_SPLIT関数は文字列を配列に分割します。これはデフォルトで文字の長さによって分割されますが、シングルバイト文字セットに基づいており、マルチバイト文字（中国など）の処理時には期待どおりに機能しない場合があります。例えば：

 $string = "こんにちは，世境界！";
$result = str_split($string, 3);
print_r($result);

出力：

 Array
(
    [0] => あなた
    [1] => 良い，
    [2] => 世
    [3] => 境界
    [4] => ！
)

ご覧のとおり、 STR_SPLITは中国語を文字の完全な長さで分割するのではなく、3バイトごとに分割され、一部の漢字が分解されます。

2。MB_CONVERT_ENCODINGを使用して、エンコードの問題を解決します

漢字を正しく処理するために、文字列を分割する前に、 MB_CONVERT_ENCODING関数を使用して文字列のエンコード形式を変換できます。これの目的は、文字列のエンコードが、特に多言語環境で均一であることを保証し、文字化けの問題を回避することです。

たとえば、 GBKからUTF-8にエンコードする文字列を変換する場合は、次のコードを使用できます。

 $string = "こんにちは，世境界！";
$encodedString = mb_convert_encoding($string, 'UTF-8', 'GBK');

3。STR_SPLITとMB_CONVERT_ENCODINGを組み合わせます

これら2つの機能を組み合わせて使用すると、中国の弦を分割するときに文字エンコードを正しく処理できるようになります。ここに完全な例があります：

 $string = "こんにちは，世境界！";
$encodedString = mb_convert_encoding($string, 'UTF-8', 'GBK'); // エンコーディングを変換します
$result = str_split($encodedString, 3); // キャラクターごとに分割されます
print_r($result);

4。URLで漢字を処理します

実際の開発では、URLの漢字を処理する必要があることがよくあります。エンコードエラーを回避するには、 MB_CONVERT_ENCODINGを使用して、URLの中国部品を適切なエンコード形式に変換することをお勧めします。たとえば、URLの中国の部分をUTF-8エンコードに変換して、リクエストで文字化けしていないようにします。

漢字のURLがあるとします。

 $url = "http://example.com/search?q=こんにちは";

正しく処理するために、 URLENCODEを使用してURLをエンコードしてから変換できます。