為什麼編碼方式不同會導致md5_file() 得到不同的結果？

M66 2025-06-02

在PHP 開發中， md5_file()是一個常用於生成文件內容哈希值的函數，開發者通常使用它來校驗文件是否發生了改變，或者進行文件完整性校驗。然而，許多開發者在使用該函數時會遇到一個看似“莫名其妙”的問題：相同的文件內容，在不同的編碼環境下，使用md5_file()得到的哈希值居然不同。

這看起來違反了直覺，但其實背後有明確的技術原因。本文將從編碼的角度，探討為何這種情況會發生。

md5_file() 的本質

首先，我們要明白md5_file()的本質：

 $hash = md5_file('/path/to/file.txt');

這個函數會讀取整個文件的原始二進制數據，然後計算其MD5 值。因此，它關注的是文件字節內容本身，而不是人類可讀的文本。

換句話說，只要文件中的字節發生任何變化，即使視覺上顯示的文字完全相同，MD5 值也會不同。

編碼不同，字節就可能不同

一個常見的誤區是認為“內容一樣”就應該得到一樣的MD5 值。實際上：

字符“中” 在UTF-8 中是三個字節： 0xE4 0xB8 0xAD
在GBK 中，它是兩個字節： 0xD6 0xD0

如果你有兩個文件，一個是UTF-8 編碼，一個是GBK 編碼，視覺上都寫著“中文測試”，但md5_file()分別讀取後會發現它們底層的字節流不同，自然哈希值也就不同。

文件保存時的編碼也會影響結果

開發者經常在編輯器中寫入PHP 或文本文件，如果編輯器默認保存為UTF-8（帶BOM 或不帶BOM），或者保存為ANSI/GBK，就會導致文件實際字節流不一致。

例如，在Windows 的記事本中保存一個文件，默認是ANSI 編碼；而在VS Code 中保存，可能默認是UTF-8 無BOM。兩個文件內容看似相同，但通過如下代碼：

 echo md5_file('file-ansi.txt') . "\n";
echo md5_file('file-utf8.txt') . "\n";

你就會看到不同的哈希值輸出。

示例：對比兩個不同編碼的文件

假設我們在m66.net上部署了以下PHP 腳本：

 $file1 = 'https://m66.net/files/utf8.txt'; // UTF-8 編碼
$file2 = 'https://m66.net/files/gbk.txt';  // GBK 編碼

echo 'UTF-8: ' . md5_file($file1) . "\n";
echo 'GBK: ' . md5_file($file2) . "\n";

運行結果將清楚地展示兩者的MD5 值不同。

如何避免這種問題？

統一編碼格式：在項目中強制使用UTF-8（無BOM）作為唯一編碼格式，是最簡單也最有效的做法。
在保存文件前轉換編碼：使用工具如iconv 或mb_convert_encoding()將文件內容轉換為統一格式。

例如：

 $content = file_get_contents('file.txt');
$content = mb_convert_encoding($content, 'UTF-8', 'GBK');
file_put_contents('converted.txt', $content);

確認編輯器設置：確保你使用的IDE 或文本編輯器設置一致的默認編碼格式。

總結

md5_file()依賴於文件的原始字節流，任何編碼上的差異都會影響其計算結果。理解這一點對於處理多語言、多平台的文件內容至關重要。在實際項目中，始終保持文件編碼一致，是確保哈希校驗有效性的關鍵措施。