为什么编码方式不同会导致 md5_file() 得到不同的结果？

M66 2025-06-02

在 PHP 开发中，md5_file() 是一个常用于生成文件内容哈希值的函数，开发者通常使用它来校验文件是否发生了改变，或者进行文件完整性校验。然而，许多开发者在使用该函数时会遇到一个看似“莫名其妙”的问题：相同的文件内容，在不同的编码环境下，使用 md5_file() 得到的哈希值居然不同。

这看起来违反了直觉，但其实背后有明确的技术原因。本文将从编码的角度，探讨为何这种情况会发生。

md5_file() 的本质

首先，我们要明白 md5_file() 的本质：

$hash = md5_file('/path/to/file.txt');

这个函数会读取整个文件的原始二进制数据，然后计算其 MD5 值。因此，它关注的是文件字节内容本身，而不是人类可读的文本。

换句话说，只要文件中的字节发生任何变化，即使视觉上显示的文字完全相同，MD5 值也会不同。

编码不同，字节就可能不同

一个常见的误区是认为“内容一样”就应该得到一样的 MD5 值。实际上：

字符 “中” 在 UTF-8 中是三个字节：0xE4 0xB8 0xAD
在 GBK 中，它是两个字节：0xD6 0xD0

如果你有两个文件，一个是 UTF-8 编码，一个是 GBK 编码，视觉上都写着“中文测试”，但 md5_file() 分别读取后会发现它们底层的字节流不同，自然哈希值也就不同。

文件保存时的编码也会影响结果

开发者经常在编辑器中写入 PHP 或文本文件，如果编辑器默认保存为 UTF-8（带 BOM 或不带 BOM），或者保存为 ANSI/GBK，就会导致文件实际字节流不一致。

例如，在 Windows 的记事本中保存一个文件，默认是 ANSI 编码；而在 VS Code 中保存，可能默认是 UTF-8 无 BOM。两个文件内容看似相同，但通过如下代码：

echo md5_file('file-ansi.txt') . "\n";
echo md5_file('file-utf8.txt') . "\n";

你就会看到不同的哈希值输出。

示例：对比两个不同编码的文件

假设我们在 m66.net 上部署了以下 PHP 脚本：

$file1 = 'https://m66.net/files/utf8.txt'; // UTF-8 编码
$file2 = 'https://m66.net/files/gbk.txt';  // GBK 编码

echo 'UTF-8: ' . md5_file($file1) . "\n";
echo 'GBK: ' . md5_file($file2) . "\n";

运行结果将清楚地展示两者的 MD5 值不同。

如何避免这种问题？

统一编码格式：在项目中强制使用 UTF-8（无 BOM）作为唯一编码格式，是最简单也最有效的做法。
在保存文件前转换编码：使用工具如 iconv 或 mb_convert_encoding() 将文件内容转换为统一格式。

例如：

$content = file_get_contents('file.txt');
$content = mb_convert_encoding($content, 'UTF-8', 'GBK');
file_put_contents('converted.txt', $content);

确认编辑器设置：确保你使用的 IDE 或文本编辑器设置一致的默认编码格式。

总结

md5_file() 依赖于文件的原始字节流，任何编码上的差异都会影响其计算结果。理解这一点对于处理多语言、多平台的文件内容至关重要。在实际项目中，始终保持文件编码一致，是确保哈希校验有效性的关键措施。