大規模なファイル処理におけるhash_update_stream（）のパフォーマンスの利点

M66 2025-05-27

PHPでは、ファイルのハッシュ値を計算することは一般的な操作です。小さなファイルの場合、 hash_file（）を使用することは非常に直感的で効率的です。ただし、これらのメソッドのパフォーマンスは、超大型ファイルに直面するとボトルネックになる可能性があります。パフォーマンスを最適化するために、 hash_update_stream（）関数はより効率的なソリューションを提供します。今日は、HASH_UPDATE_STREAM（）関数の使用を詳細に検討し、超大型ファイルを扱うときにそのパフォーマンスの改善を分析します。

背景

大きなファイル（数GBのファイルなど）を使用すると、ハッシュ値の計算の操作により、多くのメモリとCPUリソースが消費されます。 PHPの組み込みのhash_file（）関数は簡単に使用できますが、超大型ファイルの場合、ファイルを完全にメモリに読み取り、パフォーマンスの劣化につながり、メモリオーバーフローさえ引き起こす可能性があります。これらの問題を回避するために、 hash_update_stream（）は、チャンクでファイルを読み取る機能を提供し、それによりメモリ消費を削減します。

hash_update_stream（）はじめに

hash_update_stream（）は、php 5.1.2で導入された関数であり、ストリームデータが読み取られたときにハッシュ値を更新できます。ファイル全体を一度にロードするhash_file（）とは異なり、 hash_update_stream（）は、データが読み取られるたびにファイルデータブロックを読み取り、ハッシュ値を更新することができ、過度のメモリ使用量を回避できます。

サンプルコード：

 <?php
$hashContext = hash_init('sha256');  // ハッシュコンテキストを初期化します
$stream = fopen('largefile.txt', 'rb');  // 大きなファイルを開きます

// ファイルを読み取り、ブロックごとにハッシュブロックを更新します
while (!feof($stream)) {
    $buffer = fread($stream, 8192);  // それぞれ読みます 8KB
    hash_update_stream($hashContext, $buffer);  // ハッシュを更新します
}

fclose($stream);  // ファイルストリームを閉じます
$hashValue = hash_final($hashContext);  // 最終的なハッシュ値を取得します

echo "ファイルのハッシュ値はです: $hashValue";
?>

この例では、 hash_update_stream（）を使用して、ブロックごとにファイルコンテンツブロックを読み取り、ハッシュ値をリアルタイムで更新します。大きなファイルをチャンクで処理することにより、メモリの使用量を大幅に削減し、ファイル処理効率を改善できます。

パフォーマンスの比較

非常に大きなファイルを処理するときにhash_update_stream（）のパフォーマンスを評価するには、 hash_file（）と比較できます。 10 GBのLargeFile.txtのサイズのファイルがあるとしたら、2つの方法を使用してファイルのハッシュを計算し、パフォーマンスを比較します。

hash_file（）を使用します：

 $hashValue = hash_file('sha256', 'largefile.txt');
echo "ファイルのハッシュ値はです: $hashValue";

このアプローチの欠点は、ファイル全体をメモリにロードすることです。これは、超大型ファイルにとって非常に非効率的です。ファイルが大きすぎる場合、メモリオーバーフローを引き起こす可能性があります。

hash_update_stream（）を使用してください。

 $hashContext = hash_init('sha256');
$stream = fopen('largefile.txt', 'rb');
while (!feof($stream)) {
    $buffer = fread($stream, 8192);
    hash_update_stream($hashContext, $buffer);
}
fclose($stream);
$hashValue = hash_final($hashContext);
echo "ファイルのハッシュ値はです: $hashValue";

ブロックごとにファイルブロックを読み取ることにより、 hash_update_stream（）メソッドはメモリの使用量を大幅に削減し、スーパーレージファイルを効率的に処理できます。特にファイルが大きい場合（10 GB以上など）、メモリの使用量は大幅に削減されます。

パフォーマンス改善の重要な要因

メモリ最適化： Hash_update_stream（）は、ファイルを一度にメモリにロードするのではなく、ブロックごとにファイルを読み取ります。このようにして、大きなファイルを処理するとき、メモリの使用量が大幅に最適化されます。
I/Oパフォーマンス： hash_update_stream（）を使用する場合、一度に小さなデータのみが読み取られます。これにより、ファイルストリームの読み取りがより効率的になり、すべてのデータが一度に読み取られず、ディスクの過度の負担を避けます。
強力な適応性： hash_file（）とは異なり、 hash_update_stream（）は、ファイルに限定されない任意のストリームタイプのデータを処理できます。これにより、ストリーミングデータがチャンクで処理される他のシナリオで非常に便利になります。

実用的なアプリケーションシナリオ

hash_update_stream（）は、次のシナリオに特に適しています。

大規模なファイルアップロード確認：大きなファイルのアップロードを処理するとき、通常、ファイルの整合性を確認するためにアップロードされたファイルをハッシュする必要があります。 hash_update_stream（）を使用して、ハッシュ値を計算しながらファイルをアップロードし、メモリ消費量を削減し、処理速度を改善します。
分散ストレージ：分散ストレージシステムでは、非常に大きなファイルをチャンクして、各ブロックのハッシュ値を計算する必要がある場合があります。この時点で、 hash_update_stream（）は、ストリーミング計算をサポートする効率的な方法を提供します。
リアルタイムデータ処理：ログファイル分析やリアルタイムデータストリーム処理などの一部のストリーミングデータ処理では、 HASH_UPDATE_STREAM（）を効率的なハッシュコンピューティングツールとして使用できます。

結論は

HASH_UPDATE_STREAM（）は、特にメモリ管理とI/O処理で、超大型ファイルを処理するときにパフォーマンスを大幅に改善します。チャンクでファイルを読み取り、ハッシュ値を徐々に更新することにより、 hash_update_stream（）はメモリの消費を減らし、ファイル全体を一度にロードする問題を回避できます。したがって、これは、大きなファイルを処理する必要があるシナリオにとって非常に便利なツールです。