큰 파일 처리에서 Hash_update_stream ()의 성능 장점

M66 2025-05-27

PHP에서 파일의 해시 값을 계산하는 것이 일반적인 작업입니다. 작은 파일의 경우 hash_file ()을 사용하는 것은 매우 직관적이고 효율적입니다. 그러나 이러한 방법의 성능은 초대형 파일에 직면 할 때 병목 현상이 될 수 있습니다. 성능을 최적화하기 위해 Hash_update_stream () 함수는보다 효율적인 솔루션을 제공합니다. 오늘 우리는 Hash_update_stream () 함수의 사용을 심도있게 사용하고 대형 파일을 처리 할 때 성능 향상을 분석합니다.

배경

큰 파일 (예 : 몇 개의 GB 파일)으로 작업 할 때 해시 값 계산 작업은 많은 메모리 및 CPU 리소스를 소비 할 수 있습니다. PHP의 내장 Hash_File () 함수는 사용하기 쉽지만 초대형 파일의 경우 파일을 메모리로 완전히 읽어 성능 저하로 이어지고 메모리 오버플로를 유발할 수 있습니다. 이러한 문제를 피하기 위해 hash_update_stream ()은 청크에서 파일을 읽는 기능을 제공하여 메모리 소비를 줄입니다.

hash_update_stream () 소개

Hash_update_stream ()은 스트림 데이터를 읽을 때 해시 값을 업데이트 할 수있는 PHP 5.1.2에 도입 된 함수입니다. 전체 파일을 한 번에로드하는 hash_file () 과 달리 Hash_update_stream ()은 블록으로 파일 데이터 블록을 읽고 데이터를 읽을 때마다 해시 값을 업데이트 할 수 있으므로 과도한 메모리 사용을 피할 수 있습니다.

샘플 코드 :

 <?php
$hashContext = hash_init('sha256');  // 해시 컨텍스트를 초기화합니다
$stream = fopen('largefile.txt', 'rb');  // 큰 파일을 엽니 다

// 파일을 읽고 블록으로 해시 블록을 업데이트하십시오
while (!feof($stream)) {
    $buffer = fread($stream, 8192);  // 각각 읽습니다 8KB
    hash_update_stream($hashContext, $buffer);  // 해시 업데이트
}

fclose($stream);  // 파일 스트림을 닫습니다
$hashValue = hash_final($hashContext);  // 최종 해시 값을 얻으십시오

echo "파일의 해시 값은입니다: $hashValue";
?>

이 예에서는 hash_update_stream ()을 사용하여 블록으로 파일 내용을 읽고 해시 값을 실시간으로 업데이트합니다. 청크에서 대규모 파일을 처리함으로써 메모리 사용량을 크게 줄이고 파일 처리 효율성을 향상시킬 수 있습니다.

성능 비교

매우 큰 파일을 처리 할 때 hash_update_stream () 의 성능을 평가하려면 hash_file () 와 비교할 수 있습니다. 10GB 큰 파일 의 크기가있는 파일이 있다고 가정 해 봅시다. TXT는 두 가지 방법을 사용하여 파일의 해시를 계산하고 성능을 비교합니다.

hash_file () 사용 :

 $hashValue = hash_file('sha256', 'largefile.txt');
echo "파일의 해시 값은입니다: $hashValue";

이 접근법의 단점은 전체 파일을 메모리에로드하여 초대형 파일에 매우 비효율적입니다. 파일이 너무 커지면 메모리 오버플로가 발생할 수도 있습니다.

hash_update_stream () 사용

 $hashContext = hash_init('sha256');
$stream = fopen('largefile.txt', 'rb');
while (!feof($stream)) {
    $buffer = fread($stream, 8192);
    hash_update_stream($hashContext, $buffer);
}
fclose($stream);
$hashValue = hash_final($hashContext);
echo "파일의 해시 값은입니다: $hashValue";

블록별로 파일을 읽으면 Hash_update_stream () 메소드는 메모리 사용량을 크게 줄이고 초대형 파일을 효율적으로 처리 할 수 있습니다. 특히 파일이 큰 경우 (예 : 10GB 이상) 메모리 사용량이 크게 줄어 듭니다.

성능 향상을위한 주요 요인

메모리 최적화 : hash_update_stream ()은 파일을 한 번에 메모리에로드하지 않고 블록별로 파일을 읽습니다. 이러한 방식으로 큰 파일을 처리 할 때 메모리 사용량이 크게 최적화됩니다.
I/O 성능 : hash_update_stream ()을 사용할 때 한 번에 작은 데이터 조각 만 읽으므로 파일 스트림을 더 효율적으로 읽고 한 번에 모든 데이터를 읽지 않으므로 디스크의 과도한 부담을 피합니다.
강력한 적응성 : hash_file () 과 달리 Hash_update_stream ()은 파일에 국한되지 않고 모든 스트림 유형의 데이터를 처리 할 수 있습니다. 따라서 스트리밍 데이터가 청크로 처리되는 다른 시나리오에서 매우 유용합니다.

실제 응용 시나리오

hash_update_stream () 은 특히 다음 시나리오에 적합합니다.

큰 파일 업로드 확인 : 큰 파일 업로드를 처리 할 때 일반적으로 파일의 무결성을 확인하려면 업로드 된 파일을 해시해야합니다. Hash_update_stream ()을 사용하여 파일을 업로드하고 메모리 소비를 줄이고 처리 속도를 향상시키는 동안 해시 값을 계산하십시오.
분산 스토리지 : 분산 스토리지 시스템에서 매우 큰 파일을 청크하고 각 블록의 해시 값을 계산해야 할 수도 있습니다. 현재 Hash_update_stream ()은 스트리밍 계산을 지원하는 효율적인 방법을 제공합니다.
실시간 데이터 처리 : 로그 파일 분석 또는 실시간 데이터 스트림 처리와 같은 일부 스트리밍 데이터 처리에서 Hash_update_stream ()은 효율적인 해시 컴퓨팅 도구로 사용할 수 있습니다.

결론적으로

Hash_update_stream ()은 특히 메모리 관리 및 I/O 처리에서 초고속 파일을 처리 할 때 성능을 크게 향상시킵니다. 청크로 파일을 읽고 해시 값을 점차 업데이트함으로써 Hash_update_stream ()은 메모리 소비를 줄이고 전체 파일을 한 번에로드하는 문제를 피할 수 있습니다. 따라서 큰 파일을 처리 해야하는 시나리오에 매우 유용한 도구입니다.