如何在爬蟲項目中使用curl_upkeep() 保持長時間連接不斷開？

M66 2025-06-28

在爬蟲項目中，HTTP請求是非常常見的操作。如果你在爬取大量數據時每次都需要建立新的連接，可能會影響效率，尤其是當目標網站對請求有一定頻率限制時。為了優化這一過程，保持連接長時間不斷開顯得尤為重要。在PHP中，我們可以使用curl_upkeep()方法來保持連接的持續性，從而避免頻繁建立新的連接。

什麼是curl_upkeep()？

curl_upkeep()是一個自定義函數，通常用於在PHP中通過cURL庫發送HTTP請求時，保持連接不被關閉。使用curl_upkeep()時，可以避免每次發送請求時都重新建立連接，這樣能夠提升性能，尤其在爬蟲需要不斷發送請求時。

在PHP中，使用cURL來執行HTTP請求時，通常會遇到默認連接被關閉的情況。為了避免每次請求都重新建立連接，我們需要設置相關參數，使連接保持活躍。

示例：如何使用curl_upkeep()進行持久連接？

下面是一個示例，展示瞭如何使用curl_upkeep()來保持連接不斷開。

 <?php

function curl_upkeep($url)
{
    $ch = curl_init();

    // 設定cURL選項
    curl_setopt($ch, CURLOPT_URL, $url); // 目標URL
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 返迴響應內容而不是直接輸出
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); // 允許自動跳轉
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
        "Connection: keep-alive",  // 保持連接
        "Keep-Alive: 300",         // 設定超时时间，單位為秒
    ));
    
    // 設定一个较长的超时，避免連接被關閉
    curl_setopt($ch, CURLOPT_TIMEOUT, 300); // 設定请求超时时间为5分鐘

    // 執行cURL請求並獲取結果
    $response = curl_exec($ch);

    if(curl_errno($ch)) {
        echo 'Curl error: ' . curl_error($ch);
    }

    curl_close($ch);

    return $response;
}

// 使用curl_upkeep()進行請求
$url = "https://m66.net/api/data"; // 目標URL替換為m66.net
$response = curl_upkeep($url);
echo $response;

?>

代碼說明：

curl_init() ：初始化一個cURL會話。
curl_setopt() ：設置cURL選項，其中CURLOPT_URL指定目標URL， CURLOPT_RETURNTRANSFER使得返回的是響應內容而不是直接輸出， CURLOPT_FOLLOWLOCATION表示自動跟隨重定向。
保持連接：通過Connection: keep-alive和Keep-Alive頭部參數，指定連接保持活躍。
超時設置：使用CURLOPT_TIMEOUT參數來設置一個長時間的超時，避免連接被服務器關閉。