大模型推理框架vLLM再曝CVSS 9.8分嚴(yán)重漏洞,AI基礎(chǔ)設(shè)施面臨威脅
摘要: 知名大模型推理框架vLLM修復(fù)了一處騰訊朱雀實驗室報告的CVSS評分9.8分嚴(yán)重安全漏洞(CVE-2025-47277)
近日知名大模型推理框架vLLM修復(fù)了一處騰訊朱雀實驗室報告的CVSS評分9.8分嚴(yán)重安全漏洞(CVE-2025-47277),攻擊者可利用該漏洞獲取GPU算力服務(wù)器的控制權(quán)限,可能導(dǎo)致模型泄露、算力竊取以及服務(wù)中斷等重大安全事故。朱雀實驗室開源的AI-Infra-Guard已支持此漏洞的風(fēng)險自查。
1. vLLM框架的重要性與安全挑戰(zhàn)
vLLM是一個專為大型語言模型(LLM)推理設(shè)計的高性能框架,通過創(chuàng)新的內(nèi)存管理和計算加速技術(shù),顯著提升吞吐量并降低延遲,特別適用于企業(yè)級高并發(fā)場景。作為一個社區(qū)驅(qū)動的開源項目,vLLM融合了學(xué)術(shù)界與工業(yè)界的智慧,在GitHub上收獲了47K Star的關(guān)注度。目前,Hugginface社區(qū)和眾多大模型廠商都廣泛使用vLLM進(jìn)行AI模型推理,其安全性直接關(guān)系到AI服務(wù)的穩(wěn)定性和數(shù)據(jù)安全。

然而,vLLM的高普及度也使其成為攻擊者的潛在目標(biāo)。此前,vLLM曾曝光過兩個位于MooncakePipe服務(wù)的嚴(yán)重漏洞。本次修復(fù)的新漏洞存在于vLLM的PyNcclPipe服務(wù)中,攻擊者可通過發(fā)送定制化的惡意數(shù)據(jù)包,遠(yuǎn)程獲取GPU算力服務(wù)器控制權(quán)限,CVSS評分(通用漏洞評分系統(tǒng),滿分10分)高達(dá)9.8分。
在vLLM中,PyNcclPipe類負(fù)責(zé)構(gòu)建支持NCCL的通信域,實現(xiàn)分布式GPU節(jié)點間的高效數(shù)據(jù)傳輸:
● GPU側(cè):通過PyNcclCommunicator類傳輸KV-Cache數(shù)據(jù);
● CPU側(cè):通過send_obj和recv_obj方法處理控制消息。

官方示例代碼可參考:
vllm/tests/kv_transfer at main · vllm-project/vllm · GitHub

當(dāng)PyNcclPipe服務(wù)接收到外部惡意客戶端發(fā)來的不安全數(shù)據(jù)流時,會觸發(fā)pickle反序列化漏洞,導(dǎo)致遠(yuǎn)程命令執(zhí)行(RCE)。

攻擊者可利用此漏洞控制服務(wù)器,竊取模型文件,甚至進(jìn)一步滲透GPU算力集群等內(nèi)網(wǎng)平臺,造成以下嚴(yán)重后果:
● 大規(guī)模數(shù)據(jù)泄露:敏感模型和數(shù)據(jù)被竊??;
● 算力竊取:攻擊者占用GPU資源進(jìn)行非法計算;
● 服務(wù)中斷:AI服務(wù)不可用,影響業(yè)務(wù)連續(xù)性。

典型場景下的漏洞利用流程如下:
● 服務(wù)端創(chuàng)建PyNcclPipe服務(wù),接受遠(yuǎn)程節(jié)點通信數(shù)據(jù);
● 攻擊者構(gòu)造惡意數(shù)據(jù)包并發(fā)送至PyNcclPipe服務(wù);
● 攻擊者成功“getshell”,獲取服務(wù)器控制權(quán)并實施后續(xù)攻擊。

同時我們也注意到,朱雀實驗室開源的AI-Infra-Guard(GitHub - Tencent/AI-Infra-Guard: A comprehensive, intelligent, easy-to-use, and lightweight AI Infrastructure Vulnerability Assessment and MCP Server Security Analysis Tool.)已新增對此漏洞的掃描功能,用戶可通過該工具快速評估現(xiàn)有vLLM組件是否受影響。若需進(jìn)一步確認(rèn),可檢查服務(wù)器代碼是否調(diào)用了PyNcclPipe模塊,并核查相關(guān)服務(wù)端口是否外部可訪問。
● 盡快更新:升級至最新版本的vLLM以修復(fù)漏洞;
● 容器化部署:使用容器技術(shù)隔離vLLM服務(wù),配合網(wǎng)絡(luò)策略限制訪問;
● 訪問控制:對外開放服務(wù)時,嚴(yán)格限定可信IP地址;
詳細(xì)指引可參考官方的安全部署文檔: https://docs.vllm.ai/en/latest/deployment/security.html 。
https://github.com/vllm-project/vllm/security/advisories/GHSA-hjq4-87xh-g4fv
1. vLLM框架的重要性與安全挑戰(zhàn)
vLLM是一個專為大型語言模型(LLM)推理設(shè)計的高性能框架,通過創(chuàng)新的內(nèi)存管理和計算加速技術(shù),顯著提升吞吐量并降低延遲,特別適用于企業(yè)級高并發(fā)場景。作為一個社區(qū)驅(qū)動的開源項目,vLLM融合了學(xué)術(shù)界與工業(yè)界的智慧,在GitHub上收獲了47K Star的關(guān)注度。目前,Hugginface社區(qū)和眾多大模型廠商都廣泛使用vLLM進(jìn)行AI模型推理,其安全性直接關(guān)系到AI服務(wù)的穩(wěn)定性和數(shù)據(jù)安全。
2. 漏洞原理與利用場景
vLLM作為當(dāng)前最受歡迎的推理框架之一,支持單機(jī)多卡和多機(jī)多卡推理,以降低對顯卡性能的需求。在處理分布式GPU節(jié)點間的張量通信時,vLLM可選使用NVIDIA的NCCL(NVIDIA Collective Communications Library)技術(shù)。NCCL專為分布式多GPU計算環(huán)境設(shè)計,通過高效的張量集合操作實現(xiàn)數(shù)據(jù)通信與同步。在vLLM中,PyNcclPipe類負(fù)責(zé)構(gòu)建支持NCCL的通信域,實現(xiàn)分布式GPU節(jié)點間的高效數(shù)據(jù)傳輸:
● GPU側(cè):通過PyNcclCommunicator類傳輸KV-Cache數(shù)據(jù);
● CPU側(cè):通過send_obj和recv_obj方法處理控制消息。
vllm/tests/kv_transfer at main · vllm-project/vllm · GitHub
● 大規(guī)模數(shù)據(jù)泄露:敏感模型和數(shù)據(jù)被竊??;
● 算力竊取:攻擊者占用GPU資源進(jìn)行非法計算;
● 服務(wù)中斷:AI服務(wù)不可用,影響業(yè)務(wù)連續(xù)性。
● 服務(wù)端創(chuàng)建PyNcclPipe服務(wù),接受遠(yuǎn)程節(jié)點通信數(shù)據(jù);
● 攻擊者構(gòu)造惡意數(shù)據(jù)包并發(fā)送至PyNcclPipe服務(wù);
● 攻擊者成功“getshell”,獲取服務(wù)器控制權(quán)并實施后續(xù)攻擊。
3. 安全自查與緩解措施
此漏洞影響vLLM版本號>=0.6.5且小于0.8.5的所有版本,目前vLLM已在0.8.5中修復(fù)該漏洞,并在項目Github安全公告致謝了此漏洞的三位報告者,其中包含來自于國內(nèi)騰訊公司的朱雀實驗室。4. 安全建議
為確保vLLM在大模型推理場景的安全使用,我們建議:● 盡快更新:升級至最新版本的vLLM以修復(fù)漏洞;
● 容器化部署:使用容器技術(shù)隔離vLLM服務(wù),配合網(wǎng)絡(luò)策略限制訪問;
● 訪問控制:對外開放服務(wù)時,嚴(yán)格限定可信IP地址;
詳細(xì)指引可參考官方的安全部署文檔: https://docs.vllm.ai/en/latest/deployment/security.html 。
5. 參考鏈接
GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMshttps://github.com/vllm-project/vllm/security/advisories/GHSA-hjq4-87xh-g4fv