近日,中國科學(xué)院計算技術(shù)研究所處理器芯片全國重點(diǎn)實(shí)驗(yàn)室(以下簡稱“實(shí)驗(yàn)室”)三篇論文《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》被體系結(jié)構(gòu)領(lǐng)域頂級會議HPCA 2025(The International Symposium on High-Performance Computer Architecture,CCF-A類)接收。
論文
《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》
第一作者為實(shí)驗(yàn)室集成電路課題組博士生楊英豪,指導(dǎo)教師為路航副研究員和李曉維研究員。Hydra是面向基于全同態(tài)加密的深度學(xué)習(xí)推理(包括CNN和LLM)硬件加速架構(gòu)?,F(xiàn)有的垂直擴(kuò)展(Scale-up)全同態(tài)加速器通過堆疊大量的計算和存儲資源實(shí)現(xiàn)較高的并行計算能力和吞吐性能。然而,隨著深度學(xué)習(xí)模型規(guī)模的不斷增大,這種設(shè)計模式必然會面臨物理極限,難以無限制的增加硬件資源來應(yīng)對急速膨脹的密態(tài)推理計算負(fù)載。本文提出的Hydra架構(gòu)將視角從底層硬件計算單元的高并行和高吞吐轉(zhuǎn)向密態(tài)深度學(xué)習(xí)推理中豐富的應(yīng)用級并行性。通過高效的硬件架構(gòu)、任務(wù)分解、資源分配策略以及卡間同步機(jī)制的設(shè)計與協(xié)同,實(shí)現(xiàn)了能夠充分利用應(yīng)用級并行性的可橫向擴(kuò)展(Scale-out)全同態(tài)加速器。該架構(gòu)能夠根據(jù)具體模型動態(tài)調(diào)整任務(wù)映射策略并最大化的掩蓋計算節(jié)點(diǎn)間的通信開銷以提高系統(tǒng)性能。在密態(tài)CNN和LLM推理評估中,Hydra的性能遠(yuǎn)超目前最先進(jìn)的全同態(tài)加密FPGA加速器方案,并且在8卡下的性能超過大多數(shù)ASIC加速器方案。團(tuán)隊在2023年HPCA會議上就發(fā)表了全同態(tài)加密硬件加速架構(gòu)的論文。在近幾年的研究過程中,陸續(xù)開發(fā)了多款面向主流全同態(tài)加密算法的FPGA加速器原型和配套軟件庫——Poseidon,為全同態(tài)加密硬件加速的學(xué)術(shù)研究起到了推動作用。
圖1 Hydra基于Scale-out設(shè)計思想的全同態(tài)加密硬件加速架構(gòu)
論文
《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》
第一作者為實(shí)驗(yàn)室集成電路課題組碩士生袁梓銘,指導(dǎo)教師為梁勝文副研究員、王穎研究員和李曉維研究員。NeuVSA是基于乘積量化算法的統(tǒng)一神經(jīng)向量檢索加速器設(shè)計。神經(jīng)向量檢索(Neural Vector Search,NVS)涉及向量生成階段和向量檢索階段,前者利用神經(jīng)網(wǎng)絡(luò)將圖片、文本等數(shù)據(jù)的語義映射到高維向量,后者利用高維向量完成數(shù)據(jù)檢索。然而,向量生成階段和檢索階段的計算模式截然不同,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器或向量檢索加速器僅聚焦單一階段,無法兼顧兩者。簡單地組合現(xiàn)有加速器,則存在并行度不足、數(shù)據(jù)訪問沖突頻繁等問題,難以達(dá)到最佳的召回率、延遲和吞吐量。本文提出的NeuVSA,采用算法和架構(gòu)協(xié)同設(shè)計的理念,在算法層面提出基于可學(xué)習(xí)乘積量化統(tǒng)一NVS算法,不僅實(shí)現(xiàn)了計算模式上的統(tǒng)一,還能夠提高檢索效果;在架構(gòu)層面定制專用加速器,通過挖掘算法中的并行性,結(jié)合結(jié)構(gòu)化索引分配策略以及硬件感知調(diào)度策略等技術(shù),降低數(shù)據(jù)訪問沖突并提高吞吐量。相比于現(xiàn)有方法,NeuVSA在提升檢索效果的同時,降低了檢索延遲、能耗和芯片面積,能夠適應(yīng)大規(guī)模的神經(jīng)向量檢索場景的需求。
圖2 NeuVSA加速器的架構(gòu)
論文
《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》
共同第一作者為實(shí)驗(yàn)室智能計算機(jī)課題組博士生劉煉和趙世新,指導(dǎo)教師為王穎研究員。Hermes是一個面向大語言模型(LLM)本地部署的低成本近存擴(kuò)展系統(tǒng),有效地解決了LLM本地部署的痛點(diǎn)。隨著LLM在各種任務(wù)中的卓越表現(xiàn),如代碼生成、機(jī)器翻譯和聊天機(jī)器人等,其部署成本的高昂成為了普及的一大障礙。傳統(tǒng)的LLM部署需要昂貴的服務(wù)器級GPU和大容量HBM存儲,這限制了它們在更廣泛場景中的應(yīng)用。 Hermes系統(tǒng)通過巧妙地利用近數(shù)據(jù)處理單元(NDP)增強(qiáng)的DRAM DIMM,顯著提高了消費(fèi)級GPU的性能,使得在預(yù)算友好的硬件上部署LLM成為可能。與此同時,Hermes 系統(tǒng)有效的利用參數(shù)分布的冷熱特性和近存計算的特點(diǎn),突破了現(xiàn)有解決方案中主機(jī)和GPU內(nèi)存之間帶寬限制的性能瓶頸。這項(xiàng)研究不僅提出了一種新穎的異構(gòu)計算策略,將LLM中的“熱”神經(jīng)元映射到計算效率高的GPU上,而將“冷”神經(jīng)元卸載到存儲容量大但計算能力有限的NDP-DIMMs上,還引入了一個輕量級預(yù)測器,以實(shí)時預(yù)測和調(diào)整神經(jīng)元的分區(qū),并通過基于窗口的在線調(diào)度機(jī)制保持多個NDP-DIMM模塊之間的負(fù)載平衡。這樣的設(shè)計充分利用了GPU的計算能力和NDP-DIMMs的存儲能力。與現(xiàn)有的基于卸載的推理系統(tǒng)相比,Hermes在流行LLM上實(shí)現(xiàn)了平均75.24倍的速度提升,為LLM的部署和應(yīng)用開辟了新的可能性。此外,Hermes 能夠取得與具有昂貴的服務(wù)器級GPU和大容量HBM存儲的LLM推理系統(tǒng)相近的LLM部署性能,而僅需要約5%的成本。 隨著Hermes系統(tǒng)的進(jìn)一步發(fā)展和應(yīng)用,我們有理由相信,它將為LLM技術(shù)的普及和應(yīng)用帶來革命性的變化,讓更多的企業(yè)和研究團(tuán)隊能夠負(fù)擔(dān)得起并充分利用LLM的強(qiáng)大能力。
圖3 Hermes System : 基于DIMM近存的低成本LLM推理系統(tǒng)擴(kuò)展
HPCA主要收錄計算機(jī)體系結(jié)構(gòu)創(chuàng)新、高性能計算,處理器設(shè)計及其相關(guān)軟硬件技術(shù)的前沿研究成果。自1995年創(chuàng)辦以來,HPCA已經(jīng)成為計算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級會議,是全球計算機(jī)體系結(jié)構(gòu)領(lǐng)域最為重要的學(xué)術(shù)會議之一,對于推動該領(lǐng)域的研究和發(fā)展起到了至關(guān)重要的作用。第31屆HPCA會議將在美國拉斯維加斯舉行,本屆會議的學(xué)術(shù)論文錄用率為21%(包括conditional accept)。
處理器芯片全國重點(diǎn)實(shí)驗(yàn)室依托中國科學(xué)院計算技術(shù)研究所,是中國科學(xué)院批準(zhǔn)正式啟動建設(shè)的首批重點(diǎn)實(shí)驗(yàn)室之一,并被科技部遴選為首批 20個標(biāo)桿全國重點(diǎn)實(shí)驗(yàn)室,2022年5月開始建設(shè)。實(shí)驗(yàn)室學(xué)術(shù)委員會主任為孫凝暉院士,實(shí)驗(yàn)室主任為陳云霽研究員。實(shí)驗(yàn)室近年來獲得了處理器芯片領(lǐng)域首個國家自然科學(xué)獎等6項(xiàng)國家級科技獎勵;在處理器芯片領(lǐng)域國際頂級會議發(fā)表論文的數(shù)量長期列居中國第一;在國際上成功開創(chuàng)了深度學(xué)習(xí)處理器等熱門研究方向;直接或間接孵化了總市值數(shù)千億元的國產(chǎn)處理器產(chǎn)業(yè)頭部企業(yè)。