中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收

huangshujun 2025-03-07 案例展示 10 次瀏覽 0個評論

近日，中國科學(xué)院計算技術(shù)研究所處理器芯片全國重點(diǎn)實(shí)驗(yàn)室（以下簡稱“實(shí)驗(yàn)室”）三篇論文《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》被體系結(jié)構(gòu)領(lǐng)域頂級會議HPCA 2025（The International Symposium on High-Performance Computer Architecture，CCF-A類）接收。

論文

《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》

第一作者為實(shí)驗(yàn)室集成電路課題組博士生楊英豪，指導(dǎo)教師為路航副研究員和李曉維研究員。Hydra是面向基于全同態(tài)加密的深度學(xué)習(xí)推理（包括CNN和LLM）硬件加速架構(gòu)?，F(xiàn)有的垂直擴(kuò)展（Scale-up）全同態(tài)加速器通過堆疊大量的計算和存儲資源實(shí)現(xiàn)較高的并行計算能力和吞吐性能。然而，隨著深度學(xué)習(xí)模型規(guī)模的不斷增大，這種設(shè)計模式必然會面臨物理極限，難以無限制的增加硬件資源來應(yīng)對急速膨脹的密態(tài)推理計算負(fù)載。本文提出的Hydra架構(gòu)將視角從底層硬件計算單元的高并行和高吞吐轉(zhuǎn)向密態(tài)深度學(xué)習(xí)推理中豐富的應(yīng)用級并行性。通過高效的硬件架構(gòu)、任務(wù)分解、資源分配策略以及卡間同步機(jī)制的設(shè)計與協(xié)同，實(shí)現(xiàn)了能夠充分利用應(yīng)用級并行性的可橫向擴(kuò)展（Scale-out）全同態(tài)加速器。該架構(gòu)能夠根據(jù)具體模型動態(tài)調(diào)整任務(wù)映射策略并最大化的掩蓋計算節(jié)點(diǎn)間的通信開銷以提高系統(tǒng)性能。在密態(tài)CNN和LLM推理評估中，Hydra的性能遠(yuǎn)超目前最先進(jìn)的全同態(tài)加密FPGA加速器方案，并且在8卡下的性能超過大多數(shù)ASIC加速器方案。團(tuán)隊在2023年HPCA會議上就發(fā)表了全同態(tài)加密硬件加速架構(gòu)的論文。在近幾年的研究過程中，陸續(xù)開發(fā)了多款面向主流全同態(tài)加密算法的FPGA加速器原型和配套軟件庫——Poseidon，為全同態(tài)加密硬件加速的學(xué)術(shù)研究起到了推動作用。

圖1 Hydra基于Scale-out設(shè)計思想的全同態(tài)加密硬件加速架構(gòu)

論文

《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》

第一作者為實(shí)驗(yàn)室集成電路課題組碩士生袁梓銘，指導(dǎo)教師為梁勝文副研究員、王穎研究員和李曉維研究員。NeuVSA是基于乘積量化算法的統(tǒng)一神經(jīng)向量檢索加速器設(shè)計。神經(jīng)向量檢索（Neural Vector Search，NVS）涉及向量生成階段和向量檢索階段，前者利用神經(jīng)網(wǎng)絡(luò)將圖片、文本等數(shù)據(jù)的語義映射到高維向量，后者利用高維向量完成數(shù)據(jù)檢索。然而，向量生成階段和檢索階段的計算模式截然不同，現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器或向量檢索加速器僅聚焦單一階段，無法兼顧兩者。簡單地組合現(xiàn)有加速器，則存在并行度不足、數(shù)據(jù)訪問沖突頻繁等問題，難以達(dá)到最佳的召回率、延遲和吞吐量。本文提出的NeuVSA，采用算法和架構(gòu)協(xié)同設(shè)計的理念，在算法層面提出基于可學(xué)習(xí)乘積量化統(tǒng)一NVS算法，不僅實(shí)現(xiàn)了計算模式上的統(tǒng)一，還能夠提高檢索效果；在架構(gòu)層面定制專用加速器，通過挖掘算法中的并行性，結(jié)合結(jié)構(gòu)化索引分配策略以及硬件感知調(diào)度策略等技術(shù)，降低數(shù)據(jù)訪問沖突并提高吞吐量。相比于現(xiàn)有方法，NeuVSA在提升檢索效果的同時，降低了檢索延遲、能耗和芯片面積，能夠適應(yīng)大規(guī)模的神經(jīng)向量檢索場景的需求。

圖2 NeuVSA加速器的架構(gòu)

論文

《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》

共同第一作者為實(shí)驗(yàn)室智能計算機(jī)課題組博士生劉煉和趙世新，指導(dǎo)教師為王穎研究員。Hermes是一個面向大語言模型（LLM）本地部署的低成本近存擴(kuò)展系統(tǒng)，有效地解決了LLM本地部署的痛點(diǎn)。隨著LLM在各種任務(wù)中的卓越表現(xiàn)，如代碼生成、機(jī)器翻譯和聊天機(jī)器人等，其部署成本的高昂成為了普及的一大障礙。傳統(tǒng)的LLM部署需要昂貴的服務(wù)器級GPU和大容量HBM存儲，這限制了它們在更廣泛場景中的應(yīng)用。 Hermes系統(tǒng)通過巧妙地利用近數(shù)據(jù)處理單元（NDP）增強(qiáng)的DRAM DIMM，顯著提高了消費(fèi)級GPU的性能，使得在預(yù)算友好的硬件上部署LLM成為可能。與此同時，Hermes 系統(tǒng)有效的利用參數(shù)分布的冷熱特性和近存計算的特點(diǎn)，突破了現(xiàn)有解決方案中主機(jī)和GPU內(nèi)存之間帶寬限制的性能瓶頸。這項(xiàng)研究不僅提出了一種新穎的異構(gòu)計算策略，將LLM中的“熱”神經(jīng)元映射到計算效率高的GPU上，而將“冷”神經(jīng)元卸載到存儲容量大但計算能力有限的NDP-DIMMs上，還引入了一個輕量級預(yù)測器，以實(shí)時預(yù)測和調(diào)整神經(jīng)元的分區(qū)，并通過基于窗口的在線調(diào)度機(jī)制保持多個NDP-DIMM模塊之間的負(fù)載平衡。這樣的設(shè)計充分利用了GPU的計算能力和NDP-DIMMs的存儲能力。與現(xiàn)有的基于卸載的推理系統(tǒng)相比，Hermes在流行LLM上實(shí)現(xiàn)了平均75.24倍的速度提升，為LLM的部署和應(yīng)用開辟了新的可能性。此外，Hermes 能夠取得與具有昂貴的服務(wù)器級GPU和大容量HBM存儲的LLM推理系統(tǒng)相近的LLM部署性能，而僅需要約5%的成本。隨著Hermes系統(tǒng)的進(jìn)一步發(fā)展和應(yīng)用，我們有理由相信，它將為LLM技術(shù)的普及和應(yīng)用帶來革命性的變化，讓更多的企業(yè)和研究團(tuán)隊能夠負(fù)擔(dān)得起并充分利用LLM的強(qiáng)大能力。

圖3 Hermes System : 基于DIMM近存的低成本LLM推理系統(tǒng)擴(kuò)展

HPCA主要收錄計算機(jī)體系結(jié)構(gòu)創(chuàng)新、高性能計算，處理器設(shè)計及其相關(guān)軟硬件技術(shù)的前沿研究成果。自1995年創(chuàng)辦以來，HPCA已經(jīng)成為計算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級會議，是全球計算機(jī)體系結(jié)構(gòu)領(lǐng)域最為重要的學(xué)術(shù)會議之一，對于推動該領(lǐng)域的研究和發(fā)展起到了至關(guān)重要的作用。第31屆HPCA會議將在美國拉斯維加斯舉行，本屆會議的學(xué)術(shù)論文錄用率為21%（包括conditional accept）。

處理器芯片全國重點(diǎn)實(shí)驗(yàn)室依托中國科學(xué)院計算技術(shù)研究所，是中國科學(xué)院批準(zhǔn)正式啟動建設(shè)的首批重點(diǎn)實(shí)驗(yàn)室之一，并被科技部遴選為首批 20個標(biāo)桿全國重點(diǎn)實(shí)驗(yàn)室，2022年5月開始建設(shè)。實(shí)驗(yàn)室學(xué)術(shù)委員會主任為孫凝暉院士，實(shí)驗(yàn)室主任為陳云霽研究員。實(shí)驗(yàn)室近年來獲得了處理器芯片領(lǐng)域首個國家自然科學(xué)獎等6項(xiàng)國家級科技獎勵；在處理器芯片領(lǐng)域國際頂級會議發(fā)表論文的數(shù)量長期列居中國第一；在國際上成功開創(chuàng)了深度學(xué)習(xí)處理器等熱門研究方向；直接或間接孵化了總市值數(shù)千億元的國產(chǎn)處理器產(chǎn)業(yè)頭部企業(yè)。

轉(zhuǎn)載請注明來自青島峻峰水處理設(shè)備有限公司，本文標(biāo)題：《中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收》

huangshujun 437篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會改變你的人生！

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

chenyahui管理員

最新文章

網(wǎng)站收藏

中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收

最近發(fā)表

友情鏈接

文章目錄

chenyahui管理員

最新文章

網(wǎng)站收藏

中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收

新澳門今晚一肖-貼切釋義、解釋與落實(shí)?,杜絕虛假的迷魂陣

澳門與香港管家婆100%精準(zhǔn)香港,防范名不副實(shí)廣告-可持續(xù)解讀、解釋與落實(shí)

新澳門跟香港一肖一碼100-準(zhǔn)資料和防范欺詐的假幌子電,閉環(huán)剖析、解釋與落實(shí)

農(nóng)安小院改造最新消息，農(nóng)安小院改造最新動態(tài)揭秘

戳穿:澳門管家婆100%精準(zhǔn)-條理釋義、解釋與落實(shí)?,留心不實(shí)誘導(dǎo)語

弋陽縣疫情最新信息查詢，弋陽縣疫情最新動態(tài)更新

2025新澳門和香港天天開獎免費(fèi)和警惕虛假的假營銷案-扼要釋義、解釋與落實(shí)?

揭示:新澳跟香港2025天天彩資料大全最新版本,謹(jǐn)防誤導(dǎo)的伎倆-精準(zhǔn)解答、解釋與落實(shí)?

青島峻峰水處理設(shè)備有限公司

“澳門最準(zhǔn)一肖一碼一碼孑”·全程督查_青島峻峰水處理設(shè)備有限公司

“二四六香港資料期期準(zhǔn)千附三險阻”·精準(zhǔn)闡述_青島峻峰水處理設(shè)備有限公司

“2025澳門開獎結(jié)果查詢”·持續(xù)跟進(jìn)_青島峻峰水處理設(shè)備有限公司

“澳門一碼一肖一特一中”·實(shí)時評斷_青島峻峰水處理設(shè)備有限公司

“7777788888精準(zhǔn)免費(fèi)4肖”·即刻回應(yīng)_青島峻峰水處理設(shè)備有限公司

“新澳門2025開獎結(jié)果查詢”·熱點(diǎn)篩選_青島峻峰水處理設(shè)備有限公司

“2025新澳天天六開獎?wù)尜Y料”·快速更新_青島峻峰水處理設(shè)備有限公司

最近發(fā)表

友情鏈接

文章目錄

新澳門今晚一肖-貼切釋義、解釋與落實(shí)?,杜絕虛假的迷魂陣

澳門與香港管家婆100%精準(zhǔn)香港,防范名不副實(shí)廣告-可持續(xù)解讀、解釋與落實(shí)

新澳門跟香港一肖一碼100-準(zhǔn)資料和防范欺詐的假幌子電,閉環(huán)剖析、解釋與落實(shí)

農(nóng)安小院改造最新消息，農(nóng)安小院改造最新動態(tài)揭秘

弋陽縣疫情最新信息查詢，弋陽縣疫情最新動態(tài)更新

2025新澳門和香港天天開獎免費(fèi)和警惕虛假的假營銷案-扼要釋義、解釋與落實(shí)?

揭示:新澳跟香港2025天天彩資料大全最新版本,謹(jǐn)防誤導(dǎo)的伎倆-精準(zhǔn)解答、解釋與落實(shí)?