中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收

    中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收

    huangshujun 2025-03-07 案例展示 10 次瀏覽 0個評論

    近日,中國科學(xué)院計算技術(shù)研究所處理器芯片全國重點(diǎn)實(shí)驗(yàn)室(以下簡稱“實(shí)驗(yàn)室”)三篇論文《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》被體系結(jié)構(gòu)領(lǐng)域頂級會議HPCA 2025(The International Symposium on High-Performance Computer Architecture,CCF-A類)接收。

    論文

    《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》

    第一作者為實(shí)驗(yàn)室集成電路課題組博士生楊英豪,指導(dǎo)教師為路航副研究員和李曉維研究員。Hydra是面向基于全同態(tài)加密的深度學(xué)習(xí)推理(包括CNN和LLM)硬件加速架構(gòu)?,F(xiàn)有的垂直擴(kuò)展(Scale-up)全同態(tài)加速器通過堆疊大量的計算和存儲資源實(shí)現(xiàn)較高的并行計算能力和吞吐性能。然而,隨著深度學(xué)習(xí)模型規(guī)模的不斷增大,這種設(shè)計模式必然會面臨物理極限,難以無限制的增加硬件資源來應(yīng)對急速膨脹的密態(tài)推理計算負(fù)載。本文提出的Hydra架構(gòu)將視角從底層硬件計算單元的高并行和高吞吐轉(zhuǎn)向密態(tài)深度學(xué)習(xí)推理中豐富的應(yīng)用級并行性。通過高效的硬件架構(gòu)、任務(wù)分解、資源分配策略以及卡間同步機(jī)制的設(shè)計與協(xié)同,實(shí)現(xiàn)了能夠充分利用應(yīng)用級并行性的可橫向擴(kuò)展(Scale-out)全同態(tài)加速器。該架構(gòu)能夠根據(jù)具體模型動態(tài)調(diào)整任務(wù)映射策略并最大化的掩蓋計算節(jié)點(diǎn)間的通信開銷以提高系統(tǒng)性能。在密態(tài)CNN和LLM推理評估中,Hydra的性能遠(yuǎn)超目前最先進(jìn)的全同態(tài)加密FPGA加速器方案,并且在8卡下的性能超過大多數(shù)ASIC加速器方案。團(tuán)隊在2023年HPCA會議上就發(fā)表了全同態(tài)加密硬件加速架構(gòu)的論文。在近幾年的研究過程中,陸續(xù)開發(fā)了多款面向主流全同態(tài)加密算法的FPGA加速器原型和配套軟件庫——Poseidon,為全同態(tài)加密硬件加速的學(xué)術(shù)研究起到了推動作用。

    圖1 Hydra基于Scale-out設(shè)計思想的全同態(tài)加密硬件加速架構(gòu)

    論文

    《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》

    第一作者為實(shí)驗(yàn)室集成電路課題組碩士生袁梓銘,指導(dǎo)教師為梁勝文副研究員、王穎研究員和李曉維研究員。NeuVSA是基于乘積量化算法的統(tǒng)一神經(jīng)向量檢索加速器設(shè)計。神經(jīng)向量檢索(Neural Vector Search,NVS)涉及向量生成階段和向量檢索階段,前者利用神經(jīng)網(wǎng)絡(luò)將圖片、文本等數(shù)據(jù)的語義映射到高維向量,后者利用高維向量完成數(shù)據(jù)檢索。然而,向量生成階段和檢索階段的計算模式截然不同,現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器或向量檢索加速器僅聚焦單一階段,無法兼顧兩者。簡單地組合現(xiàn)有加速器,則存在并行度不足、數(shù)據(jù)訪問沖突頻繁等問題,難以達(dá)到最佳的召回率、延遲和吞吐量。本文提出的NeuVSA,采用算法和架構(gòu)協(xié)同設(shè)計的理念,在算法層面提出基于可學(xué)習(xí)乘積量化統(tǒng)一NVS算法,不僅實(shí)現(xiàn)了計算模式上的統(tǒng)一,還能夠提高檢索效果;在架構(gòu)層面定制專用加速器,通過挖掘算法中的并行性,結(jié)合結(jié)構(gòu)化索引分配策略以及硬件感知調(diào)度策略等技術(shù),降低數(shù)據(jù)訪問沖突并提高吞吐量。相比于現(xiàn)有方法,NeuVSA在提升檢索效果的同時,降低了檢索延遲、能耗和芯片面積,能夠適應(yīng)大規(guī)模的神經(jīng)向量檢索場景的需求。

    圖2 NeuVSA加速器的架構(gòu)

    論文

    《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》

    共同第一作者為實(shí)驗(yàn)室智能計算機(jī)課題組博士生劉煉和趙世新,指導(dǎo)教師為王穎研究員。Hermes是一個面向大語言模型(LLM)本地部署的低成本近存擴(kuò)展系統(tǒng),有效地解決了LLM本地部署的痛點(diǎn)。隨著LLM在各種任務(wù)中的卓越表現(xiàn),如代碼生成、機(jī)器翻譯和聊天機(jī)器人等,其部署成本的高昂成為了普及的一大障礙。傳統(tǒng)的LLM部署需要昂貴的服務(wù)器級GPU和大容量HBM存儲,這限制了它們在更廣泛場景中的應(yīng)用。 Hermes系統(tǒng)通過巧妙地利用近數(shù)據(jù)處理單元(NDP)增強(qiáng)的DRAM DIMM,顯著提高了消費(fèi)級GPU的性能,使得在預(yù)算友好的硬件上部署LLM成為可能。與此同時,Hermes 系統(tǒng)有效的利用參數(shù)分布的冷熱特性和近存計算的特點(diǎn),突破了現(xiàn)有解決方案中主機(jī)和GPU內(nèi)存之間帶寬限制的性能瓶頸。這項(xiàng)研究不僅提出了一種新穎的異構(gòu)計算策略,將LLM中的“熱”神經(jīng)元映射到計算效率高的GPU上,而將“冷”神經(jīng)元卸載到存儲容量大但計算能力有限的NDP-DIMMs上,還引入了一個輕量級預(yù)測器,以實(shí)時預(yù)測和調(diào)整神經(jīng)元的分區(qū),并通過基于窗口的在線調(diào)度機(jī)制保持多個NDP-DIMM模塊之間的負(fù)載平衡。這樣的設(shè)計充分利用了GPU的計算能力和NDP-DIMMs的存儲能力。與現(xiàn)有的基于卸載的推理系統(tǒng)相比,Hermes在流行LLM上實(shí)現(xiàn)了平均75.24倍的速度提升,為LLM的部署和應(yīng)用開辟了新的可能性。此外,Hermes 能夠取得與具有昂貴的服務(wù)器級GPU和大容量HBM存儲的LLM推理系統(tǒng)相近的LLM部署性能,而僅需要約5%的成本。 隨著Hermes系統(tǒng)的進(jìn)一步發(fā)展和應(yīng)用,我們有理由相信,它將為LLM技術(shù)的普及和應(yīng)用帶來革命性的變化,讓更多的企業(yè)和研究團(tuán)隊能夠負(fù)擔(dān)得起并充分利用LLM的強(qiáng)大能力。

    圖3 Hermes System : 基于DIMM近存的低成本LLM推理系統(tǒng)擴(kuò)展

    HPCA主要收錄計算機(jī)體系結(jié)構(gòu)創(chuàng)新、高性能計算,處理器設(shè)計及其相關(guān)軟硬件技術(shù)的前沿研究成果。自1995年創(chuàng)辦以來,HPCA已經(jīng)成為計算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級會議,是全球計算機(jī)體系結(jié)構(gòu)領(lǐng)域最為重要的學(xué)術(shù)會議之一,對于推動該領(lǐng)域的研究和發(fā)展起到了至關(guān)重要的作用。第31屆HPCA會議將在美國拉斯維加斯舉行,本屆會議的學(xué)術(shù)論文錄用率為21%(包括conditional accept)。

    處理器芯片全國重點(diǎn)實(shí)驗(yàn)室依托中國科學(xué)院計算技術(shù)研究所,是中國科學(xué)院批準(zhǔn)正式啟動建設(shè)的首批重點(diǎn)實(shí)驗(yàn)室之一,并被科技部遴選為首批 20個標(biāo)桿全國重點(diǎn)實(shí)驗(yàn)室,2022年5月開始建設(shè)。實(shí)驗(yàn)室學(xué)術(shù)委員會主任為孫凝暉院士,實(shí)驗(yàn)室主任為陳云霽研究員。實(shí)驗(yàn)室近年來獲得了處理器芯片領(lǐng)域首個國家自然科學(xué)獎等6項(xiàng)國家級科技獎勵;在處理器芯片領(lǐng)域國際頂級會議發(fā)表論文的數(shù)量長期列居中國第一;在國際上成功開創(chuàng)了深度學(xué)習(xí)處理器等熱門研究方向;直接或間接孵化了總市值數(shù)千億元的國產(chǎn)處理器產(chǎn)業(yè)頭部企業(yè)。

    轉(zhuǎn)載請注明來自青島峻峰水處理設(shè)備有限公司,本文標(biāo)題:《中國科學(xué)院處理器芯片全國重點(diǎn)實(shí)驗(yàn)室三篇論文獲HPCA 2025接收》

    百度分享代碼,如果開啟HTTPS請參考李洋個人博客
    每一天,每一秒,你所做的決定都會改變你的人生!
    Top
     馬龍區(qū)食堂招聘信息最新  蕪湖人行劉軍最新信息  房管局最新動態(tài)信息  永新金都城招聘信息最新  三塔疫情最新信息  呼市伊利最新招聘信息  蕪湖公交最新招聘信息  民和找工作招聘信息最新  王力集團(tuán)招聘信息最新  云露之城招聘信息最新  寧夏鎮(zhèn)寧最新房價信息  齊河最新招聘電工信息  沙坪壩康橋最新報價信息  滄州大運(yùn)河發(fā)布信息最新  最新植發(fā)醫(yī)生招聘信息  平?jīng)鰶艽ㄗ钚侣窙r信息  陽信抗疫最新信息圖片  鄭州返鄉(xiāng)最新路況信息  云峰國際最新動態(tài)信息  華中焦炭最新信息披露  環(huán)保英才最新招聘信息  大洋路招聘司機(jī)最新信息  尋甸縣大棚轉(zhuǎn)讓最新信息  泉州最新解封動態(tài)信息  重慶彈子石最新頭條信息  濠城門面出售最新信息  青鳥藥企招聘信息最新  北京天寧寺最新房價信息  孝義最新招聘信息查詢  韓城西航招聘信息最新