專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
為“大腦”分擔任務 半導體廠商的架構創新方法論
大模型作為近年來最重要的新興計算場景,對芯片的算力和內存需求都提出了極大挑戰。北京大學集成電路學院研究員賈天宇向《中國電子報》記者表示,在傳統摩爾定律難以為繼的背景下,半導體企業需要通過利用架構設計、制造工藝、先進封裝等多個層級協同的設計手段來滿足大模型的計算需求。例如,通過采用異構計算、存算一體、三維堆疊等先進計算理念降低芯片的能耗,提高單一芯片的性能和能效。此外,針對大模型的大算力需求,芯片的可擴展性也變得尤為重要。重視多芯片的系統級擴展和互聯技術,也成為半導體企業技術研發中不可忽視的重要內容。
“在控制大模型帶來的能耗和成本方面,半導體企業可以通過優化計算架構、提升能效等措施,降低大模型的能耗和成本。但針對大規模的大模型訓練,需要與軟件生態、數據中心建設等多環節配合,共同為企業和開發者提供更具成本效益的解決方案。”賈天宇說。
如賈天宇所說,架構創新素來被視為實現芯片技術突破的發動機。在采訪中,多家半導體企業負責人都向記者闡述了基于架構創新和優化為大模型增效降耗的思路。
長期以來,人工智能及其熱門應用常常被喻為“大腦”,比如自動駕駛被喻為“車輪上的大腦”。但是,人腦并不是僅僅依靠大腦工作,腦干、小腦也承擔了許多任務,比如控制心跳和體溫,保持身體的穩定性、協調性等。如果大腦進行所有的決策和控制,人體就很難負擔大腦需要的能量。
比照包含大腦、小腦、腦干的人腦系統,恩智浦半導體執行副總裁兼首席技術官Lars Reger為記者描述了一種更加高效節能的計算體系:以AI算力芯片為“大腦”,進行高效能的計算和加速;以網關處理器為“小腦”,實現不同功能區的互聯和集成,以及異構網絡中的數據處理;以MCU、感知芯片、聯網芯片作為“腦干”,實現感知和實時任務處理。
“有的車廠CEO告訴我們,由于能耗的問題,他們不得不降低汽車的續航,這主要是因為現有的技術架構不夠高效。所以在開發系統時,我們要確保在正常運行的情況下,不需要時刻激活大腦的功能,只要小腦就可以了。比如我們在開車的時候,更多是基于平時的規則和訓練下意識地駕駛,只有遇到挑戰的時候才需要用到大腦。”Lars Reger向《中國電子報》記者表示。
據悉,恩智浦已經將這套計算理念集成到了智能駕駛的技術架構中,架構中“小腦”和“腦干”部分由恩智浦的技術來保障的。S32G作為網關處理器,扮演小腦的角色;S32K等用于車身各部分控制的MCU、S32R等傳感芯片、S32Z等域控制和區域控制芯片以及以太網連接產品,共同構成“腦干”,以應對能耗對續航的局限和挑戰。此外,《中國電子報》記者獲悉,恩智浦即將推出最新的5納米級旗艦產品,能夠把數據從車輛傳輸到控制單元。
跟著最新算法走 隨時提供軟硬件協同方案
隨著業界對大模型的研發和部署逐步深入,新的壓縮、調優方式層出不窮,從算法和框架層面實現對大模型的提效降耗。但算法、框架的更新,需要半導體廠商及時跟上,提供相應的軟硬件協同方案,才能實現新算法、新框架的部署。
比如,大模型的調優方式,正在從完全微調走向更加簡捷、低功耗的微調方式。螞蟻集團聯合多所高校發布的《圍繞綠色計算發展機遇的一項調查》提到,傳統的調優方式會微調所有模型參數,使通用大型語言模型適應特定的目標任務,這一過程稱為完全微調。然而,當大模型的參數規模從百萬、千萬向數億乃至萬億規模發展,完全微調會帶來更長的程序代碼運行時間和高昂的存儲成本。為了解決這個問題,更加簡捷的微調方法已成為大模型的研究熱點。比如PEFT(高效參數微調)僅更新模型參數的子集或附加的模塊,使大模型適配下游任務,以降低微調所需的計算和存儲資源;基于提示的微調則訓練大模型根據特定提示或指令生成響應,引導大模型做出更理想的決策和行動。由于無需添加更多的訓練數據,基于提示的微調能節省大量的時間和成本,以實現更加綠色的計算。
圍繞基于提示的微調等最新微調方式,英特爾基于AI加速引擎和配套的軟件工具,進一步減少了微調所需的工作量。第四代英特爾至強可擴展處理器中內置了矩陣乘法加速器AMX,能夠更快速地處理 BFloat16(BF16)或INT8數據類型的矩陣乘加運算,從而提升模型訓練和推理的性能。尤其對于ChatGLM-6B等在開源微調代碼中支持CPU 自動混合精度的大模型,開發者在啟動微調時加入CPU自動混合精度的使能參數,就可以直接利用矩陣乘法加速器提升大模型的微調計算速度。
英特爾院士、大數據技術全球CTO戴金權向《中國電子報》記者表示,解題大模型功耗和成本壓力的關鍵,是根據不同大模型的最新 技術需求,提供軟硬件協同的支撐方案。
“我們可以通過提供跨平臺的XPU架構和開放的AI軟件架構及優化,為預訓練、微調、推理等不同的AI和大模型應用,提供高效的開發部署平臺。”戴金權告訴記者。據他介紹,英特爾在硬件架構方面,正在基于Gaudi AI加速器,數據中心Max GPU,內置AMX加速的第四代至強處理器,以及邊緣和客戶端處理器為用戶提供XPU異構計算支持。在軟件架構層面,英特爾和社區在PyTorch、DeepSpeed、HuggingFace Transformers等開源項目開展合作,加入了在Intel XPU平臺上的眾多優化。同時,英特爾的開源軟件工具IPEX、BigDL、INC、OpenVINO等,對大模型提供專門的支持和加速。
加速與降耗并行 打造更加節能的基礎設施
數據中心是AIGC和大模型主要的基礎設施之一,也是節能技術的重點發力領域。隨著全球的熱點IT應用地區都在強調綠色數據中心,如何在降低能耗的同時釋放更高效能,成為英偉達、AMD等數據中心芯片供應商的必答題。
圍繞數據中心的減碳需求,AMD宣布了到2025年為人工智能訓練和高性能計算應用程序帶來30倍能效提升的目標。據AMD測算,30倍的能效提升將在2025年節省數十億千瓦時的電力,使系統在五年內完成單次計算所需的電力減少97%。這一方面需要核心制程的提升,另一方面需要架構的改進和技術的創新來提高算力。比如基于一顆第三代AMD EPYC服務器處理器和四個AMD Instinct MI250x GPU的加速節點,AMD實現了在2020年的基準水平之上提高6.79倍能效。
英偉達也將加速計算作為減少功耗的主要策略。加速庫是英偉達加速計算的核心,目前英偉達面向計算機視覺、數據處理、機器學習和 AI 等領域布局了300 個加速庫和400 個 AI 模型。
除了提升計算單元的能效,計算單元構成的AI集群,也對數據中心的整體功耗有著重要影響。在計算單元互聯以構建AI集群,以及集群、設備互聯構建AI計算網絡的過程中,會產生大量網絡數據。若采用傳統的以太網架構,會導致數據流的擁塞和延遲,使系統無法有效利用GPU,從而提升了大模型訓練的時間和成本。
在網絡平臺層面,英偉達推出專門面向AI負載的以太網架構Spectrum-X。該架構基于內置Spectrum-4 AISC芯片的交換機與Blue-Field DPU,提升AI集群的資源利用和數據傳輸效率。在對GPT-3的訓練中,NVIDIA Spectrum-X 網絡平臺相比傳統以太網網絡架構,實現了的 1.7 倍的加速效果。尤其針對數據中心常用的功率封頂措施,Spectrum-4 ASIC能夠簡化網絡設計,提高了每瓦的性能,幫助數據中心控制網絡功率預算。
從計算架構的革新,軟硬件方案的更新,到基礎設施算力和互聯方式的迭代,半導體廠商正在從多個維度緩解大模型帶來的能耗壓力。而大模型的到來,也在倒逼算力系統的創新,為基礎軟硬件的各個節點帶來新的市場機會。
作者:張心怡 來源:中國電子報、電子信息產業網
本文為本網轉載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性,如涉及侵權,請權利人與本站聯系,本站經核實后予以修改或刪除。
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論