由人工智慧驱动的设计应用
本文原文由张贴
英文原文:
数十年来,低功耗设计方面的議題一直被廣泛討論。然而,隨著製程幾何尺寸的縮減,相關的功耗挑戰也隨之"加劇;同時,對低功耗元件的需求,也隨著應用場景(use case)的發展而呈指數級增長。
各家廠商持續針對可攜、手持式設備的特色與新功能不斷創新,已是不爭的事實,但此類設備都需要盡可能地降低功耗(對於消費者而言,這也是产物差異的關鍵因素),藉此以延長電池壽命。由於智慧型手機已普及了十多年,因此行動設備方面的设计挑戰也就相對地廣為周知。
但對於「插入式」(plug-in)产物而言,功耗效率(power efficiency)的重要性日益受到重視。因為它對於建構一個系統(需要散熱器以及複雜冷卻系統)以及設備運作(如:對於使用大規模並聯系統的伺服器farm而言,降低單一晶片的功耗可讓公司達到顯著的整體節能─甚至有助於更為環保的營運方式)的總體成本會帶來顯著的影響。
设计團隊在低功耗領域真正所面臨且務必解決的大問題,正是AI晶片,尤其是高效能运算(贬笔颁)應用中所採用的各式晶片。雖然將AI晶片應用於資料中心和其他HPC時,並沒有傳統行動設備方面的限制(如電池壽命、便攜性);但其仍對AI所需更小、更密集、更新穎的架構以及製程方面,帶來全新的功耗挑戰。傳統上對於效能、功率、面積 (PPA) 的追求,依然受「盡量達到最高效能」的需求所主導。但是,現今效能實際上已受到功耗的限制。要針對晶片上的每一部分都提供穩定電源、又不必擔心散逸熱能會影響晶片的可靠度與造成熱失控(thermal run-away),顯得相當困難。
高階 AI 晶片的功耗將對整體功能、可製造性、成本與可靠性產生重大影響。因此,设计團隊必須開發出更為聰明的功耗设计方法,並採用細緻的功耗分析技術及工具。
低功耗设计就是要降低積體電路(IC)的整體動態(dynamic)與靜態(static)功耗。動態功耗包括開關功耗與短路功耗,而靜態功耗則是漏電或元件處於非活動狀態時流過電晶體的電流所產生的功耗。
漏電功耗是设计團隊於90到16 奈米製程幾何尺寸的主要問題,在這個尺寸範圍內,動態功耗(10-15%)問題與漏電功耗(85-95%) 相比之"下較輕微。但若是16到14奈米尺寸,動態功耗問題比起漏電功耗則更為顯著。這種問題占比的變化,也呼應了電晶體架構由平面裝置轉換為 FinFET的变化─贵颈苍贵贰罢是一种构建於基板上的多闸极元件,其将闸极置於通道的两侧、叁侧或四侧或围绕通道,形成一种双闸极(诲辞耻产濒别-驳补迟别)的3顿架构。
然而,在7、5 與3奈米的製程節點以及類似「閘極全環」(gates all around)的架構中,漏電功率又再度成為主要的問題之"一。如今,设计團隊正回頭摸索過往设计中擱置不談的選項,以盡可能找出提升设计功耗與效能的方法。對於降低先進製程中額外设计裕度(margin)的必要性已廣為討論一段時間,但實際上能對此有所貢獻的技術能力則散見於设计流程的各個部分。話雖如此,人們對於解決此類問題的技術及方法已相當熟悉,但時至今日才剛剛開始真正瞭解如何準確地使用這些技術。
傳統上,低功耗设计是由對晶片具有完整系統層級認識的架構師督導。架構師指導團隊的其他人員使用特定功能向量(functional vector)來分析功耗─但這是一種效果非常有限的设计方法。
如今,您會發現由硬體、軟體與架構領域的團隊成員從零開始的攜手合作(通常為並行工作)。多年來,人們對於在同一设计中採用多元團隊以及跨領域融合,已討論多時;但這對於實現新一代人工智慧晶片而言,卻扮演著極為重要的角色。
因此,團隊必須深入瞭解功耗在軟體開發、硬體设计以及製造方面所造成的影響。新的设计方法側重於並行设计,以求儘早優化PPA且避免成本高昂的下游重新设计。
低功耗设计並非一蹴可幾。其涉及一系列降低整體動態與靜態功耗的技術及方法。一般而言,最佳化的功耗需要貫穿整個晶片设计的流程,其设计及验证方法有以下五大主要階段:
新思科技能夠提供已經過验证的低功耗设计流程及解决方案,範圍涵蓋低功耗设计及验证─包含必要的工具與整合,可於设计過程各階段支援並解決功耗問題。
向量品質(quality of vectors)是動態功耗分析與優化最關鍵的部分。向量品質是依SoC於系統實際運作時所見的真實活動狀況而定。如前所述,傳統的功耗分析過程需要與SoC架構師進行核對,以確認能夠用於功耗分析及優化的向量。但所採用的向量並不一定涵蓋所有面向與情境。
為求準確預測SoC的功耗量,设计人員會將SoC 置於能真實呈現SoC 如何被使用的測試環境(test bench)中。而這個能夠執行實際應用的最佳系統,稱之"為仿真模拟(emulation)系統。
人們需要高效能的工具,才能執行AI晶片功耗分析所需的大量資料數據。即便只是在仿真模拟器上執作應用程式短短幾秒鐘,產生的資料數據也會相當巨量(由數萬億或數十億個時脈週期所組成的上百GB資料量)。為能幫助解決這個問題,仿真模拟系統內的功耗分析功能可確立功耗分析的關鍵時間區間(window of interest),並將區間數由數十億縮減至數百萬乃至數千,使仿真模拟系統提供的功耗分析更為實用。
新思科技的 窜别叠耻伺服器是業界最快速的仿真模拟系統─採用獨特的快速仿真架構、最先進的商用FPGA與基於FPGA的創新仿真軟體,可提供相當於傳統仿真解决方案兩倍的效能。這些軟體方面的創新,讓用戶能夠更快速地進行編譯(compile)、實施進階除錯(debug),包括與Verdi的緊密整合(native integration)、仿真加速、混合仿真─當然也包含功耗分析。
此外,因應AI晶片设计而出現的「第三維度」(third dimension)—溫度,是行動晶片设计中較不受重視的影響因素。能在设计先期階段利用仿真模拟產出熱圖(heat map),對於整體设计過程而言將發揮重要影響。
在AI晶片的低功耗设计方面,若要打造一支來自諸多不同領域且能緊密合作的设计專業團隊,採用新方法或新工具(例如仿真功能)將不可或缺。
欲更加深入了解低功耗设计的資訊,請造訪新思科技官網设计與验证專區:Silicon Design & Verification。