由人工智慧驱动的设计应用
英文原文:
2023年4月25日於《Semiconductor Engineering》刊登
將晶片设计到晶片製造的資料全部整合於單一平台
产物工程師的一天通常是怎麼度過的呢?他們先在製造過程中完成必要的晶圓分類測試,然後選出良好晶粒組裝至各別封裝中。在最終測試期間執行一系列參數測試時,會碰上良率(yield)問題,並開始尋找問題根源。好消息是,借助良好的資料分析解决方案,人們可以透過先前的大批量測試製程階段(如:組裝、晶圓分類、晶圓驗收測試)以及前期NPI製程階段來追溯晶片生命週期。在设计方面,則可運用診斷資料、矽前(pre-silicon)時序及矽後(post-silicon)故障分析(Failure Analysis, FA)等工具。
透過早期組裝、晶圓分類和晶圓驗收測試(Wafer Acceptance Test, WAT)資料對不良的封裝晶粒(die)進行追溯,我們發現這些晶粒未通過最終測試的原因互不相關。然而,與診斷資料的關聯性則說明,晶圓圖(wafer map)上未通過晶圓分類特定掃描測試的晶粒,與無法通過最終測試的封裝晶粒,在地理空間上十分相近。此外,人們並未對未通過特定掃描測試的晶片進行故障分析,理由在於它們不被認為是初期生產(In-Ramp) 期間的主要系統良率問題之"一。但診斷資料清楚表明,未通過掃描極有可能是晶片當中幾處關鍵路徑的時序問題所致,肇因於數次轉態延遲障礙(Transition Delay Fault, TDF)掃描測試失敗。
迅速解决此类时序问题的其中一种方法,就是回归到硅前时序模型并降低所有元件的降额(诲别谤补迟别)值,同时重新进行合成及佈局绕线以满足实际晶片的时序需求。然而,这将导致非必要的晶片区域需使用更大且更快的元件,并耗费更多功率,从而造成电池寿命问题或可能让设备的使用寿命随着时间缩短。
除了上述方法外,其實還有更好的解决方案。首先,工程師可將前期 NPI測試晶片(test chip)的實際監控與感測器(sensor)資料發送到計時工具,使其重新校準計時模型以提升精度;接著評估診斷報告提出的數個失敗路徑,以查詢相關路徑中是否有任何元件存在時序問題,意即確認是否有任何元件包含「負」值的時序餘裕(slack),以解釋掃描測試失敗的原因。假設發現多個故障路徑內所有元件中有某一特定資料庫元件(library cell)產生顯著延遲,因而導致時序問題—在此範例中,為能確認結果,我們需要將最終測試中的數份未通過測試的封裝晶粒及詳細診斷資料發送到故障分析工具,以執行進一步電性(electrical)及物理性(physical)故障分析;此時我們發現,該問題元件的速度確實很慢,可以將其視為在實際晶片上造成時序問題的原因。
為何未通過最終測試的元件數量,會高於晶圓分類期間未通過掃描測試的元件數呢?這是因為測試環境條件的不同所致。進一步分析(如:自動Vmin分析)顯示這些晶粒運行時所需的電壓。此範例指出,允許元件通過的最小工作電壓可能超出此晶片規格的功率/效能規範配置要求,因而需要進行设计變更。
本範例中的设计變更僅需要降低慢速資料庫元件的降額值,以便在合成、佈局和繞線期間選擇不同但更快且更大的替換元件。晶圓代工廠也會收到緩慢且不準確的原始元件模型通知。雖然選用的新元件將產生比特定設備所需更高的功率,但可識別能夠降級(較慢且較小)的其他元件,以補償新元件所需的額外功率,藉此保有相同的整體功率和效能。
這只是产物工程師經常遇到的問題之"一。若缺乏合適的分析解决方案提供有別於傳統的獨特見解、晶粒到晶粒(die-to-die)的可追溯性以及跨生命週期所有階段資料類型的關聯性,要找出並解決上述問題可能需要數月的時間—而不僅僅是數天或幾週。不幸的是,即便好不容易找到並解決此問題,其最終成果可能伴隨潛在收入損失、報廢意外故障設備和昂貴封裝,導致製造成本增加。而測試人員也會因為耗費大量工時,進而衍生經常性成本(recurring cost)。
新思科技SLM解决方案
如下圖1所示,晶片生命週期管理(Silicon Lifecycle Management, SLM)的產業發展願景是提供監測矽晶整體生命週期健康狀況的能力,從早期设计到製造,乃至於矽晶的現場(in-field)使用。然而,它不僅可以監控矽晶的健康狀況,更可優化晶片的功耗和效能等運作指標,對其產生直接的正面影響。此外,它也能快速執行根本原因分析(root cause analysis),以側錯並排除晶片製程中任何特定節點的重大良率或品質問題。
图1:新思科技厂尝惭-生命週期阶段
然而,對於當今的先進晶片、SoC 和多晶粒系統(multi-die system)而言,其規模和複雜性仍在顯著增加,因此在整體晶片生命週期內進行監控、優化和偵錯實屬不易。此外,设计、製造和測試過程也相當繁複,需要許多不同的資料類型來支持,使得這項挑戰更加艱鉅。
此解决方案以來自晶片的資料為中心,並能滿足以下要求:
上述要求都是當今IC设计公司和垂直整合製造商(IDM)的首要考慮因素。下圖2顯示生命週期階段的相關流程步驟,以在矽晶整體生命週期中對其進行監測、優化和偵錯。
图2:新思科技厂尝惭-执行步骤
统一平台的优势和必要性
晶片生命週期各階段都有其獨一無二的挑戰,包括设计中的设计裕度、初期生產(Ramp)階段的系統良率問題、生產階段的品質偏差和新發現的良率問題,以及現場使用(in-field)時的可維護性和可靠性。上述每項挑戰都需要各別的解决方案。然而,除非這些挑戰能在生命週期各個階段被發現,否則隨著生命週期階段的進展,它們將越來越難被識別並隔離。
正如上述範例所示,鉅細靡遺審視不同生命週期階段以確定根本原因並非易事。這需要矽晶層級的可追溯性以及諸多不同資料類型之"間的自動關聯功能。因此,對於複雜的先進節點设计而言,擁有統一整合的晶片生命週期解决方案至關重要,可以快速識別根本原因,並盡量減少該問題造成的影響與嚴重後果,例如:产物收入損失、製造成本增加或公共安全問題。
新思科技已投入资源建立新的SLM分析解决方案解決此類重要問題,該解决方案將设计及产物製造階段全面整合於統一平台,如圖3所示。
此統一解决方案可在以下三大關鍵重點領域帶來優勢:生产力、效率及可扩展性。
生产力
現今,大多數資料不是由於資料量過於龐大而未被工程師善用,就是缺乏查找資料本身存在的議題的自動化功能。借助此一解决方案,工程師能夠從彙整至同一解决方案的所有資料中即時獲取數值。自動問題分析和識別功能
圖3:從设计到製造的整合式SLM分析解决方案
以「見解」形式呈現。元件層級(part-level)的可追溯性和偵錯,能提供快速根本原因分析並回饋成為供應鏈的更正措施。次晶粒(sub-die)分析也可用於早期NPI产物階段以識別系統問題,並執行進一步故障分析,以排除良率問題和大批量生產阻礙。
效率
將監控器納入设计中,可反饋監控器資料以執行设计校準,進而實現晶片功耗和效能優化。此一功能於製造供應鏈的生產控制過程中,能提供用於品質優化的自動配置流程,包含異常值檢測技術。藉由良率趨勢分析、診斷和故障分析與设计和/或製程改良的整合,可達成全面良率提升。另外,測試機群整體設備效率(Overall Equipment Effectiveness, OEE)分析可優化晶片生產量。而ATE 測試元件可提供即時資料收集和生產控制,以快速糾正潛在問題,進而節省測試成本和預防品質缺失。
可扩展性
此解决方案的進階产物架構可容納千兆位元組(petabyte)的各種資料類型,涵蓋设计、監控、診斷、製造和生產測試,而大多數分析工具無法處理具備如此廣度或深度的資料。擁有能夠處理大量資料的解决方案對於及時執行根本原因分析至關重要,尤其是在下游製造流程中的矽晶片問題偵錯、商品退貨授權(Return Merchandise Authorization, RMA)偵錯或執行歷程記錄分析等階段。此外,為用戶提供雲端處理和資料儲存的彈性選項也有其重要性。
關於SLM和此統一解决方案的詳細資訊請至新思科技Silicon Lifecycle Management Platform (synopsys.com)查询或发送电子邮件至 SLM@synopsys.com洽询。