全球熱訊:AI芯片
2023-04-14 15:29:37 來源:雪球網 小 中
AIGC產業鏈主要分為上游算力硬件層、中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、服務器和數據中心為AIGC模型的訓練提供算力支持,是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、清洗、標注及模型的開發與訓練,多方廠商入局自然語言處理、計算機視覺、多模態模型等領域;行業應用層目前主要涉及搜索、對話、推薦等場景,未來有望在多個行業呈現井噴式革新。位于算力硬件層的AI芯片是人工智能的底層基石。
(資料圖片僅供參考)
2014年李天石博士“DianNao”系列論文讓科學界看到,在馮諾依曼架構下也可以實現AI專用芯片。此后Google推出的TPU運算架構的AlphaGo,接連打敗李世石和柯潔,看到了專用芯片的商業價值。人工智能經歷過三階段,迎來爆發式增長。
AI人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法,其次是半導體集成電路AI芯片。AI的發展一直伴隨著半導體芯片的演進過程,20世紀90年代,貝爾實驗室的楊立昆(YannLeCun)等人一起開發了可以通過訓練來識別手寫郵政編碼的神經網絡,但在那個時期,訓練一個深度學習卷積神經網絡(Convolutional Neural Network,CNN)需要3天的時間,因此無法實際使用,而硬件計算能力的不足,也導致了當時AI科技泡沫的破滅。
AI芯片是AI發展的底層基石。英偉達早在1999年就發明出GPU,但直到2009年才由斯坦福大學發表論文介紹了如何利用現代GPU遠超過多核CPU的計算能力(超過70倍),把AI訓練時間從幾周縮短到了幾小時。算力、模型、數據一直是AI發展的三大要素,而AI芯片所代表的算力則是人工智能的底層基石。
根據機器學習算法步驟,AI芯片分為“訓練(Training)”芯片和“推理(Inference)”芯片。“訓練芯片”主要用于人工智能算法訓練,即在云端將一系列經過標記的數據輸入算法模型進行計算,不斷調整優化算法參數,直至算法識別準確率達到較高水平。“推理芯片”主要用于人工智能算法推理,即將在云端訓練好的算法模型進行裁剪優化變“輕”之后,進入“實戰”階段,輸入數據直接得出準確的識別結果。
不同用途(訓練or推理)、不同應用場景(端-邊-云)對AI芯片有著不同的要求。首先,訓練芯片追求的是高計算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延時(完成推理過程所需要的時間盡可能短)、低功耗。其次,“端-邊-云”三個環節對AI芯片的有不同的要求——其中端和邊上進行的大部分是AI“推理”,因此用于端和邊的AI芯片性能要求和上述推理芯片一致;大部分的訓練過程是在云和數據中心進行,訓練過程對時延沒有什么要求,因此需要保證AI芯片在盡可能保證較高算力的情況下,功耗盡可能低,另外許多推理過程也是在云端進行。
根據部署場景,AI 芯片可用于端、邊、云三種場景,具體而言:1)終端 AI 芯片追求以低功耗完成推理任務,以實際落地場景需求為導向,在能耗/算力/時延/成本等方面存在差異;2)邊緣 AI 芯片介于終端與云端之間,承接低時延/高隱私要求/高網絡帶寬占用的推理或訓練任務;3)云端 AI 芯片以高算力/完成訓練任務為目標,包括 CPU/GPU/FPGA/ASIC 等多種類型。
從技術架構來看,AI芯片主要分為圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)、中央處理器(CPU)四大類。其中,GPU是較為成熟的通用型人工智能芯片,FPGA和ASIC則是針對人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC作為加速芯片協助CPU進行大規模計算。
三類芯片用于深度學習時各有優缺點:1)通用性:GPU>FPGA>ASIC,通用性越低,代表其適合支持的算法類型越少。2)性能功耗比:GPU 目前AI芯片主要被國際廠商壟斷,根據Co unterpoint、IDC數據,Intel和AMD共計占2022年全球數據中心CPU市場收入的92.45%,Nvidia占2021年中國加速卡市場份額的80%以上。 CPU(Central Processing Unit)中央處理器:是計算機的運算和控制核心(Control Unit),是信息處理、程序運行的最終執行單元,主要功能是完成計算機的數據運算以及系統控制功能。 CPU擅長邏輯控制,在深度學習中可用于推理/預測。在深度學習中,模型的訓練和推理是兩個不同的過程:在訓練過程中,模型需要進行大量的矩陣運算,因此通常使用GPU等擅長并行計算的芯片進行處理;在推理過程中,需要對大量的已經訓練好的模型進行實時的推理/預測操作,而這種操作通常需要高效的邏輯控制能力和低延遲的響應速度,這正是CPU所擅長的。 GPU(Graphics Processing Unit)圖形處理器:GPU最初是為了滿足計算機游戲等圖形處理需求而被開發出來的,但憑借高并行計算和大規模數據處理能力,逐漸開始用于通用計算。根據應用場景和處理任務的不同,GPU形成兩條分支: 傳統GPU:用于圖形圖像處理,因此內置了一系列專用運算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等; GPGPU:通用計算圖形處理器(general-purpose GPU)。為了更好地支持通用計算,GPGPU減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計算中,同時增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以實現人工智能、專業計算等加速應用。 GPU在AI模型構建中具有較高的適配性。GPU的高并行性可以更好地支持AI模型訓練和推理過程中大量的矩陣或向量計算,以NVIDIAGPU系列旗艦產品A100為例:根據NVIDIA公布的規格參數,A100的深度學習運算性能可達312Tflops。在AI訓練過程中,2048個A100GPU可在一分鐘內成規模地處理BERT的訓練工作負載;在AI推理過程中,A100可將推理吞吐量提升到高達CPU的249倍。 AI模型與應用的加速發展推動GPU芯片放量增長。根據Verified Market Research數據,2021年全球GPU市場規模為334.7億美元,預計2030年將達到4773.7億美元,CAGR(2021-2030)為34.35%。從國內市場來看,2020年中國大陸的獨立GPU市場規模為47.39億元,預計2027年市場規模將達345.57億美元,CAGR(2021-2027)為32.8%。 FPGA(Field Programmable Gate Array)現場可編程門陣列:FPGA最大的特點在于其現場可編程的特性,無論是CPU、GPU還是ASIC,在芯片制造完成后功能會被固定,用戶無法對硬件功能做出更改,而FPGA在制造完成后仍可使用配套軟件對芯片進行功能配置,將芯片上空白的模塊轉化為自身所需的具備特定功能的模塊。 FPGA可以在運行時根據需要進行動態配置和優化功耗,同時擁有流水線并行和數據并行能力,既可以使用數據并行來處理大量數據,也能夠憑借流水線并行來提高計算的吞吐量和降低延遲。根據與非網數據,FPGA(Stratix10)在計算密集型任務的吞吐量約為CPU的10倍,延遲與功耗均為GPU的1/10。 云端推斷:在面對推斷環節的小批量數據處理時,GPU的并行計算優勢不明顯,FPGA可以憑借流水線并行,達到高并行+低延遲的效果。根據IDC數據,2020年中國云端推理芯片占比已超過50%,預計2025年將達到60.8%,云端推斷市場廣闊。 邊緣推斷:受延遲、隱私和帶寬限制的驅動,FPGA逐漸被布署于IoT設備當中,以滿足低功耗+靈活推理+快速響應的需求。 暗硅效應(Dark Silicon)指由于芯片工藝和尺寸的限制,芯片上只有一小部分區域可以同時運行,其余的區域被閑置或關閉,這些閑置或關閉的區域被稱為“暗硅”。在AI計算領域,由于摩爾定律的限制和散熱問題,先進高效的硬件設計會更容易導致暗硅效應,限制了芯片的計算能力和應用范圍。據相關論文,在22nm制程下,暗硅面積將達21%。在8nm制程下,暗硅面積將提升至50%以上。由于暗硅效應,預計到2024年平均只能實現7.9倍的加速比,與每代性能翻倍的目標相比差距將近24倍。 FPGA的可編程性和可重構性使其能夠靈活地部署和優化計算任務,從而在一定程度上緩解了暗硅效應的影響。簡單來說,FPGA減少暗硅效應的方法有兩個方向,一是通過優化電路結構,盡可能減少不活躍區域的數量;二是通過動態重構電路,使得不活躍區域可以被重用。 ASIC(Application Specific Integrated Circuit)專用集成電路:是一種為專門應特定用戶要求和特定電子系統的需要而設計、制造的集成電路。ASIC具有較高的能效比和算力水平,但通用性和靈活性較差。 能效方面:由于ASIC是為特定應用程序設計的,其電路可以被高度優化,以最大程度地減少功耗。根據Bob Broderson數據,FPGA的能效比集中在1-10MOPS/mW之間。ASIC的能效比處于專用硬件水平,超過100MOPS/mW,是FPGA的10倍以上。 算力方面:由于ASIC芯片的設計目標非常明確,專門為特定的應用場景進行優化,因此其性能通常比通用芯片更高。根據頭豹研究院數據,按照CPU、GPU、FPGA、ASIC順序,芯片算力水平逐漸增加,其中ASIC算力水平最高,在1萬-1000萬Mhash/s之間。 隨著技術、算法的普及,ASIC將更具備競爭優勢。ASIC在研發制作方面一次性成本較高,但量產后平均成本低,具有批量生產的成本優勢。目前人工智能屬于大爆發時期,大量的算法不斷涌出,遠沒有到算法平穩期,ASIC專用芯片如何做到適應各種算法是當前最大的問題。但隨著技術、算法的普及,ASIC將更加具備競爭優勢。 ASIC主要應用在推斷場景,在終端推斷市場份額最大,在云端推斷市場增速較快。 全球服務器CPU市場目前被Intel和AMD所壟斷,國產CPU在性能方面與國際領先水平仍有差距。根據Counterpoint數據,在2022年全球數據中心CPU市場中,Intel以70.77%的市場份額排名第一,AMD以19.84%的份額緊隨其后,剩余廠商僅占據9.39%的市場份額,整體上處于壟斷局面;目前國內CPU廠商主有海光信息、海思、飛騰、龍芯中科、申威等。通過產品對比發現,目前國產服務器CPU性能已接近Intel中端產品水平,但整體上國內CPU廠商仍在工藝制程、運算速度(主頻)、多任務處理(核心與線程數)方面落后于國際先進水平。 全球GPU芯片市場主要由海外廠商占據壟斷地位,國產廠商加速布局。全球GPU市場被英偉達、英特爾和AMD三強壟斷,英偉達憑借其自身CUDA生態在AI及高性能計算占據絕對主導地位;國內市場中,景嘉微在圖形渲染GPU領域持續深耕,另外天數智芯、壁仞科技、登臨科技等一批主打AI及高性能計算的GPGPU初創企業正加速涌入。 圖形渲染GPU:目前國內廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU采用5nm工藝制程,與Nvidia最新一代產品RTX40系列持平,實現國產圖形渲染GPU破局。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于Nvidia同代產品,但差距正逐漸縮小。 在GPGPU方面,目前國內廠商與Nvidia在GPGPU上仍存在較大差距。制程方面,目前Nvidia已率先到達4nm,國內廠商多集中在7nm;算力方面,國內廠商大多不支持雙精度(FP64)計算,在單精度(FP32)及定點計算(INT8)方面與國外中端產品持平,天數智芯、壁仞科技的AI芯片產品在單精度性能上超過NVIDIAA100;接口方面,壁仞科技與Nvidia率先使用PCle5.0,其余廠商多集中在PCle4.0;生態方面,國內企業多采用OpenCL進行自主生態建設,與NvidiaCUDA的成熟生態相比,差距較為明顯。 FPGA全球市場呈現“兩大兩小”格局,Altera與Xilinx市占率共計超80%,Lattice和Microsemi市占率共計超10%;整體來看,安路科技、紫光同創等廠商處于國際中端水平,仍需進一步突破。工藝制程方面,當前國產廠商先進制程集中在28nm,落后于國際16nm水平;在等效LUT數量上,國產廠商旗艦產品處于200K水平,僅為XILINX高端產品的25%左右。 ASIC不同于CPU、GPU、FPGA,目前全球ASIC市場并未形成明顯的頭部廠商,國產廠商快速發展;通過產品對比發現,目前國產廠商集中采用7nm工藝制程,與國外ASIC廠商相同;算力方面,海思的昇騰910在BF16浮點算力和INT8定點算力方面超越Googel最新一代產品TPUv4,遂原科技和寒武紀的產品在整體性能上也與Googel比肩。未來國產廠商有望在ASIC領域繼續保持技術優勢,突破國外廠商在AI芯片的壟斷格局。 大模型云端訓練多數情況下都在FP32計算精度上,推理端則以FP16和混合精度為主。算力越強,模型效率越高。FPGA和GPU對比,雖然FPGA吞吐率、性能功耗比優于GPU,但是FPGA存在兩個天然缺陷,FPGA只適合做定點運算,不適合做浮點運算,如果用來做浮點運算耗費邏輯很大,而且有些FPGA不能直接對浮點數進行操作的,只能采用定點數進行數值運算。其二,FPGA可以理解成某種“芯片半成品”,需要開發人員做大量二次開發設計芯片,因此開發使用門檻較高。ASIC和GPU則能夠滿足大模型的入門門檻。 國內視角下,華為、百度昆侖芯、阿里、寒武紀、海光信息及一眾初創企業(燧原、天數、壁仞、沐曦)均推出云端訓練和推理芯片。架構選擇上,華為、百度、阿里、寒武紀選擇ASIC路線。華為、百度、阿里自家業務場景對AI芯片存在天然需求,選擇ASIC在量產制造供應鏈上的難度顯著低于GPU。初創企業則押注通用型GPGPU架構,壁仞、沐曦等初創企業多創立于2018年前后,團隊一般來自出走英偉達、AMD的技術專家,因此技術路線多選擇他們所熟悉的通用型GPU。 英偉達在過去很長的一段時間內堅持用統一的硬件,即通用型GPU同時支持Deep Learning和圖像需求。但高性能計算迭代到H100產品后,其計算卡和圖像卡分開,在技術路線上也愈發靠近ASIC。初創企業為了實現通用性,選擇了在芯片設計和制造供應鏈存在較多困難的GPU路線,暫未推出真正具備量產成熟度的產品。 1)華為選擇部署端到端的完整生態,例如使用昇騰910必須搭配華為的大模型支持框架Mind Spore、盤古大模型。第三方開源模型無法在華為上運行,若要運營必須依賴華為提供的工具做深度定制和優化,開放程度低。2)阿里在該方面的定位是系統集成商和服務商,運用自身芯片產品搭建加速平臺中,對外輸出服務。3)百度昆侖芯主要在自身智算集群和服務器上用,以及國內企業、研究所、政府中使用。且由于百度自身AI算法商的商業定位,與其他AI廠商之間存在競爭關系,昆侖芯未必能夠在其他AI算法商中鋪開。 英偉達A800、H800對國產廠商存在一定的威脅,但在大模型趨勢下,英偉達的優勢有所弱化。過去,機器學習訓練時間的主導因素是計算時間,等待矩陣乘法,通過張量核心和降低浮點精度,這個問題很快被解決。現在大型模型訓練/推理中的大部分時間都是在等待數據到達計算資源。內存帶寬和容量的限制不斷出現在NvidiaA100GPU,如果不進行大量優化,A100往往具有非常低的FLOPS利用率。而800系列降低了數據傳輸速率,弱化了英偉達高算力的優勢。此外,大模型AI芯片更需要片間互聯、HBM,英偉達CUDA這種標準化平臺的優勢同樣有所弱化。 寒武紀的優勢在于各種深度學習框架,合作經驗豐富。寒武紀思元系列產品適配TensorFlow、Pytorch、Caffe深度學習框架。2019年開始適配海康,峰值時刻合作開發團隊有70-80人(公司派出20-30人),思元290與商湯在CV層面深度合作,NLP領域在訊飛、百度語音都有出貨。 寒武紀思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片。目前華為昇騰910性能超越英偉達V100,但未達到A100水平,壁仞科技7nm通用GPU芯片BR100稱其可與被禁售的英偉達H100一較高下,但尚未量產上市。寒武紀思源590芯片面積800mm^2,和A100一樣。內存帶寬2.7T,是A1001.8T的1.5倍。HBM2使用海力士,功耗達350W-550W,FP32算力到80TFLops,目前已經客戶送樣測試階段,在高性能國產AI芯片中進程最快,最有機會承接國內AI算法商對英偉達A100、H100的需求。 在不同的應用場景之下,已經形成了不同的AI芯片競爭格局。 在云和數據中心AI芯片市場,“訓練”和“推理”兩個環節都是英偉達GPU一家獨大,幾乎占據90%以上份額,包括AWS、微軟Azure、谷歌云、阿里云、華為云、騰訊云在內的大部分公有云廠商上線的AI加速計算公有云服務絕大部分都是基于英偉達Tesla系列GPU。 云端訓練用的幾乎全部是英偉達GPU,公有云廠商中僅谷歌云一家除了提供以英偉達GPU為主的云計算加速服務之外,還推出了基于自研AI芯片TPU的深度學習訓練服務; 云端推理目前出現了基于GPU、FPGA、ASIC三種不同芯片云計算服務,但是市場份額仍然以英偉達GPU為主,其中AWS、阿里云、騰訊云、華為云等公有云廠商均推出了FPGA加速計算云服務,另外AWS推出了基于自研AI芯片Inferentia的ASIC加速計算服務,華為云推出了基于自研AI芯片昇騰310的ASIC加速計算服務。 在設備端和邊緣計算“推理”市場,各類型芯片各自為陣,尚無絕對優勢地位的芯片廠商出現——手機市場以高通、華為、蘋果原主控芯片廠商為主,自動駕駛、安防IPC領域英偉達暫時領先。 高通從驍龍820開始,就已經具備第一代人工智能引擎AIEngine;高通從第三代AIEngine開始引入異構計算CPU、GPU和DSP的異構并行計算;目前高通已經迭代至第四代,驍龍855是第一個搭載第四代AIEngine的SoC。華為麒麟970、980分別引入寒武紀IP(1A/1H),使得手機SoC開始具備AI能力,在2019年6月華為發布麒麟810,華為與寒武紀合作終止,華為采用了自研AI芯片達芬奇架構(華為在2018年推出了達芬奇架構,對標寒武紀智能處理器IP——Cambricon-1A/1H/1M)。蘋果2017年發布的A11芯片也具備了AI能力,附帶NeuralEngine和開發平臺CoreML用于機器學習。 仍然以采用英偉達Jetson系列GPU為主。例如海康采用了英偉達JetsonTX1,大華睿智系列人臉網絡攝像機采用的是英偉達TeslaP4GPU。另外國內三大安防廠商也在陸續采用ASIC芯片,例如海康、大華、宇視在前端智能化攝像機中采用Movidious的Myriad系列芯片,大華自研AI芯片用于新款睿智人臉攝像機。 L3級別以上自動駕駛芯片以英偉達Drive平臺為主(包括Xavier和Orin兩款SoC);華為將昇騰310用于自動駕駛域控制器MDC上,2020年已經通過車規級認證;英特爾Mobileye的EyeQ4-5被用在L3-5智能駕駛。但是目前整車廠和Tier1實際采用得最多仍然是以英偉達GPU為主。(在低級別的L1-L2輔助駕駛上,采用的是NXP、瑞薩等廠商的MCU芯片,不涉及深度學習。) 目前智能音箱的語音語義識別均在云端完成推理計算,終端上沒有AI專用處理單元。 由于AIGC、類GPT應用有鯰魚效應,帶來約百倍算力需求。而英偉達等供給解決需求有瓶頸,因此國產AI芯片有邏輯上需求彈性,AI服務器也有空間。根據IDC數據,2021年全球AI服務器市場規模為156億美元,預計到2025年全球AI服務器市場將達到318億美元,預計21-25年CAGR僅僅19.5%。AI服務器的增長和規模總額恐怕無法滿足類GPT類應用的百倍需求(例如生產地域、供應商產能、工人等限制),因此AI芯片可能會大量爆發,其次是AI服務器。 近期的行業領袖創業潮,會加速這種趨勢。2012-2014年AI創業潮,造就2015-2017年AI機會。2022H2-2023新一輪AI大模型創業潮。 目前AI芯片主要玩家應對英偉達塑造的AI生態壁壘,選取了不同的商業策略:1)英偉達AI芯片依然是AI訓練和推理最佳選擇;2)寒武紀在走英偉達的路線;3)AMD在走部分兼容CUDA的路線;4)谷歌、華為、百度走的是“深度學習框架+AI芯片”自研路線。 英偉達目前在深度學習訓練芯片市場占據絕對壟斷地位,憑借的是: CUDA是實現CPU和GPU分工的編程工具;cuDNN針對深度學習訓練,將深度學習模型中對各層(Layer)的常見的操作(例如卷積convolution、池化pooling)以方便理解和使用的接口暴露給開發人員,從而使得開發人員可以快速搭建training的庫;TensorRT針對推理環節,幫助模型自動減值和優化;由于開發者對于這些工具已經非常熟悉,由于學習成本的存在不會輕易遷移; 由于各家AI芯片廠商編程語言無法兼容,而深度學習框架廠商僅支持一家AI芯片就要投入巨大工程量,因此導致其最終只選擇市占率最大的1-2家進行深度支持,英偉達在AI訓練和推理上實現了軟硬件高度耦合而構筑了極高的生態壁壘。 英偉達高性能訓練和推理芯片產品主要包括V100、A100、H100以及3月21日GTC2023發布的H100NVL(2張H100通過外部接口以600GB/s的速度連接,每張卡顯存為94GB合計為188GB),預計2024年將推出基于下代Blackwell架構的B100產品。 除上文提到的軟件及生態壁壘外,英偉達芯片的主要優勢在于大片上內存、高顯存帶寬以及片間互聯方案。 2022年9月起,美國禁止峰值性能等于或大于A100閾值的英偉達芯片向中國出口,合法版本A800、H800已在國內應用。由于中國高性能計算市場對英偉達來說是一個不可放棄的巨大市場,英偉達分別于22年11月、23年3月發布A100、H100的“閹割”版本A800、H800,通過降低數據傳輸速率(顯存帶寬)至400GB/s、450GB/s避開美國限制,從而合法出口到中國,根據CEO黃仁勛在GTC2023演講,H800已在國內BAT的云計算業務中應用。 寒武紀芯片硬件性能相比于英偉達還有追趕空間,上層軟件堆棧與英偉達相似,全自研不是兼容路線;不同之處在于寒武紀需要自己對原生深度學習框架進行修改以支持思元芯片,而英偉達有谷歌原廠支持。硬件方面,從一些表觀的性能參數對比來看,寒武紀訓練芯片思元290和英偉達A100、昇騰910相比性能還有追趕的空間。軟件方面,寒武紀是自己對原生的Tensorflow和Pytorch深度學習框架去針對自己的思元芯片去做修改而非像華為一樣自研深度學習框架去進行優化,也不像英偉達一樣因為芯片市占率高,有Pytorch/Tensorflow原廠去做GPU算子的優化和設備的支持。另外寒武紀相比英偉達的算子庫豐富程度以及軟件工具鏈的完善程度還有一定差距,需要時間去追趕。 AMD選擇了部分兼容英偉達CUDA,借力英偉達生態的路線。AMD在2016年全球超算大會上推出了ROCm,也就是對標英偉達CUDA一樣的智能編程語言,ROCm軟件堆棧的結構設計與CUDA相似度很高;對標英偉達深度學習庫cuDNN,AMD推出了MIOpen;對標英偉達深度學習推理框架TensorRT,AMD推出了Tensile;對標英偉達編譯器NVCC,AMD推出了HCC。ROCm中包含的HIPify工具,可以把CUDA代碼一鍵轉換成ROCm棧的API,減少用戶移植成本。 走兼容英偉達CUDA的路線其難點在于其更新迭代速度永遠跟不上CUDA并且很難做到完全兼容。1)迭代永遠慢一步:英偉達GPU在微架構和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應的功能更新;但是AMD不可能知道英偉達的產品路線圖,軟件更新永遠會慢英偉達一步(例如AMD有可能剛宣布支持了CUDA11,但是英偉達已經推出CUDA12了)。2)難以完全兼容反而會增加開發者的工作量:像CUDA這樣的大型軟件本身架構很復雜,AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上;因為難免存在功能差異,如果兼容做不好反而會影響性能(雖然99%相似了,但是解決剩下來的1%不同之處可能會消耗開發者99%的時間)。 谷歌憑借Tensorflow去做TPU相對而言不存在太多生態壁壘問題,但是仍然無法撼動英偉達,其原因在于TPU本身性能還有進一步提升空間以及過于專用的問題。理論上谷歌憑借Tensorflow在深度學習框架領域實現了壟斷地位,是具備絕對的生態掌控力的,會投入大量的Tensorflow工程師針對自家TPU去做支持和優化,因此TPU去挑戰英偉達GPU其實不存在所謂生態壁壘的問題。但是自谷歌自2016年推出第一代TPUv1至今已經到第四代TPUv4(2021年5月發布),仍然無法從英偉達手中搶走明顯份額,其原因主要在于TPU本身性能相比于英偉達同時期GPU而言還有一定差距,另外其芯片設計過于專用所以在卷積之外的算法表現上并不算好: 谷歌在TPU論文中也明確提到由于項目時間比較緊,所以很多優化只能放棄。從性能參數來看谷歌TPUv2和英偉達同年推出的V100相比,性能功耗比、顯存帶寬等指標有著明著差距,即使是谷歌在2018年推出了第三代TPU,其性能(FP32)、功耗等指標仍然和英偉達V100相比存在一定差距。 TPU的主要創新在于三點:大規模片上內存、脈動式內存訪問、8位低精度運算。脈動陣列機做卷積時效果不錯,但是做其他類型神經網絡運算效果不是很好,在一定程度上犧牲了通用性來換取特定場景的高性能。TPU在芯片設計上只能完成“乘+加+乘+加......”規則的運算,無法高效實現“復數乘法、求倒、求平方根倒數”等常見算法。 現在AI芯片的行業趨勢是:GPU在通用性的基礎上逐漸增加專用計算單元;而類似TPU的ASIC芯片在專用性的基礎上逐漸增加通用計算單元——兩類芯片有逐漸收斂的趨勢。英偉達在用于深度學習領域的GPU上的設計思路是“在通用的基礎上增加專用運算單元”,例如在Volta架構上開始增加TensorCore(專門用于深度學習加速)、在Turing架構上開始增加RTCore(專門用于光線追蹤加速),犧牲通用性為特殊的計算或者算法實現特殊架構的硬件以達到更快的速度。而AI芯片一開始走專用路線,但是現在在專用性之外也在架構設計上也增加了通用計算單元(例如谷歌TPUv1主要是矩陣乘法運算單元占了24%芯片面積,但是TPUv2也開始增加浮點ALU做SIMD)。 華為在2019年8月發布的昇騰910與英偉達在2020年5月發布的A100性能相當,但是我們認為華為的主要問題在于不具備深度學習框架生態掌控力。即使其芯片性能與英偉達水平差不多,但是由于Tensorflow/Pytorch兩大主流深度學習訓練框架沒有基于華為昇騰910做特定的優化,所以算法結合上述兩大訓練框架在昇騰910上實際跑出來的性能其實不如英偉達A100;目前僅華為自研的深度學習框架MindSpore對昇騰910和昇騰310做了特別優化,由于華為MindSpore大部分精力都是放在對昇騰芯片的算子支持和優化上,對英偉達GPU的支持還不夠,所以只有同時使用華為的深度學習框架和昇騰芯片才能同時發揮出兩者的最佳性能。 上述我們提到要想在深度學習訓練框架要想打破Tensorflow和Pytorch的壟斷必須要靠原始創新,而目前包括華為MindSpore在內的國產深度學習框架尚未很好解決上述兩大訓練框架的痛點。Caffe之所以能夠在早期獲得開發者歡迎是因為解決了深度學習框架從0到1的過程,Tensorflow之所以可以取代Caffe是因為解決了其不夠靈活、不能自動求導、對非計算機視覺任務支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因為Pytorch引入了動態圖解決了Tensorflow是靜態圖設計調試困難的問題。但是目前國產的三個深度學習框架百度PaddlePaddle、曠視Megengine、華為MindSpore還沒有完美解決開發者在用Tensorflow和Pytorch所遇到的痛點。 我們認為Tensorflow和Pytorch目前共同的痛點在于對海量算子和各種AI芯片支持的難度,華為正在探索靠AI編譯器的技術來解決上述問題,但是目前編譯技術仍然還達不到人工優化的效果。華為全面布局了三個層次的AI編譯器,包括圖靈完備的圖層IR設計、使用poly技術的圖算融合/算子自動生成技術(以TVM編譯器的設計思想推出算子開發工具TBE來解決算子開發自動優化的問題)。 ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序,于2022年11月發布,推出不久便在全球范圍內爆火。從用戶體驗來看,ChatGPT不僅能實現流暢的文字聊天,還可以勝任翻譯、作詩、寫新聞、做報表、編代碼等相對復雜的語言工作。ChatGPT爆火的背后是人工智能算法的迭代升級。 ChatGPT是生成式人工智能技術(AIGC)的一種,與傳統的決策/分析式AI相比,生成式AI并非通過簡單分析已有數據來進行分析與決策,而是在學習歸納已有數據后進行演技創造,基于歷史進行模仿式、縫合式創作,生成全新的內容。 ChatGPT單次訓練所需算力約27.5PFlop/s-day,單顆NVIDIAV100需計算220天。隨著模型參數的不斷增加,模型訓練所需算力將進一步提升,將進一步拉動對算力芯片的需求。預測隨著ChatGPT等新興AI應用的落地,將會不斷打開下游市場需求,而伴隨算力的增長,也將帶來對上游半導體芯片的需求量快速提升。 隨著AI應用的普及和算力需求的不斷擴大,AI芯片需求有望率先擴張。根據IDC預測,中國AI算力規模將保持高速增長,預計到2026年將達1271.4EFLOPS,CAGRA(2022-2026年)達52.3%。在此背景下,IDC預測異構計算將成為主流趨勢,未來18個月全球人工智能服務器GPU、ASIC和FPGA的搭載率均會上升,2025年人工智能芯片市場規模將達726億美元。 據百度官方數據,“文心一言”基于文心大模型,參數規模為100億,目前已經向公眾開放,并將與搜索引擎業務整合。假設短期國內將出現5家與百度“文心一言”相似的企業,模型參數量與訓練算力需求成比例。根據OpenAI公布的GPT3系列參數量及訓練算力需求數據,可推算出文心大模型的單次訓練算力需求為208.48PFlop/s-day。據Similarweb數據,2023年1月百度搜索引擎的訪問量為4.9億次,假設“文心一言”將整合到百度搜索引擎中,單日運營算力需求為125.08PFlop/sday。 根據NVIDIA數據,A100的FP64TensorCore算力為19.5TFlops,單價為1萬美元。根據經驗假設日常算力利用率為30%,則短期LLM模型將給國內GPU市場帶來28.51億美元的增量。長期LLM模型有望與搜索引擎結合,為GPU帶來447.51億美元的增量空間。假設未來ChatGPT將與搜索引擎結合,日活躍用戶數量參考Google。根據Similarweb數據,2023年1月Google訪問量為883億。假設其他數據與測算方式不變,則ChatGPT與搜索引擎結合能夠給GPU市場帶來447.51億美元的增量空間。 公司主要從事處理器(CPU)及配套芯片的研制、銷售及服務。主要產品包括龍芯1號、龍芯2號、龍芯3號三大系列處理器芯片及橋片等配套芯片,系列產品在電子政務、能源、交通、金融、電信、教育等行業領域已獲得廣泛運用。 堅持自主研發指令系統、IP核等核心技術。龍芯中科掌握指令系統、處理器核微結構、GPU以及各種接口IP等芯片核心技術,在關鍵技術上進行自主研發,擁有大量的自主知識產權,已取得專利400余項。 GPU產品進展順利,正研制新一代圖形及計算加速GPGPU核。公司在2022年上半年完成了第一代龍芯圖形處理器架構LG100系列,目前正在啟動第二代龍芯圖形處理器架構LG200系列圖形處理器核的研制。根據公司在2022年半年度業績交流會信息,第一代GPU核(LG100)已經集成在7A2000中,新一代GPGPU核(LG200)的研制也取得了積極進展。 公司主營產品包括海光通用處理器(CPU)和海光協處理器(DCU)。海光CPU主要面向復雜邏輯計算、多任務調度等通用處理器應用場景需求,兼容國際主流x86處理器架構和技術路線。從應用場景看,海光CPU分為7000、5000、3000三個系列,分別定位于高端服務器、中低端服務器和邊緣計算服務器。海光DCU是公司基于GPGPU架構設計的一款協處理器,目前以8000系列為主,面向服務器集群或數據中心。海光DCU全面兼容ROCmGPU計算生態,能夠較好地適配國際主流商業計算軟件,解決了產品推廣過程中的軟件生態兼容性問題。 CPU與DPU持續迭代,性能比肩國際主流廠商。CPU方面,目前海光一號和海光二號已經實現量產,海光三號已經正式發布,海光四號目前進入研發階段。海光CPU的性能在國內處于領先地位,但與國際廠商在高端產品性能上有所差距,接近Intel中端產品水平;DCU方面,深算一號已實現商業化應用,深算二號已于2020年1月啟動研發。在典型應用場景下,公司深算一號指標達到國際上同類型高端產品的水平。 公司主要從事高可靠電子產品的研發、生產和銷售,產品主要涉及圖形顯控領域、小型專用化雷達領域、芯片領域等。圖形顯控是公司現有核心業務,也是傳統優勢業務,小型專用化雷達和芯片是公司未來大力發展的業務方向。 GPU研發進程平穩推進,新產品可滿足AI計算需求。公司以JM5400研發成功為起點,不斷研發更為先進且適用更為廣泛的GPU芯片。2014年公司推出JM5400,核心頻率550MHz;2018年推出JM7200系列,核心頻率1300MHz;2021年推出JM9系列,核心頻率1.5GHz。根據公司2022年中期報告,公司JM9系列第二款圖形處理芯片于2022年5月成功研發,可以滿足地理信息系統、媒體處理、CAD輔助設計、游戲、虛擬化等高性能顯示需求和人工智能計算需求,可廣泛應用于用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。 寒武紀是AI芯片領域的獨角獸。公司成立于2016年3月15日,專注于人工智能芯片產品的研發與技術創新,產品廣泛應用于消費電子、數據中心、云計算等諸多場景。公司是AI芯片領域的獨角獸:采用公司終端智能處理器IP的終端設備已出貨過億臺;云端智能芯片及加速卡也已應用到國內主流服務器廠商的產品中,并已實現量產出貨;邊緣智能芯片及加速卡的發布標志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產品布局。 人工智能的各類應用場景,從云端溢出到邊緣端,或下沉到終端,都離不開智能芯片的高效支撐。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產品,分別為終端智能處理器IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡。 當前AI芯片呈現幾大趨勢: 從2017年英偉達發布TeslaV100AI芯片的12nm制程開始,業界一直在推進先進制程在AI芯片上的應用。英偉達、英特爾、AMD一路將AI芯片制程從16nm推進至4/5nm。 2022年英偉達發布H100AI芯片,其芯片主體為單芯片架構,但其GPU與HBM3存儲芯片的連接,采用Chiplet封裝。在此之前,英偉達憑借NVlink-C2C實現內部芯片之間的高速連接,且Nvlink芯片的連接標準可與Chiplet業界的統一標準Ucle共通。而AMD2023年發布的InstinctMI300是業界首次在AI芯片上采用更底層的Chiplet架構,實現CPU和GPU這類核心之間的連接。 AI芯片先行者是英偉達,其在2017年即發布TeslaV100芯片,此后2020以來英特爾、AMD紛紛跟進發布AI芯片,并在2022、2023年接連發布新款AI芯片,發布節奏明顯加快。 芯片成本變化有以下規律:封裝形式越復雜,封裝成本、封裝缺陷成本占芯片成本比重越大:具體來說,SoC<MCM<InFO小于2.5D。芯片面積越大,芯片缺陷成本、封裝缺陷成本占比越大;制程越先進,芯片缺陷成本占比越高,而Chiplet封裝能有效降低芯片缺陷率,最終達到總成本低于SoC成本的效果。 制程越先進、芯片組面積越大、小芯片(Chips)數量越多,Chiplet封裝較SoC單芯片封裝,成本上越有優勢。鑒于當前AI芯片朝高算力、高集成方向演進,制程越來越先進,Chiplet在更先進制程、更復雜集成中降本優勢愈發明顯,未來有望成為AI芯片封裝的主要形式。 國產封測龍頭,在Chiplet領域已實現技術布局: 通富微電已為AMD大規模量產Chiplet產品;長電科技早在2018年即布局Chiplet相關技術,如今已實現量產,2022年公司加入Chiplet國際標準聯盟Ucle,為公司未來承接海外Chiplet奠定了資質基礎;華天科技Chiplet技術已實現量產,其他中小封測廠商已有在TSV等Chiplet前期技術上的積累。 關鍵詞:
相關文章
- 全球熱訊:AI芯片
- 祖龍的戰略圈地:女性向(疊紙)+射擊(英雄互娛)+卡牌(冰川)
- 關于證券周刊的文章|世界微速訊
- 環球資訊:國家知識產權局印發“千企百城”商標品牌價值提升行動方案
- 天天看熱訊:收盤信息:科創50指數漲超3% 半導體概念股掀漲停潮
- 酒鬼酒:公司與東方甄選的合作屬于電商業務板塊中一部分 世界熱點
- 每日聚焦:華為即將舉辦智能電動新品發布會 將全新發布DriveONE三大平臺解決方案
- 美菲軍演,前總統杜特爾特直播爆粗口,有人建議他來中國廣州避禍-新消息
- 水利部:今年一季度全國新開工水利項目超7000個
- 當前報道:“會展+”經濟盛行,廣州海口等地機票預訂恢復超2019年
- 微資訊!國軒高科:內蒙古國軒烏海鋰離子電池負極材料項目已建成投產5萬噸
- 焦點信息:云海金屬:與重慶大學合作開發車身一體化壓鑄鎂合金材料已進入小批產線試制階段
- 環球看熱訊:國軒高科1億元于滁州設新能源動力公司
- 利亞德:MIP工藝產能年底前將擴產到2000KK/月
- 天天快消息!明星私募喊話房地產,史詩級會?還是別了...
- 全球新資訊:談談智洋創新和金橋的相似性
- 巴菲特、芒格1998年的經典問答(下)
- 要聞速遞:為什么這輪是科技牛 為什么趨勢核心是福晶科技
- 買進伊利股份-環球滾動
- 購車補貼繼續!百億資金再“進場” 200萬輛庫存車要被清空?_環球聚焦
- 天天即時:《深圳港汽車出口資助方案》公開征求意見
- 國金證券:賦能千行百業 AI+礦山、AI+電力助力能源改革-最新快訊
- 【全球播資訊】失業大軍涌入外賣行業 騎手收入腰斬
- 商務部:對原產于澳大利亞的進口大麥所適用反傾銷和反補貼措施發起復審調查-全球獨家
- 教資筆試查分
- 香港創新科技及工業局局長:對生成式人工智能技術未來走向保持密切關注以作出適時應對|當前快播
- 焦點熱訊:鹽津鋪子與極之致簽訂戰略合作協議
- 光刻膠概念股集體走強
- 傳藝科技鈉電正、負極材料量產線正式開工:微速訊
- 《深圳港汽車出口資助方案》公開征求意見:擬對經深圳港海上運輸出口的汽車 世界今頭條
熱文推薦
排行推薦

天天看熱訊:收盤信息:科創50指數漲超3% 半導體概念股掀漲停潮

酒鬼酒:公司與東方甄選的合作屬于電商業務板塊中一部分 世界熱點

每日聚焦:華為即將舉辦智能電動新品發布會 將全新發布DriveONE三大平臺解決方案
