把GPT時代引擎拉滿,國產AI大算力芯片換道狂飆
本文系本站新聞•本站號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載
作者|ZeR0編輯|漠影從2022年11月開始,美國人工智能(AI)公司OpenAI連續祭出ChatGPT家族的3、3.5、4以及插件還有商業落地模式的連環大招,引爆了全球關注和期待AI應用發展的新一輪熱潮。而在此之前,AI發展歷程中已出現過兩次“聖盃時刻”。
2012年10月,在國際頂級賽事ImageNet計算機視覺挑戰賽上,傑弗裡·辛頓與其團隊用卷積神經網絡(CNN)算法一舉奪魁,憑藉比人眼識別還低的錯誤率,掀開了計算機視覺盛世的序章。
2016年3月,DeepMind研發的AI程序AlphaGo戰勝世界圍棋冠軍李世石,在全世界擲下一枚重磅炸彈。“人工智能”從此出圈,創業狂瀾席捲全球,2016年也被稱作“人工智能元年”。
兩次“聖盃時刻”背後的算力功臣,分別是英偉達GPGPU(通用圖形處理單元)芯片與谷歌TPU(張量處理單元)芯片。他們也成爲業界AI大算力芯片企業競相模仿和追趕的對象。
如今,ChatGPT的橫空出世宣告着AI行業迎來第三次“聖盃時刻”,業界也將其盛讚爲AI時代的“iPhone時刻”。儘管ChatGPT及一衆主流大模型背後的芯片主力仍是GPGPU,但嚴峻的挑戰已經擺到眼前:一邊是計算量爆棚的生成式AI與大模型發展熱情高漲,另一邊是即將觸頂的算力增長空間與算力消耗所帶來的驚人碳排放量。
正如馬斯克所述,大多數人會用舉一反三的類比推理來思考問題,即模仿別人做的事情再加以小幅更改,可如果想做出新的東西,必須敢於打破常規、積極質疑舊的經驗知識,探究問題本質,層層推演,進而創造出新的解決方案。
中國AI大算力芯片的創新之路,大抵亦是如此。
當ASIC、GPGPU發展道路面臨底層技術與產業需求的雙向夾擊,“換道”也許能開闢新的可能。誰能率先填補大模型算力需求的缺口,誰就有機會搶佔新一輪AI芯片搶位賽的前排。
01.
國產AI大算力芯片的
三波創業浪潮與三大技術流派
ChatGPT引起的算力焦慮,已經將提高能效比與算力利用率的迫切性推到臺前。
在產業前景、戰略重要性、自主可控等多重因素驅動下,一批批中國AI芯片企業立足於不同的技術路徑,前赴後繼地進入AI大算力芯片領域,並形成羣雄逐鹿的三大技術流派。
第一波浪潮是基於ASIC架構,也可以劃定爲中國AI大算力芯片落地的技術1.0。
這可追溯至2015年-2016年,並稱“天寒地鑑”的AI芯片四小龍雲天勵飛、寒武紀、地平線、深鑑科技,都是在此期間啓動AI芯片研發。其中唯一的FPGA代表玩家深鑑科技於2018年被美國FPGA龍頭賽靈思收購。寒武紀和地平線分別是領跑雲端和自動駕駛國產大算力芯片落地的企業,都選擇做ASIC(專用芯片)。
2016年5月,谷歌揭曉AlphaGo背後的功臣TPU,吹響了產業沿襲ASIC路線的號角。此後多家創企以及華爲、亞馬遜等雲計算大廠均選擇在ASIC芯片賽道安營紮寨。上海交通大學計算機科學與工程系教授樑曉嶢告訴智東西,在算法較固定的情況下,專用芯片的性能和功耗優勢明顯,能夠滿足企業對極致算力和能效的追求。
贾静雯助力黄晓明, 《中餐厅7》分档竞争节目组才是主角
▲AI不同計算任務需要各類芯片實現(圖源:浙商證券)
这支亚裔部队勇冠三军 却有人准备为其饿死
然而,下游AI算法的演進速度遠超想象。根據頂級AI研究企業OpenAI在2018年發佈的一份分析報告,自2012年到2017年,訓練最大AI模型所使用的算力每3.4個月翻1倍。相比之下,按照芯片行業的“圭臬”摩爾定律,芯片上容納的晶體管數量每18~24個月纔會翻1倍,兩者之間僅從翻倍的時間上,就產生了16-20個月的差距。
国旅补助今起适用!一晚最高折1500懒人包曝
專用芯片在特定場景能實現更高算力和能效,但難以適應算法種類快速的增加以及迭代速度,因此通用性更強的GPGPU一直是AI芯片的主角。在2018年中美科技競爭大幕拉開後,國產替代的呼聲越來越高,創業熱點隨之切換到英偉達雄踞多年的GPGPU(通用GPU)賽道。
這成爲第二波浪潮中主流技術路徑,也可以劃定爲中國AI大算力芯片落地的技術2.0。天數智芯、登臨科技、壁仞科技、摩爾線程、沐曦集成電路等一批初創公司,大致都是2017年-2020年期間創業或啓動自研GPGPU芯片的研發。
資本也蜂擁而至,邏輯很簡單,GPGPU市場有英偉達珠玉在前,已經驗證了成功的可能性。以英偉達上百億美元年收入與躋身全球前十的市值來看,假若能切走英偉達在中國的市場份額,足以帶給國產AI大算力芯片企業優渥的回報。
但無論是ASIC還是GPGPU,在應對生成式AI及大模型正對算力基礎設施提出的新要求,都顯得多少有些捉襟見肘。
▲大模型參數邁向千億時代,算力需求一路飆漲(圖源:浙商證券)
红牛在本田的主场加冕车队冠军?
眼見着摩爾定律身陷邊際效用遞減的困境,ASIC芯片的弱通用性難以應對下游算法的快速演化,GPGPU又難解高功耗與低算力利用率問題,業界正翹首以盼新架構、新工藝、新材料、新封裝,以進一步突破算力天花板。
與此同時,博弈氣息日漸濃厚的地緣關係,又給對先進製程工藝高度依賴的AI大算力芯片創企們提出了技術之外的新難題。
在這些大背景下,第三波創業浪潮正滾滾向前。從2017年到2021年期間集中成立的一批創企,選擇探路存算一體等新興技術,這可以被劃定爲中國AI大算力芯片落地的技術3.0。
不同於ASIC與GPGPU,這些新興技術路線跳出了馮·諾依曼架構體系,理論上擁有得天獨厚的高能效比優勢,又能繞過先進製程封鎖,兼顧更強通用性與更高性價比,算力發展空間巨大。隨着新型存儲器件走向量產,存算一體AI芯片已經挺進AI大算力芯片落地競賽。
▲馮·諾依曼、近存計算、存內計算架構對比(圖源:億鑄科技)
而無論是傳統計算芯片還是存算一體芯片,在實際加速AI計算時往往還需處理大量的邏輯計算、視頻編解碼等非AI加速計算領域的計算任務。隨着多模態成爲大模型時代的大勢所趨,AI芯片未來需處理文本、語音、圖像、視頻等多類數據。
這個問題如何解決?億鑄科技,一家做存算一體AI大算力芯片的創企提出了自己的解法——存算一體超異構AI大算力技術路徑。這也是業內首次提出將存算一體和超異構做結合,提供在大模型時代AI大算力芯片換道發展的一個全新思路。
处境尴尬!哈登与76人闹僵,行情暴跌,最坏结果:自由球员受限
02.
兼顧通用性&高性能
2024年高中生传来坏消息,复读迎来新调整,有人欢喜有人忧!
未來必然走向超異構
北京个人私家车二手车出售不用愁平台电话
生成式AI和大模型時代向算力基礎設施提出的核心要求,可以簡單概括爲幾個詞:提高單芯片算力,突破算力利用率,實現更高能效比。
82岁传奇钢琴家殷承宗将与“00后”指挥携手再奏响《黄河》
上海交通大學計算機科學與工程系教授、博導樑曉嶢及其團隊是開源GPGPU平臺“青花瓷”的發起者。他談道,當下需從系統的角度來思考問題。首先在單芯片算力方面,他非常看好存算一體,認爲通過引入新型存儲器件工藝,存算一體AI芯片有望將單芯片算力提高1~2個數量級。
▲存算一體能實現超越傳統ASIC芯片的更大算力、更高能效(圖源:浙商證券)
但單顆芯片很難爲大模型提供充足的計算資源與存儲資源,這就需要將很多計算芯片連在一起,形成系統。據韓媒報道,受ChatGPT熱潮驅動,韓國兩大存儲芯片巨頭三星電子、SK海力士的高帶寬內存(HBM)接單量大增。
一声可惜!武汉三镇憾平浦和,数据全面落后!中超队3年不胜日本
芯片與芯片之間的數據傳輸過程,往往會造成大量不必要的資源浪費,導致計算系統受限於傳輸帶寬瓶頸,在實際應用中發揮的算力遠小於理論峰值算力。要進一步提升計算資源利用率,必須研究更先進的互連技術,以實現成千上萬個AI芯片之間的高效協同。
最後,軟件的迭代升級亦不可或缺。要降低芯片開發門檻並實現所有芯片的高效協同,需要設計分佈式的AI編程軟件平臺,來解決線程調度、同步、任務平衡等複雜問題。
网传26岁女生当上副县长?长相甜美酷似“王冰冰”
“沒有一個單芯片能夠獨立解決大模型問題,所以一定是走向一個超異構。”樑曉嶢說,儘管他很看好存算一體路線,但僅靠存算一體還不夠,還需與其他架構配合,形成一個完整的系統。
億鑄科技首次提出的“存算一體超異構”概念,就有可能是一個未來的理想組合。
超異構計算將CPU、GPGPU、CIM(存內計算)等不同類型的芯片用先進封裝技術組合,讓不同架構各司其職,既有靈活、可編程的部分來適應算法的快速變化,又有定製化部分來提供超高性能和超低功耗,通過統籌調度,綜合發揮出多類芯片架構的優勢,將整體效率做到最優。
由於器件優勢,存算一體在同等功耗下能承擔更大算力。在超異構計算的基礎上,以存算一體架構爲核心,以其他架構作輔助,理論上能夠兼顧對高算力與通用性的需求。億鑄科技創始人、董事長兼CEO熊大鵬博士相信,存算一體超異構將來會成爲AI算力芯片的主流技術路線之一。
在今年2月份舉行的國際芯片設計領域最高級別會議ISSCC 2023大會上,AMD董事長兼CEO蘇姿豐也提出了相似的“系統級創新”概念,即綜合考慮跨計算、跨通信、跨內存等各項元素,從整體上推動系統級性能和能效的提升。
而存算一體超異構理念的前瞻性和落地可行性在於,它不像基於傳統計算架構的大算力芯片那樣依賴先進製造技術。這一思路需結合的新架構、新存儲、新封裝等前沿技術,國內均已有儲備。
杭州亚运》许皓𬭎夺金前就创纪录 击败世界第一申真谞震惊韩媒
03.
減輕先進製程依賴症,億鑄科技的
存算一體超異構如何換道超車?
據悉,存算一體超異構主要運用到新型憶阻器(RRAM)、存算一體架構、Chiplet(芯粒)、3D封裝等技術,而國內企業在這些技術路線上已經有越來越多的起色。
跌停!ST天顺及实控人被立案,此前上市公司遭违规占用资金超3亿元
Chiplet及先進封裝方案能夠彌補先進製程落後的劣勢,通過將來自不同生產廠商、不同製程工藝的芯片組件“混搭”,降低實現目標性能所需的成本。這爲國內芯片企業提供彎道超車的機會。
目前,國內封測巨頭相關技術積累已初顯成效。例如長電科技的XDFOI Chiplet高密度多維異構集成系列工藝已進入穩定量產階段;通富微電與AMD密切合作,已大規模生產7nm Chiplet產品;華天科技的Chiplet系列工藝也實現量產。
▲未來算力升級路徑:Chiplet、存算一體(圖源:浙商證券)
叶毓兰》八卦山隧道 为机车争路权!
從單芯片來看,熊大鵬告訴智東西,存算一體芯片屬於是“換道超車”,對工藝的要求較低,比如在28nm工藝上實現的算力和能效,就能比肩甚至超過傳統架構芯片在7nm工藝上的表現。
樑曉嶢說,億鑄科技是第一家嘗試設計並量產基於ReRAM全數字存算一體AI大算力芯片的企業。據熊大鵬透露,億鑄科技自研的存算一體AI大算力芯片,或將在75W-100W功耗範圍內實現接近1P的算力,能效比優勢非常顯著,將於今年回片。同時,億鑄科技基於存算一體超異構概念的下一代芯片設計工作已經開始推進。
刘涛23部作品全部被下架,被称“演艺圈公交车”,引发争议
從器件來看,相比傳統存儲器存在易失性、微縮性差等痼疾,億鑄科技選擇採用的非易失性新型存儲器RRAM更適合應用於AI大算力場景。
此前,臺積電、聯電、中芯國際、昕原半導體等代工廠均建立了商業化RRAM產線。去年2月,昕原半導體主導建設的RRAM 12寸中試生產線已順利完成自主研發裝備的裝機驗收工作,實現中試線工藝流程的通線,併成功流片。
张子枫穿吊带被公开羞辱:她的胸,到底碍了谁的眼?
熊大鵬認爲,隨着工藝不斷迭代,國內“超車”速度會越來越快,優勢會越來越明顯。
從超異構來看,對於國內企業來說,CPU有廣受歡迎的開源RISC-V架構,GPGPU有新興的開源架構“青花瓷”平臺,存算一體也有億鑄科技等廠商在大力投入研發。
一声可惜!武汉三镇憾平浦和,数据全面落后!中超队3年不胜日本
開源GPGPU“青花瓷”平臺由上海交通大學先進計算機體系結構實驗室開發,定位相當於GPGPU領域的RISC-V架構。它提供了一個免費開放的先進GPGPU指令集和架構參考設計,能夠接入現有GPGPU生態,從而助力降低設計門檻,加速相應產品的落地。
▲“青花瓷”平臺開源代碼頁面
“青花瓷”平臺直通門:gpgpuarch.org
游客斥「对素食者太不友善」 武陵农场:当下已道歉
開源地址:github.com/SJTU-ACA-Lab/blue-porcelain
在樑曉嶢看來,超異構需要不同類型的芯片架構互相配合、取長補短,這恰好與“青花瓷”平臺的設計思路完美契合。
存算一體架構適用於計算和數據量大但算法相對簡單的應用,在性能和功耗的優勢超過其他類型架構;而GPGPU架構可以適配現有的主流AI框架和平臺,並能處理比較複雜的算法。兩者結合,將會實現更大有效算力、放置更多參數、實現更高能效比、更好的軟件兼容性。
因此,面向未來大模型時代,存算一體超異構的技術路徑打開了國內AI大算力芯片技術發展的新思路,而億鑄科技的存算一體超異構芯片是該路徑在國內切實落地的關鍵一步。
04.
神武战王 小说
結語:大模型落地勢不可擋
成都各大火车站迎来客流高峰
AI算力困境亟待換道突破
杭州亚运》山口茜2局伤退 戴资颖首点胜 中华女团1比0日本
正如蘇姿豐所言,AI已是未來十年最重要的事。
在生成式AI風暴的催化下,大模型正發展成AI基礎研究和產業化落地的一大趨勢。這對三波創業浪潮中的一衆AI大算力芯片創業公司提出了摩爾定律瀕臨極限之外更大的技術挑戰:如何以更低的系統成本、更少的能源消耗,支撐起龐大且持續增加的參數量所帶動的更高算力需求?
在美國對華屢屢架設芯片藩籬的背景之下,國內短期內難以實現先進製程的自主可控。回望中國AI大算力芯片發展歷程,業界一直用“彎道超車”來寄予對其發展路徑的期待,但彎道超車隱喻着產品和技術的發展和行業頭部企業在同一賽道上做跟隨和追及,這勢必對後來者在速度上和超車節點的把握上提出了更高的要求。
骨感的現實告訴我們,中國AI大算力芯片在“彎道超車”路徑下,也許還有很長的路要追趕。而“換道”可能加速縮短與國際先進水平的差距。同時,換道發展也不是無本之木,其芯片設計和量產有着嚴謹的底層邏輯和成熟的產業鏈配套作爲支撐。億鑄科技的存算一體超異構AI大算力芯片技術,便提供了一種能夠適應未來算法快速變化、滿足算力可持續發展需求的可行思路。
中國AI大算力芯片企業面臨的挑戰依然險峻,但不管是落地技術的1.0、2.0還是3.0,不管是同道追及還是換道前行,所有的努力都是爲了支撐中國AI產業的高速發展,只要能切實解決問題,提供有價值的產品,都值得關注和期待。沉舟側畔千帆過,病樹前頭萬木春,希望看到更多像億鑄科技這樣的機構,大步流星地走到換道前行的賽道上,爲破解國內AI大算力困局探尋屬於中國AI芯片產業自己的發展道路。
七彩iMac公布:M1芯片加持 厚度仅11.5mm