国产6699视频在线观看_女人爽到喷水的视频大全_亚洲欧美日韩国产视频亚洲欧美综合日韩久久_中文字幕无码久久东京热_av电影中文一区

 
首頁 > 熱點 >
 
 

漲幅超300%,市值重回1000億,市場為何還不買賬?|世界熱頭條

2023-04-20 22:50:16  來源:凱恩斯


(資料圖)

??今天A股算力概念大漲,寒武紀(jì)強(qiáng)出天際,相比開年的54.56塊每股,今天已經(jīng)到了258塊了,今年至今漲幅已達(dá)300%,總市值突破千億關(guān)口,距離上市初的1200億巔峰市值更近一步,海光信息今天也一舉突破2000億,天孚通信、中際旭創(chuàng)等個股跟漲。讓這些各個大爆發(fā)的,無疑是國產(chǎn)大模型爆發(fā),市場預(yù)計將調(diào)用超大規(guī)模算力,或?qū)⒁l(fā)算力缺口。由于AI模型訓(xùn)練需要海量的算力,大模型或?qū)⒁l(fā)算力缺口,不少廠商開始做算力方向,AI芯片又是AI算力基礎(chǔ)設(shè)施的關(guān)鍵組成。國產(chǎn)大模型對上游AI芯片算力提出了更高的要求。今天頂著千億市值光滑、科創(chuàng)板AI芯片第一股的寒武紀(jì),目前主要的產(chǎn)品線包括云端產(chǎn)品線、邊緣產(chǎn)品線、IP 授權(quán)及軟件,其中AI算力專用芯片是屬于寒武紀(jì)云端產(chǎn)品線,目前主推的云端產(chǎn)品思元290和思元370及相應(yīng)的云端智能加速卡系列產(chǎn)品、訓(xùn)練整機(jī)。寒武紀(jì)做AI芯片做了很多年,2019年6月,就推出了第二代云端AI芯片思元270(MLU270)及板卡產(chǎn)品,思元270板卡產(chǎn)品面向人工智能推斷任務(wù),在ResNet50上推理性能超過10000fps。思元270芯片處理非稀疏深度學(xué)習(xí)模型的理論峰值性能提升至上一代MLU100的4倍,達(dá)到128TOPS(INT8);同時兼容INT4和INT16運算,理論峰值分別達(dá)到256TOPS和64TOPS;支持浮點運算和混合精度運算。? ? ? ? ?

還推出過思元220,是主要用來深度學(xué)習(xí)的SOC邊緣加速芯片,采用TSMC 16nm工藝,具有高算力,低功耗和豐富的I/O接口。這款芯片采用了寒武紀(jì)在處理器架構(gòu)領(lǐng)域的一系列創(chuàng)新性技術(shù),其架構(gòu)為寒武紀(jì)最新一代智能處理器MLUv02,實現(xiàn)最大32TOPS(INT4)算力,而功耗僅10W。去年三月份,寒武紀(jì)推出新款訓(xùn)練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內(nèi)封裝兩個Die,因此可提供兩倍于思元370加速卡的內(nèi)存、編解碼資源。架構(gòu)基于Cambricon MLUarch03,支持AI訓(xùn)練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數(shù)據(jù)格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。該卡采用7nm制造工藝,集成48GB LPDDR5內(nèi)存,內(nèi)存帶寬614.4GB/s,PCIe 4.0 x16系統(tǒng)接口,整卡最大訓(xùn)練功耗250W,全高全長雙插槽設(shè)計,系統(tǒng)被動散熱。除了現(xiàn)有產(chǎn)品,在2022 年世界人工智能大會上,寒武紀(jì)的董事長透露了寒武紀(jì)最新一代云端智能訓(xùn)練芯片思元590,該芯片采用MLUarch05 全新架構(gòu),實測訓(xùn)練性能較在售旗艦產(chǎn)品思元290 系列有大幅提升,有望成為國產(chǎn)先進(jìn)AI 算力芯片。該芯片目前尚未發(fā)布,但該芯片面積為800mm2,已經(jīng)接近A100的826mm2。

之前百度集團(tuán)的一份交流紀(jì)要顯示,文心一言將調(diào)用超大規(guī)模算力,并且嘗試使用寒武紀(jì)思元590替代英偉達(dá)A100,讓寒武紀(jì)的思元系列更受到關(guān)注。不過我們也要意識到,思元的產(chǎn)品在百度文心一言中有小規(guī)模的部署,也只是文心一言中眾多業(yè)務(wù)場景的一小部分,還是沒有能夠做到大規(guī)模部署??赡墁F(xiàn)在寒武紀(jì)的產(chǎn)品多用于大規(guī)模推理中的一小部分場景,在大模型訓(xùn)練上還有很多的不足。

有產(chǎn)品,還差在哪?

為什么思元的產(chǎn)品不能大規(guī)模部署和應(yīng)用,大多是原因是寒武紀(jì)的思元590這款芯片智能運行大模型的推理部分,但這款產(chǎn)品不屬于通用形式的GPU。而且寒武紀(jì)現(xiàn)有的產(chǎn)品還沒有大規(guī)模部署的能力。那么為什么說沒有這個能力,主要是要看寒武紀(jì)的供應(yīng)鏈?zhǔn)遣荒苤蔚闷疬@些芯片的大規(guī)模出貨,可能需要幾萬個芯片,寒武紀(jì)能不能生產(chǎn)和推廣,如果可以做到,那么這些推廣出的芯片是不是有龐大的客戶購買這些芯片?這些芯片的質(zhì)量和性能夠不夠支持大模型的推理和訓(xùn)練?是不是支持多種工具的機(jī)器學(xué)習(xí)模型?顯然,這些都是寒武紀(jì)做不到的。英偉達(dá)的芯片性能是全球最佳的,有強(qiáng)大的計算能力,也有高效的AI加速,因為A100芯片專為AI加速而設(shè)計,采用了全新的Tensor Core技術(shù),能夠極大地提升AI計算的速度和效率。所以A100非常適合支持ChatGPT、Bing AI或Stable Diffusion等工具的機(jī)器學(xué)習(xí)模型。它能夠同時執(zhí)行許多簡單的計算,這對于訓(xùn)練和使用神經(jīng)網(wǎng)絡(luò)模型很重要。根據(jù)New Street Research的數(shù)據(jù),英偉達(dá)占據(jù)了可用于機(jī)器學(xué)習(xí)的圖形處理器市場的95%。這款產(chǎn)品也是是供不應(yīng)求的。即便是A100和H100被禁止,我國企業(yè)就已經(jīng)將目光放到了它的替代品A800和H800上了。國內(nèi)幾家頭部互聯(lián)網(wǎng)企業(yè)都向英偉達(dá)下了1.5萬~1.6萬左右的A800和H800訂單,卻沒有更多的選擇國內(nèi)產(chǎn)品?,F(xiàn)實的情況是,國內(nèi)很多的半導(dǎo)體芯片的產(chǎn)品整體水平還是比較低的,AI大模型的訓(xùn)練要求芯片能夠處理高顆粒度的信息。很多國產(chǎn)GPU大多對信息處理的顆粒度不高,還不具備支撐大模型訓(xùn)練所需的能力。之前我們也提到過,一些國產(chǎn)GPU產(chǎn)品大多只能處理單精度的的浮點運算,像壁仞科技BR100、天數(shù)智芯的智鎧100,還有寒武紀(jì)思元270等等,它們在FP32的理論指標(biāo)上做得不錯,但沒有處理FP64的能力。國內(nèi)能支持FP64雙精度浮點運算的應(yīng)該是海光推出的DCU深算一號,不過這款產(chǎn)品的性能應(yīng)該也是不如英偉達(dá)的A100。英偉達(dá)A100的單精度浮點計算能力,從15.7TFLOPS提升至19.5TFLOPS;而雙精度浮點運算從7.8TFLOPS提升至9.7TFLOPS。除了寒武紀(jì)的芯片,那還有海光等很多廠商都在做GPU,相比其他,GPU能夠進(jìn)行圖像運算工作,還能夠?qū)D形數(shù)據(jù)、顯示、可視計算等作出優(yōu)化加速,現(xiàn)在被用于通用計算的GPU也可以叫做GPGPU。因為圖形的結(jié)構(gòu)像素點之間是獨立的,圖像以矩陣形式存儲數(shù)據(jù),所以GPU的設(shè)計之初就基于大量和并行計算,配置了很多的晶體管作為計算單元,CPU的晶管就不多,所以GPU的浮點運算能力和超長的流水線處理能力就強(qiáng)一些。比較適合用于AI計算對芯片進(jìn)行大量重復(fù)運算的速度要求。也正是因為GPU所具備的峰值計算能力以及數(shù)據(jù)并行處理能力,GPU多用在深度學(xué)習(xí)的訓(xùn)練階段。此外,數(shù)據(jù)中心依賴大量互連的通用計算節(jié)點,GPU能打造出速度極快的計算節(jié)點,性能高于數(shù)百個速度較慢的通用計算節(jié)點,大幅提高數(shù)據(jù)中心的計算性能和數(shù)據(jù)量。海光芯片(深算1號)可以運行通用的大模型,只是效率比較差,海光正在開發(fā)深算2號。深算1號相當(dāng)于英偉達(dá)的P100的水平,但是性價比低,即便在openai最早訓(xùn)練GPT-3的時候,也采用了V100芯片。景嘉微最好的JM9系列產(chǎn)品,不過,景嘉微的產(chǎn)品目前只能用于圖形處理、圖像渲染。另外,還有國內(nèi)的一些互聯(lián)網(wǎng)大廠也在做AI芯片。比如阿里推出過含光800,百度在2020年發(fā)布的昆侖芯,騰訊在2021年發(fā)布的紫霄,以及華為的昇騰系列等等。但這些大廠的AI芯片大多也都屬于的定制版本,不具備真正的通用性,昇騰910主要用于訓(xùn)練環(huán)節(jié),而昇騰310主要用于推理環(huán)節(jié)。昇騰910半精度算力達(dá)到320 TOPS,整數(shù)精度算力達(dá)到640 TOPS,是英偉達(dá)V100的2倍以上,不過不如英偉達(dá)的H100,而且能運行大模型訓(xùn)練的多是英偉達(dá)的A100、A800、H100、H800,效率也是最高的,為什么不能用華為的昇騰910,主要是昇騰910通用性不佳,昇騰910只能用于華為自身生態(tài)中的大模型業(yè)務(wù)。在應(yīng)用上也面臨諸多限制。像華為的昇騰產(chǎn)品,應(yīng)用是在MindSpore這類華為自己的開發(fā)框架下,以及他們優(yōu)化好的大模型上。其他的模型想要用昇騰,就要經(jīng)過華為的深度優(yōu)化才能在華為的平臺上運行。國產(chǎn)算力、芯片領(lǐng)域,在部分領(lǐng)域?qū)崿F(xiàn)了一定的程度的國產(chǎn)替代,通用人工智能能力的涌現(xiàn)、生成式AI應(yīng)用的商業(yè)落地均離不開云端AI算力芯片支撐,由此數(shù)字和科技一路走過來,調(diào)整幾天就是一個新高突破,算力板塊已經(jīng)不知道反反復(fù)復(fù)的漲了多久了,只要算力需求在,就離不開對GPU產(chǎn)品的需求,自然也離不開這些寒武紀(jì)、景嘉微這些國產(chǎn)廠商。但這只是算力層面,而隨著大模型的發(fā)展越來越熱,市場對算力的需求仍將呈指數(shù)級上升,國產(chǎn)芯片廠商就要面臨如何解決算力的問題,還要面臨如何解決軟件生態(tài)和工具的問題。?

呂長順(凱恩斯) 證書編號:A0150619070003。【以上內(nèi)容僅代表個人觀點,不構(gòu)成買賣依據(jù),股市有風(fēng)險,投資需謹(jǐn)慎】? ? ?? ?????

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動
  • 綜合
  • 房產(chǎn)