亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

一張頂20張H100,速度10倍于B200:史上最快AI芯片,華人制造

UCloud小助手 / 423人閱讀
在談到 AI、大模型、算力等關鍵詞時,如果要提及硬件產品,很多人應該會不假思索的說出英偉達。的確,在全球都缺算力的環(huán)境下,英偉達的地位是獨特又難以撼動的。

然而就在近日,有一家公司帶著自己的 AI 芯片來叫板了。
昨天凌晨,科技圈迎來了一個重要新聞。成立時間不到兩年的美國芯片初創(chuàng)公司 Etched 推出了自己的第一塊 AI 芯片 Sohu,它運行大模型的速度比英偉達 H100 要快 20 倍,比今年 3 月才推出的頂配芯片 B200 也要快上超過 10 倍。
“Sohu”什么來頭?
Sohu 是世界第一款專用于 Transformer 計算的芯片,歷時兩年打造。
作為一塊 ASIC(專用集成電路),Sohu 芯片最大的亮點在于直接把 Transformer 架構蝕刻到芯片中,烏伯蒂稱 Sohu 采用臺積電的 4 納米工藝制造,推理性能大大優(yōu)于 GPU 和其他通用人工智能芯片,同時能耗更低,而如今的每款主流 AI 產品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驅動的。
在 Llama 70B 吞吐量中,Sohu 每秒可處理超過 50萬個 tokens,讓用戶可以構建 GPU 無法實現的產品。
Sohu 能夠實現實時語音代理、毫秒級處理數千字文本、更強大的代碼樹搜索、并行比較數百個響應、多播推測解碼以及實時生成新內容等功能,為未來萬億級參數模型的運行提供了可能。
速度 H100 20 倍,FLOPS 利用率超 90%
作為世界上首款 transformer ASIC(應用型)芯片,一臺集成了 8 塊 Sohu 的服務器可以匹敵 160 塊 H100 GPU。也即,Sohu 的運行速度是 H100 的 20 多倍。
具體來講,通過專門化,Sohu 具備了前所未有的性能。一臺集成 8 塊 Sohu 芯片的服務器每秒可以處理 50 萬的 Llama 7B tokens。
針對 Llama 3 70B 的 FP8 精度基準測試顯示:無稀疏性、8 倍模型并行、2048 輸入或 128 輸出長度。
此外,對于 Llama、Stable Diffusion 3,Sohu 僅支持 transformer 推理。Sohu 支持了當前谷歌、Meta、微軟、OpenAI、Anthropic 等各家的模型,未來還會適配模型調整。
由于 Sohu 僅能運行一種算法,因此可以刪除絕大多數控制流邏輯,從而允許擁有更多數學塊。也因此,Sohu 實現了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 約為 30%。

軟件如何工作

在 GPU 和 TPU 上,軟件是一場噩夢。處理任意 CUDA 和 PyTorch 代碼需要極其復雜的編譯器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在軟件上總共花費了數十億美元,但收效甚微。
而 Sohu 只運行 transformer,因此只需要為 transformer 編寫軟件。
大多數運行開源或內部模型的公司都使用特定于 transformer 的推理庫,比如 TensorRT-LLM,vLLM 或 HuggingFace 的 TGI。
這些框架非常僵化,雖然你可以進行模型超參數調優(yōu),但實際上不支持更改底層模型代碼。但這沒關系,因為所有 transformer 模型都非常相似(甚至是文本 / 圖像 / 視頻模型),所以超參數調優(yōu)就是你真正需要的。
雖然 95% 的 AI 公司是這樣,但一些最大的 AI 實驗室采用定制方式。他們有工程師團隊來手動調整 GPU 核心以實現更高的利用率,并進行逆向工程以將寄存器對每個張量核心的延遲將至最低。
Etched 讓我們不需要再進行逆向工程,他們的軟件(從驅動程序、內核到服務堆棧)都將是開源的。如果你想實現自定義 transformer 層,則內核向導可以自由地這樣做。

創(chuàng)業(yè)團隊:哈佛輟學生領銜

打造 Sohu 芯片的 Etched 位于加州庫比蒂諾,公司成立僅兩年,目前團隊只有 35 人,創(chuàng)始人是一對哈佛輟學生 Gavin Uberti(前 OctoML 和前 Xnor.ai 員工)和 Chris Zhu,他們與 Robert Wachen 和前賽普拉斯半導體公司首席技術官 Mark Ross 一起,一直致力于打造專用于 AI 大模型的芯片。兩人在2022年就聲稱Transformer將改變世界。領英資料也顯示公司創(chuàng)立時間在2022年10月,比ChatGPT問世還早一個月。

在 Sohu 芯片發(fā)布的同時,Etched 也宣布已完成了 1.2 億美元的 A 輪融資,由 Primary Venture Partners 和 Positive Sum Ventures 共同領投。Etched 的總融資額已達到 1.2536 億美元,本輪融資的重要投資者包括 Peter Thiel、GitHub 首席執(zhí)行官 Thomas Dohmke、Cruise 聯合創(chuàng)始人 Kyle Vogt 和 Quora 聯合創(chuàng)始人 Charlie Cheever。
Uberti 聲稱到目前為止,已有匿名客戶預訂了「數千萬美元」的硬件,預計在今年三季度,Sohu 將推向市場。
未來真的如 Uberti 所說,只有在 Sohu 這樣的芯片上,視頻生成、音頻生成、具身智能等技術才能真正落地嗎?

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://www.ezyhdfw.cn/yun/131121.html

相關文章

  • 深度學習out了?深度解讀AI領域三大前瞻技術

    摘要:而這種舉一反三的能力在機器學習領域同樣適用,科學家將其稱之為遷移學習。與深度學習相比,我們技術較大優(yōu)點是具有可證明的性能保證。近幾年的人工智能熱潮中,深度學習是最主流的技術,以及之后的成功,更是使其幾乎成為的代名詞。 如今,人類將自己的未來放到了技術手里,無論是讓人工智能更像人類思考的算法,還是讓機器人大腦運轉更快的芯片,都在向奇點靠近。谷歌工程總監(jiān)、《奇點臨近》的作者庫茲韋爾認為,一旦智能...

    muddyway 評論0 收藏0
  • 模型領域GPU性能排名

    圖示為GPU性能排行榜,我們可以看到所有GPU的原始相關性能圖表。同時根據訓練、推理能力由高到低做了排名。我們可以看到,H100 GPU的8位性能與16位性能的優(yōu)化與其他GPU存在巨大差距。針對大模型訓練來說,H100和A100有絕對的優(yōu)勢首先,從架構角度來看,A100采用了NVIDIA的Ampere架構,而H100則是基于Hopper架構。Ampere架構以其高效的圖形處理性能和多任務處理能力而...

    UCloud小助手 評論0 收藏0
  • 大模型推理為什么4090更合適?

    大模型的訓練用4090是不合適的,但推理(inference/serving)用4090不能說合適,而是非常香!直接上圖!通過Tensor FP32(TF32)的數據來看,H100性能是全方面碾壓4090,但是頂不住H100價格太貴,推理上使用性價比極低。但在和A100的PK中,4090與A100除了在顯存和通信上有差異,算力差異與顯存相比并不大,而4090是A100價格的1/10,因此如果用在模...

    UCloud小助手 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<