DeepSeek發(fā)布236B參數(shù) 160位專家的專家混合(MoE)模型:DeepSeek-V2

UCloud小助手發(fā)布于2024-05-16 09:54 / 1449人閱讀

項(xiàng)目簡(jiǎn)介

DeepSeek-V2，一個(gè)專家混合(MoE)語(yǔ)言模型，其特點(diǎn)是經(jīng)濟(jì)高效的訓(xùn)練和推理。它包含 2360 億個(gè)總參數(shù)，其中每個(gè)token激活了21億個(gè)參數(shù)。與 DeepSeek67B相比，DeepSeek-V2 實(shí)現(xiàn)了更強(qiáng)的性能，同時(shí)節(jié)省了 42.5%的訓(xùn)練成本，將 KV 緩存減少了 93.3%，并將最大生成吞吐量提高了 5.76 倍。

在 AlignBench 中排名前三，超越 GPT-4，接近 GPT-4-Turbo。在MT-Bench 中排名頂尖，與 LLaMA3-70B不相上下，并且勝過(guò) Mixtral 8x22B。專注于數(shù)學(xué)、編碼和推理。

DeepSeek-V2 完全開(kāi)源，可免費(fèi)用于商業(yè)用途。

236B參數(shù)，其中21B在生成過(guò)程中被激活

160位專家，其中有6位在生成中活躍

在英文基準(zhǔn)測(cè)試中與 Mixtral 8x22B 匹配

128k上下文

在 8.1萬(wàn)億標(biāo)記上訓(xùn)練

用于在 bf16 8x 80GB GPU 上進(jìn)行推理

接受英語(yǔ)和中文語(yǔ)言訓(xùn)練

模型概述

DeepSeek-V2-Chat是一個(gè)先進(jìn)的Mixture-of-Experts(MoE)語(yǔ)言模型，具有高效的訓(xùn)練和推理能力，總參數(shù)量為2360億，每個(gè)token激活21億參數(shù)。與之前的版本相比，該模型在性能方面顯著提升，并降低了訓(xùn)練成本、KV緩存需求以及生成開(kāi)銷(xiāo)。

總體架構(gòu)

Mixture-of-Experts(MoE)結(jié)構(gòu): DeepSeek-V2-Chat基于混合專家的設(shè)計(jì)，允許每個(gè)輸入token僅激活部分參數(shù)，大幅降低內(nèi)存使用并提高計(jì)算效率。

參數(shù)規(guī)模

總參數(shù)量達(dá)到2360億，但每個(gè)token激活21億參數(shù)，從而實(shí)現(xiàn)性能與資源利用的平衡。

長(zhǎng)上下文窗口

支持長(zhǎng)達(dá)128K的上下文窗口。

性能優(yōu)勢(shì)

與Dense模型DeepSeek67B相比，DeepSeek-V2在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)更強(qiáng)。減少訓(xùn)練成本42.5%，KV緩存降低93.3%，并將最大生成吞吐量提高5.76倍。

數(shù)據(jù)訓(xùn)練

DeepSeek-V2在包含8.1萬(wàn)億token的多樣化高質(zhì)量語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練，并通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來(lái)充分發(fā)揮模型潛力。

模型價(jià)格：價(jià)格非常香！

模型下載

Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-v2-chat

推薦使用NVIDIA RTX 40 顯卡做模型推理，購(gòu)買(mǎi)地址如下：

http://www.ezyhdfw.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

GPU算力平臺(tái) 云服務(wù)器人工智能的專家領(lǐng)先的超防云服務(wù)器專家網(wǎng)站專家專家建議

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/131095.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

7分鐘零代碼快速搭建電商獨(dú)立站！

閱讀 1471·2025-04-29 17:46
煥新季出海大促來(lái)襲！香港回內(nèi)地網(wǎng)絡(luò)大升級(jí)~海內(nèi)外云主機(jī)2C4G低至 27元/月！出海業(yè)務(wù)必選

閱讀 13964·2025-03-21 11:44
DeepSeek從入門(mén)到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識(shí)庫(kù)

閱讀 804·2025-02-19 18:27
DeepSeek從入門(mén)到精通（1）：10分鐘用DeepSeek搭建私有化知識(shí)庫(kù)

閱讀 978·2025-02-19 18:21
基于Ktransformers的DeepSeek-R1滿血版部署

閱讀 1013·2025-02-19 13:50
UCloud X DeepSeek V3、R1滿血版橫向大對(duì)比！

閱讀 2020·2025-02-13 22:35
基于unsloth的DeepSeek-R1動(dòng)態(tài)量化版本部署

閱讀 1676·2025-02-08 10:20
2025年U大使新年軟文推廣限時(shí)活動(dòng)

閱讀 6024·2025-01-02 11:25

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

DeepSeek發(fā)布236B參數(shù) 160位專家的專家混合(MoE)模型:DeepSeek-V2

相關(guān)文章

**UCloud X DeepSeek V3、R1滿血版橫向大對(duì)比！**

**基于Ktransformers的DeepSeek-R1滿血版部署**

全球首個(gè)“混合云+SD-WAN”融合產(chǎn)品正式發(fā)布

發(fā)表評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

TA的文章

7分鐘零代碼快速搭建電商獨(dú)立站！

煥新季出海大促來(lái)襲！香港回內(nèi)地網(wǎng)絡(luò)大升級(jí)~海內(nèi)外云主機(jī)2C4G低至 27元/月！出海業(yè)務(wù)必選

DeepSeek從入門(mén)到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識(shí)庫(kù)

DeepSeek從入門(mén)到精通（1）：10分鐘用DeepSeek搭建私有化知識(shí)庫(kù)

基于Ktransformers的DeepSeek-R1滿血版部署

UCloud X DeepSeek V3、R1滿血版橫向大對(duì)比！

基于unsloth的DeepSeek-R1動(dòng)態(tài)量化版本部署

2025年U大使新年軟文推廣限時(shí)活動(dòng)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

DeepSeek發(fā)布236B參數(shù) 160位專家的專家混合(MoE)模型:DeepSeek-V2

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！