無問芯穹Qllm-Eval：制作多模型、多參數(shù)、多維度的量化方案

UCloud小助手發(fā)布于2024-06-25 11:55 / 607人閱讀

前言

近年來，大語言模型（Large Models, LLMs）受到學術界和工業(yè)界的廣泛關注，得益于其在各種語言生成任務上的出色表現(xiàn)，大語言模型推動了各種人工智能應用（例如ChatGPT、Copilot等）的發(fā)展。然而，大模型的落地應用受到其較大的推理開銷的限制，對部署資源、用戶體驗、經(jīng)濟成本都帶來了巨大挑戰(zhàn)。

大模型壓縮，即將大模型“瘦身”后塞進資源受限的場景，以減少模型存儲、訪存和計算開銷。在盡量不損失模型性能的前提下，提高大模型推理吞吐速度，使大模型在物聯(lián)網(wǎng)邊緣設備、嵌入式機器人、離線移動應用等邊、端場景中保持優(yōu)秀的推理性能和功耗表現(xiàn)。

就在最近，來自清華大學電子工程系、無問芯穹和上海交通大學的研究團隊展開了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務上的性能，本篇工作已被ICML'24接收。Qllm-Eval列舉出很多大模型落地環(huán)節(jié)應當關注的模型能力，對產(chǎn)業(yè)中的模型量化工作實踐，比如如何選取量化方法、針對哪些層或組件進行優(yōu)化等問題具有指導意義，下圖是羅列的一些重要知識點。

訓練后量化(Post-Training Quantization，PTQ)

大模型推理過程包括兩個階段：Prefill階段和Decoding階段：

Prefill階段的主要算子為矩陣-矩陣乘（GEMM），其推理速度受限于計算速度。
Decoding階段的主要算子為矩陣-向量乘（GEMV），其推理速度主要受限于訪存速度。
當處理涉及長文本或大批量大小的任務時，KV Cache的存儲開銷會超過權重的存儲開銷。

訓練后量化（Post-Training Quantization，PTQ）是大模型壓縮的常用技術，其核心原理是將大模型的權重、激活值、KV Cache使用低精度格式表示，從而降低大模型在存儲和計算上的開銷。

在深度學習模型中，權重（weights）、激活值（activations）和鍵值緩存（KV Cache）等數(shù)值通常以32位或16位的浮點數(shù)（floats）來表示，這些浮點數(shù)可以有非常精確的數(shù)值，但同時也意味著模型會占用較大的存儲空間，并且需要比較多的計算資源來處理。

如果將浮點數(shù)從16位轉(zhuǎn)換成8位或者更低，好處是模型的大小會顯著減少，因為每個參數(shù)只需要不到50%的存儲空間，同時，使用整數(shù)進行計算通常比浮點數(shù)更快。

不同量化方式給大模型帶來的影響

但量化壓縮通常是有損的，不同量化方式的設計會對模型性能帶來不同的影響。為了探究不同量化方式對不同模型究竟會產(chǎn)生什么樣的影響，并幫助特定模型選擇更適合的量化方案，來自清華大學電子工程系、無問芯穹和上海交通大學的研究團隊展開了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務上的性能。

Qllm-Eval評測的量化張量類型包括權重（W）、權重-激活（WA）、KV Cache（KV），通過評估 PTQ 對 11 個系列模型（包括 OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma 和 Mamba）的權重、激活和 KV 緩存的影響，對這些因素進行了全面評估，覆蓋了從 125M 到 180B的參數(shù)范圍。另外還評估了最先進的（SOTA）量化方法，以驗證其適用性。同時在大量實驗的基礎上，系統(tǒng)總結了量化的效果，提出了應用量化技術的建議，并指出了大模型量化工作未來的發(fā)展方向。

大模型推理效率瓶頸分析

目前主流的大語言模型都是基于Transformer架構進行設計。通常來說，一個完整的模型架構由多個相同結構的Transformer塊組成，每個Transformer塊則包含多頭自注意力（Multi-Head Self-Attention, MHSA）模塊、前饋神經(jīng)網(wǎng)絡（Feed Forward Network, FFN）和層歸一化（Layer Normalization，LN）操作。

大語言模型通常自回歸（Auto-regressive）的方式生成輸出序列，即模型逐個詞塊生成，且生成每個詞塊時需要將前序的所有詞塊（包括輸入詞塊和前面已生成的詞塊）全部作為模型的輸入。因此，隨著輸出序列的增長，推理過程的開銷顯著增大。為了解決該問題，KV緩存技術被提出，該技術通過存儲和復用前序詞塊在計算注意力機制時產(chǎn)生的Key和Value向量，減少大量計算上的冗余，用一定的存儲開銷換取了顯著的加速效果?；贙V緩存技術，通?？梢詫⒋笳Z言模型的推理過程劃分為兩個階段（分別如下左圖和右圖所示）：

左：預填充（Prefilling）階段：大語言模型計算并存儲輸入序列中詞塊的Key和Value向量，并生成第一個輸出詞塊。

右：解碼（Decoding）階段：大語言模型利用KV緩存技術逐個生成輸出詞塊，并在每步生成后存儲新詞塊的Key和Value向量。

數(shù)據(jù)層優(yōu)化技術

數(shù)據(jù)層優(yōu)化技術可以劃分為兩大類：輸入壓縮（Input Compression）和輸出規(guī)劃（Output Organization）。

輸入壓縮技術

在實際利用大語言模型做回答時，通常會在輸入提示詞中加入一些輔助內(nèi)容來增強模型的回答質(zhì)量，例如，上下文學習技術（In-Context Learning，ICL）提出在輸入中加入多個相關的問答例子來教模型如何作答。然而，這些技術不可避免地會增長輸入詞提示的長度，導致模型推理的開銷增大。為了解決該問題，輸入壓縮技術通過直接減小輸入的長度來優(yōu)化模型的推理效率。

本綜述將該類技術進一步劃分為四個小類，分別為：

提示詞剪枝（Prompt Pruning）：通常根據(jù)設計好的重要度評估指標刪除輸入提示詞中不重要的詞塊、句子或文段，對被壓縮的輸入提示詞執(zhí)行在線壓縮。
提示詞總結（Prompt Summary）：通過對輸入提示詞做文本總結任務，在保證其語義信息相同地情況下縮短輸入的長度。該壓縮過程通常也是在線執(zhí)行的。
基于軟提示詞的壓縮（Soft Prompt-based Compression）：通過微調(diào)訓練的方式得到一個長度較短的軟提示詞，代替原先的輸入提示詞（在線執(zhí)行）或其中固定的一部分內(nèi)容（離線執(zhí)行）。其中，軟提示詞指連續(xù)的、可學習的詞塊序列，可以通過訓練的方式學習得到。
檢索增強生成（Retrieval-Augmented Generation）：通過檢索和輸入相關的輔助內(nèi)容，并只將這些相關的內(nèi)容加入到輸入提示詞中，來降低原本的輸入長度（相比于加入所有輔助內(nèi)容）。

輸出規(guī)劃技術

傳統(tǒng)的生成解碼方式是完全串行的，輸出規(guī)劃技術通過規(guī)劃輸出內(nèi)容，并行生成某些部分的的輸出來降低端到端的推理延時。以該領域最早的工作“思維骨架”（Skeleton-of-Thought，以下簡稱SoT）為例，SoT技術的核心思想是讓大語言模型自行規(guī)劃輸出的并行結構，并基于該結構進行并行解碼，提升硬件利用率，減少端到端生成延時。

具體來說，如下圖所示，SoT將大語言模型的生成分為兩個階段：在提綱階段，SoT通過設計的提示詞讓大語言模型輸出答案的大綱；在分點擴展階段，SoT讓大語言模型基于大綱中的每一個分點并行做擴展，最后將所有分點擴展的答案合并起來。SoT技術讓包含LLaMA-2、Vicuna模型在內(nèi)的9種主流大語言模型的生成過程加速1.9倍以上，最高可達2.39倍。在SoT技術發(fā)布后，一些研究工作通過微調(diào)大語言模型、前后端協(xié)同優(yōu)化等方式優(yōu)化輸出規(guī)劃技術，達到了更好的加速比和回答質(zhì)量之間的權衡點。

未來方向

本文進一步總結了未來的四個關鍵應用場景，并討論了高效性研究在這些場景中的重要性：

智能體和多模型框架。在最近的研究中，大語言模型智能體和多模型協(xié)同框架受到了許多關注，這類技術可以提升大語言模型的應用能力，使得模型能更好地服務于人類。然而模型的數(shù)量增多，以及輸入到模型中的指令變長，都會使得智能體或框架系統(tǒng)的推理效率變低。因此需要面向這些框架和場景進行大模型的推理效率優(yōu)化。
長文本場景。隨著輸入模型文本變得越來越長，大語言模型的效率優(yōu)化需求變得愈發(fā)提升。目前在數(shù)據(jù)層、模型層和系統(tǒng)層均有相關的技術來優(yōu)化長文本場景下大語言模型的推理效率，其中設計Transformer的替代新架構受到了許多關注，然而這類架構還未被充分探索，其是否能匹敵傳統(tǒng)的Transformer模型仍未清楚。
邊緣端部署。最近，許多研究工作開始關注于將大語言模型部署到邊緣設備上，例如移動手機。一類工作致力于設計將大模型變小，通過直接訓練小模型或模型壓縮等途徑達到該目的；另一類工作聚焦于系統(tǒng)層的優(yōu)化，通過算子融合、內(nèi)存管理等技術，直接將70億參數(shù)規(guī)模的大模型成功部署到移動手機上。
安全-效率協(xié)同優(yōu)化。除了任務精度和推理效率外，大語言模型的安全性也是一個需要被考量的指標。當前的高效性研究均未考慮優(yōu)化技術對模型安全性的影響。若這些優(yōu)化技術對模型的安全性產(chǎn)生了負面影響，一個可能的研究方向就是設計新的優(yōu)化方法，或改進已有的方法，使得模型的安全性和效率能一同被考量。
推薦使用NVIDIA RTX 40 顯卡做模型推理：

http://www.ezyhdfw.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

GPU算力平臺多參數(shù)過程 python多參數(shù) python 多參數(shù) java 多參數(shù)返回

文章版權歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/131114.html

輕量化神經(jīng)網(wǎng)絡

摘要：是第一個提出體積小，計算量少，適用于移動設備的卷積神經(jīng)網(wǎng)絡。圖卷積運算匯總參考圖與神經(jīng)網(wǎng)絡架構搜索卷積神經(jīng)網(wǎng)絡已被廣泛用于圖像分類人臉識別目標檢測和其他領域。 1、基本卷積運算手工設計輕量化模型主要思想在于設計更高效的網(wǎng)絡計算方式（主要針對卷積方式），從而使網(wǎng)絡參數(shù)減少，并且不損失網(wǎng)絡性能。本節(jié)概述了CNN模型（如MobileNet及其變體）中使用的基本卷積運算單元，并基于空間維度和通道維度...

curried 2019-04-25 18:30 評論0 收藏0
Goodfellow回谷歌后首篇GAN論文：可遷移性對抗樣本空間

摘要：論文可遷移性對抗樣本空間摘要對抗樣本是在正常的輸入樣本中故意添加細微的干擾，旨在測試時誤導機器學習模型。這種現(xiàn)象使得研究人員能夠利用對抗樣本攻擊部署的機器學習系統(tǒng)。現(xiàn)在，卷積神經(jīng)網(wǎng)絡（CNN）識別圖像的能力已經(jīng)到了出神入化的地步，你可能知道在 ImageNet 競賽中，神經(jīng)網(wǎng)絡對圖像識別的準確率已經(jīng)超過了人。但同時，另一種奇怪的情況也在發(fā)生。拿一張計算機已經(jīng)識別得比較準確的圖像，稍作調(diào)整，...

mtunique 2019-04-25 18:12 評論0 收藏0
阿里AI設計師一秒出圖，小撒連連驚呼，真相是...

摘要：節(jié)目中，鹿班將接受設計領域的兩輪檢驗，如果鹿班的作品被現(xiàn)場觀眾成功找出，則認為鹿班通過檢驗。近期，央視《機智過人》的舞臺上來了位三超設計師——設計能力超強；出圖能力超快；抗壓能力超強，成功迷惑嘉賓和現(xiàn)場觀眾，更讓撒貝寧出錯三連。節(jié)目一開場，這位設計師就為現(xiàn)場嘉賓：主持人撒貝寧、演員韓雪、神經(jīng)科學家魯白生成了三張獨具特色的海報。幾乎是說話的瞬間，海報立即生成，出圖速度之快讓撒貝寧驚呼...

icattlecoder 2019-06-26 18:39 評論0 收藏0
深度學習在推薦領域的應用

摘要：調(diào)研首先要確定微博領域的數(shù)據(jù)，關于微博的數(shù)據(jù)可以這樣分類用戶基礎數(shù)據(jù)年齡性別公司郵箱地點公司等。這意味著深度學習在推薦領域應用的關鍵技術點已被解決。當2012年Facebook在廣告領域開始應用定制化受眾（Facebook Custom Audiences）功能后，受眾發(fā)現(xiàn)這個概念真正得到大規(guī)模應用，什么叫受眾發(fā)現(xiàn)？如果你的企業(yè)已經(jīng)積累了一定的客戶，無論這些客戶是否關注你或者是否跟你在Fa...

tanglijun 2019-04-25 18:14 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關注我要私信

TA的文章

7分鐘零代碼快速搭建電商獨立站！

閱讀 1470·2025-04-29 17:46
煥新季出海大促來襲！香港回內(nèi)地網(wǎng)絡大升級~海內(nèi)外云主機2C4G低至 27元/月！出海業(yè)務必選

閱讀 13964·2025-03-21 11:44
DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

閱讀 804·2025-02-19 18:27
DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

閱讀 978·2025-02-19 18:21
基于Ktransformers的DeepSeek-R1滿血版部署

閱讀 1013·2025-02-19 13:50
UCloud X DeepSeek V3、R1滿血版橫向大對比！

閱讀 2020·2025-02-13 22:35
基于unsloth的DeepSeek-R1動態(tài)量化版本部署

閱讀 1676·2025-02-08 10:20
2025年U大使新年軟文推廣限時活動

閱讀 6024·2025-01-02 11:25

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

無問芯穹Qllm-Eval：制作多模型、多參數(shù)、多維度的量化方案

前言

訓練后量化(Post-Training Quantization，PTQ)

不同量化方式給大模型帶來的影響

大模型推理效率瓶頸分析