近年來,大型語言模型(LLM)的誕生刺激了對即插即用人工智能系統(tǒng)的需求不斷增長,而在各種人工智能技術中,Prompt工程,即通過不斷調(diào)整給予大模型的指令以優(yōu)化大模型生成結(jié)果顯得尤為重要。
然而,由于陡峭的學習曲線和大量的時間投入,用戶在編寫提示時經(jīng)常面臨挑戰(zhàn),就連目前最熟練的“提示工程師”也很難保證調(diào)試出最優(yōu)化的提示,而這限制了大模型實際落地的效果。同時,現(xiàn)有的自動提示工程(APE)模型可能難以使用。
為了解決這個痛點,來自北京大學的團隊提出了一套“即插即用”的提示自動增強系統(tǒng)——PAS,一種基于LLM的即插即用APE系統(tǒng)。PAS 利用在高質(zhì)量、自動生成的即時補充數(shù)據(jù)集上進行訓練的大語言模型,從而實現(xiàn)了卓越的性能。它不僅實現(xiàn)了超過6個層次的效果提升,更重要的是,它真正實現(xiàn)了“全自動化”的效果,將“提示工程師”從繁瑣的調(diào)試工作中解放出來,為大模型的應用打開了新的篇章,接下來本文將簡單介紹一下這個系統(tǒng)。
近年來,大語言模型(LLM)的快速發(fā)展凸顯了數(shù)據(jù)管理和人工智能系統(tǒng)在利用這些技術方面的重要性,作為提升LLMs性能的關鍵技術之一,自動提示工程(Automatic Prompt Engineering,APE)的目標是通過自動化的方式增強提示(prompts),以改善LLMs在特定任務的性能,并減少人工干預和時間成本。
然而,現(xiàn)有的提示工程方法,包括鏈式思考(Chain of Thought)和思維樹(Tree of Thought)等策略,雖然在編程上提高了邏輯的一致性和準確性,但缺乏可擴展性。此外,近期的一些其他提示工程研究,包括從優(yōu)化器視角自動尋找提示的方法,以及將演化算法引入到特定領域的離散提示優(yōu)化中,雖然表現(xiàn)出了一定的潛力,但在實際應用中面臨著明顯的挑戰(zhàn),如評估每個提示的適應度需要大量資源,而探索多組提示的適應度會帶來巨大的負擔。
本文介紹的即插即用系統(tǒng)(Plug-and-Play Systems,PAS)因其在不同機器學習工作流程中的模塊化和易集成性而受到重視,這些系統(tǒng)允許快速靈活地增強功能,輕松添加或替換新的處理模塊,而無需重新設計整個算法。由于它們能夠無縫增強現(xiàn)有AI系統(tǒng)的功能,隨著LLM技術的快速發(fā)展,對即插即用系統(tǒng)的需求也在不斷增長。本文提出的PAS方法,正是基于即插即用系統(tǒng)所實現(xiàn)的,通過簡單地增強輸入提示,并充分了利用底座LLM的優(yōu)勢,不僅成本效益高,而且使得計算資源的利用更加優(yōu)化。
本文從LMSYS-1M數(shù)據(jù)集和WildChat數(shù)據(jù)集中選擇高質(zhì)量的Prompt,數(shù)據(jù)選擇過程包括三個主要步驟:
首先,使用SimCSE模型通過嵌入對Prompt進行去重,然后應用HNSW聚類算法對這些嵌入進行分組,并從每個聚類中提取少量數(shù)據(jù)以減少冗余。
隨后,進行質(zhì)量篩選,使用BaiChuan 13b模型對數(shù)據(jù)進行評分,從而篩選出低質(zhì)量的樣本,提高整體數(shù)據(jù)質(zhì)量。
最后,利用BaiChuan內(nèi)部標記的6萬個分類數(shù)據(jù)對BaiChuan 13b模型進行微調(diào),然后使用該分類模型將Prompt歸類為常用的類別,如問答(Q&A)和編碼。這一系列步驟確保了數(shù)據(jù)的多樣性、質(zhì)量和準確分類。
在自動補充Prompt數(shù)據(jù)生成階段,本文設計了一個基于少樣本學習(FewShot Learning)的自動化數(shù)據(jù)生成Pipeline。該算法主要包括兩個階段:
首先,在“數(shù)據(jù)生成”階段,研究者們利用一組精選的golden數(shù)據(jù)對上述每個類別中的Prompt進行少樣本學習(FewShot Learning),以生成相應的補充Prompt。這些golden數(shù)據(jù)包含了每個類別的少量示例,它們作為生成高質(zhì)量(Prompt,補充Prompt)對的基礎。生成的“Prompt-補充Prompt”對隨后被添加到生成的數(shù)據(jù)集中。
為確保數(shù)據(jù)集的質(zhì)量,在“數(shù)據(jù)選擇和再生”階段,每個生成的“Prompt-補充Prompt”對都會經(jīng)過評估,以確定其正確性。如果評估結(jié)果不正確,該對會被移除,并重新進入“數(shù)據(jù)生成”階段,利用少樣本學習重新生成答案,直至生成正確答案。這一過程不斷迭代,直到所有的“Prompt-補充Prompt”對都達到預期的質(zhì)量標準。
通過這一自動化的數(shù)據(jù)生成和嚴格的選擇再生流程,最終生成的數(shù)據(jù)集包含了大約9000個高質(zhì)量的(Prompt,補充Prompt)對,這些數(shù)據(jù)被分為14個類別,每個類別包含大約500個數(shù)據(jù),覆蓋了絕大多數(shù)常見的Prompt類別。
前述的數(shù)據(jù)生成Pipeline創(chuàng)建的高質(zhì)量(Prompt,補充Prompt)數(shù)據(jù)對被用于微調(diào)選定的LLMs,以賦予它們自動生成補充Prompt的能力,從而得到PAS模型。當?shù)玫窖a充Prompt后,將其與原始Prompt進行拼接,輸入到下一個LLMs當中,生成最終的答案。
作為一個自動的提示補充工具,PAS可以集成到任何可用的LLMs中,通過公共API或開放參數(shù)進行集成。這種靈活性使得PAS能夠在不同的平臺和系統(tǒng)中廣泛應用,增強現(xiàn)有LLMs的能力,而無需進行廣泛的重新訓練或修改。
隨著LLM技術的應用和實踐經(jīng)驗的不斷積累,“如何編寫Prompt”也逐步形成了一套新的方法論。然而,實際操作過的人可能都會有這樣的體驗:即使“理想再美好”,LLM實際輸出的結(jié)果往往與我們的預期存在一定的“小差距”。因此,不斷地調(diào)整和優(yōu)化Prompt以縮小這些“小差距”無疑是一項既耗時又耗力的任務。
而本文提出的PAS系統(tǒng)就旨在解決這一痛點,通過自動化的Prompt補充,顯著提高了LLMs的性能,與之前最先進的模型BPO相比實現(xiàn)了超過6個百分點的提升。而PAS這一成果的取得也僅僅只使用了BPO 不到65%的微調(diào)數(shù)據(jù)量,進一步展示了PAS在數(shù)據(jù)效率上的優(yōu)勢,為APE的研究和拓展提供了一個強有力的指導方向。
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/131137.html
摘要:日前,活字格應用生成平臺發(fā)布版本,首次公開插件機制,強大的擴展性和系統(tǒng)集成能力,引起業(yè)內(nèi)矚目?;钭指褚矐\而生,伴隨強勢發(fā)布。 日前,活字格Web 應用生成平臺發(fā)布V4.0版本,首次公開插件機制,強大的擴展性和系統(tǒng)集成能力,引起業(yè)內(nèi)矚目。 活字格是由西安葡萄城自主研發(fā)的 Web 應用生成平臺,提供易用的類Excel可視化設計器和靈活的定制能力,幫助使用者以無代碼或少寫代碼的方式,快速自...
摘要:關注的目標就是在代碼提交之后,順利且迅速的把新的功能部署到產(chǎn)品環(huán)境上。由于是,那么單元測試,回歸測試,集成測試,都是實現(xiàn)的手段。高質(zhì)量的產(chǎn)品需求書和高質(zhì)量的自動化集成測試用例毫無疑問,是高質(zhì)量軟件的保證之一。 showImg(https://segmentfault.com/img/remote/1460000006877091?w=800&h=600); 什么是Test-Driven...
摘要:自制,即插即用微信網(wǎng)頁授權模塊,修改配置文件即可使用,開發(fā)測試版本倉庫歡迎交流和關注。因為它需要在文件中緩存和。 自制,即插即用微信網(wǎng)頁授權模塊,修改配置文件即可使用,開發(fā)測試版本CodeIgniter 3.0.6 Github倉庫: CodeIgniter-Weixin_Library歡迎交流和關注。 README.md CodeIgniter-Weixin_Library 即插即...
閱讀 1470·2025-04-29 17:46
閱讀 13964·2025-03-21 11:44
閱讀 804·2025-02-19 18:27
閱讀 978·2025-02-19 18:21
閱讀 1013·2025-02-19 13:50
閱讀 2020·2025-02-13 22:35
閱讀 1676·2025-02-08 10:20
閱讀 6024·2025-01-02 11:25