亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

一直爆料OpenAI「草莓」的賬號,竟然是個智能體?Agent Q橫空出世,AI界新秀or營銷大師

UCloud小助手 / 1322人閱讀

當炒作出了「潑天的流量」,已經(jīng)沒人關(guān)心產(chǎn)品厲不厲害了。

近日,OpenAI 的秘密項目「Q*」引起了業(yè)內(nèi)人士的廣泛關(guān)注。上個月,代號為「草莓(Strawberry)」的項目曝光,據(jù)說它是「Q*」的延續(xù),并可能具備高級推理能力。

而就在最近幾天,關(guān)于這個項目,網(wǎng)絡上又來了幾波「鴿死人不償命」的傳播。尤其是一個「草莓哥」的賬號,不間斷地宣傳,給人期望又讓人失望。

image.png

網(wǎng)友們對Agent Q背后的技術(shù)充滿了好奇。有人猜測,這背后可能有OpenAI的Q*項目加持。MultiOn公司不僅給Agent Q開設(shè)了獨立的推特賬號,而且賬號的背景圖片和基本信息都與草莓有關(guān),這無疑增加了人們對其背后技術(shù)的好奇。

沒想到,這個 Sam Altman 出現(xiàn)在哪里,它就在哪里跟帖的「營銷號」,皮下竟然是個智能體?

當?shù)貢r間8月14日,一家 AI 智能體初創(chuàng)公司「MultiOn」的創(chuàng)始人直接出來認領(lǐng):雖然沒等來 OpenAI 發(fā)布「Q*」,但我們發(fā)了操控「草莓哥」賬號的全新智能體 Agent Q,快來和我們在線玩耍吧!

OpenAI 這一波營銷操作讓很多人都感到困惑,仿佛是在為自己鋪路卻又讓人摸不著頭腦。畢竟,最近不少人熬夜等待 OpenAI 的「大新聞」。事情的起因要追溯到 Sam Altman 與「草莓哥」的互動——在 Sam Altman 曬出的草莓照片下,他回復「草莓哥」說:驚喜馬上就來。

image.png

不過,「MultiOn」的創(chuàng)始人 Div Garg 已悄悄刪除了他認領(lǐng) Agent Q 就是「草莓哥」的帖子。

這次,「MultiOn」宣布推出了突破性的 AI 智能體 Agent Q。該智能體的訓練方法結(jié)合了蒙特卡洛樹搜索(MCTS)自我批評,并通過一種名為直接偏好優(yōu)化(DPO)的算法學習人類反饋。


Agent Q 是什么

Agent Q是MultiOn公司聯(lián)合斯坦福大學推出的自監(jiān)督代理推理和搜索框架。Agent Q融合了引導式蒙特卡洛樹搜索(MCTS)AI自我批評直接偏好優(yōu)化(DPO)等技術(shù),使A1模型能通過迭代微調(diào)和基于人類反饋的強化學習進行自我改進。Agent Q在網(wǎng)頁導航和多步任務執(zhí)行中展現(xiàn)出色性能,在OpenTable真實預訂任務中,將成功率從18.6%提升至95.4%,標志著A在自主性和復雜決策能力上的重大突破。

作為具有規(guī)劃和 AI 自我修復功能的下一代智能體,Agent Q 的性能是 LLaMA 3 基線零樣本性能的 3.4 倍。在真實場景任務的評估中,Agent Q 的成功率高達 95.4%。

Agent Q結(jié)合了搜索、自我反思和強化學習,能夠進行規(guī)劃和自我修復。它通過引入一種新的學習和推理框架,解決了之前LLM訓練技術(shù)的局限性,使其能夠?qū)崿F(xiàn)自主網(wǎng)頁導航。

它能夠為你預定某個時間某家餐廳的座位。

image.png

然后為你執(zhí)行網(wǎng)頁操作,比如查詢空位情況。最終成功預定。

image.png

此外還能預定航班(比如本周六從紐約飛往舊金山,單程、靠窗和經(jīng)濟艙)。

image.png

在模擬網(wǎng)上商店的任務中,Agent Q展現(xiàn)了強大的搜索能力。而在Open Table的真實預訂任務中,Agent Q更是將LLaMa-3的零樣本成功率從18.6%提升至81.7%,分數(shù)提高比例達340%,而且僅經(jīng)過了一天的自主數(shù)據(jù)收集。

image.png

不過,網(wǎng)友似乎對 Agent Q 并不買賬。大家關(guān)心更多的還是他們是否真的借「草莓哥」賬號炒作的事情,甚至有些人稱他們?yōu)闊o恥的騙子。

重要組件和方法概覽

目前,Agent Q 的相關(guān)論文已經(jīng)放出,由 MultiOn 和斯坦福大學的研究者聯(lián)合撰寫。這項研究的成果將在今年晚些時候向開發(fā)人員和使用 MultiOn 的普通用戶開放。

image.png

論文地址:

https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

總結(jié)一下:Agent Q 能夠自主地在網(wǎng)頁上進行規(guī)劃,并具備自我糾錯的能力。它能夠從成功和失敗的經(jīng)驗中學習,不斷提升在復雜任務中的表現(xiàn)。最終,這款智能體能夠更好地規(guī)劃如何在互聯(lián)網(wǎng)上操作,以適應現(xiàn)實世界中的復雜情況。

從技術(shù)角度來看,Agent Q 的主要組件包括以下幾點:

  • 引導式蒙特卡洛樹搜索(MCTS):Agent Q使用MCTS算法來指導代理在網(wǎng)頁環(huán)境中的探索。通過模擬可能的行動路徑,算法能夠評估和選擇最優(yōu)的行動,從而平衡探索新信息和用已知信息。

  • AI自我批評:AgentQ在每個節(jié)點上生成可能的行動,并用基礎(chǔ)的大型語言模型(LLM)對這些行動進行自我評估,提供中間的反饋作為中間獎勵來指導搜索步驟。

  • 直接偏好優(yōu)化(DPO):一種離線強化學習方法,用于優(yōu)化策略,使AgentQ能從成功的和不成功的軌跡中學習。DPO算法通過直接優(yōu)化偏好對來微調(diào)模型,不依賴于傳統(tǒng)的獎勵信號。

  • 策略迭代優(yōu)化:Agent Q通過迭代微調(diào),結(jié)合MCTS生成的數(shù)據(jù)和AI自我批評的反饋,構(gòu)建偏好對,從而優(yōu)化模型性能。

  • image.png

Agent Q的應用場景

  • 電子商務:在模擬WebShop環(huán)境中,Agent Q可自動化瀏覽和購買流程,幫助用戶快速找到所需商品并完成交易。

  • 在線預訂服務:Agent Q能在OpenTable等在線預訂平臺上為用戶預訂餐廳、酒店服務,處理所有相關(guān)的步驟。

  • 軟件開發(fā):Agent Q可以輔助軟件開發(fā),從代碼生成、測試到文檔編寫,提高開發(fā)效率并減少人為錯誤。

  • 客戶服務:作為智能客服代理,Agent Q能處理客戶咨詢,提供即時反饋,并解決常見問題。

  • 數(shù)據(jù)分析:Agent Q能分析大量數(shù)據(jù),為企業(yè)提供洞察和建議,幫助做出更加數(shù)據(jù)驅(qū)動的決策。

  • 個性化推薦:AgentQ可以根據(jù)用戶的歷史行為和偏好,提供個性化的內(nèi)容或產(chǎn)品推薦。

雖然Agent Q在評估實驗中表現(xiàn)出色,但目前所用的方法仍存在許多討論和改進的空間。例如,推理算法的設(shè)計、搜索策略的選擇以及在線安全與交互等方面都需要進一步研究和優(yōu)化。

Agent Q的出現(xiàn)無疑是AI智能體領(lǐng)域的一大進步,但它是否能夠成為AI界的新貴,還是僅僅是一次高明的炒作,還有待時間的檢驗。無論如何,Agent Q的發(fā)布都為AI的發(fā)展帶來了新的可能性和啟示。


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/131152.html

相關(guān)文章

  • OpenAI 以 10 億美元出售「靈魂」,網(wǎng)友熱評不再「Open」

    摘要:近日,一篇在上成為了網(wǎng)友熱議的話題。在這種結(jié)構(gòu)改變幾個月后,微軟宣布注資億美元。與微軟的合作關(guān)系是基于一個重要的前提,即微軟有權(quán)將的部分技術(shù)商業(yè)化。網(wǎng)友紛紛稱早已應該更名為。 編譯?| 禾木木 出品 |?AI科技大本營(ID:rgznai100) OpenAI 如何以 10 億美元的價...

    wenzi 評論0 收藏0
  • 關(guān)于增強學習你應該了解五件事兒

    摘要:摘要本文主要是講解了機器學習中的增強學習方法的基本原理,常用算法及應用場景,最后給出了學習資源,對于初學者而言可以將其作為入門指南。下圖表示了強化學習模型中涉及的基本思想和要素。 摘要: 本文主要是講解了機器學習中的增強學習方法的基本原理,常用算法及應用場景,最后給出了學習資源,對于初學者而言可以將其作為入門指南。 強化學習(Reinforcement Learning)是當前最熱門的...

    huangjinnan 評論0 收藏0
  • 40張圖看懂撲克AI對抗人類30年歷史,解密冷撲大師前世今生

    摘要:月,卡耐基梅隆大學的程序在一對一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。概述擊敗人類冠軍的三件事的深藍,由卡內(nèi)基梅隆大學開飯,在年的復賽中擊敗國際象棋世界冠軍卡斯帕羅夫。年,奧克蘭大學發(fā)布。 2017年是AI在撲克上取得突破的一年,在AI的發(fā)展歷史上,具有里程碑的意義。1月,卡耐基梅隆大學的 AI 程序在一對一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。出乎所有人的意外,這一...

    YuboonaZhang 評論0 收藏0
  • OpenAI終止對中國提供API服務,開發(fā)者們該如何應對?

    6月25日凌晨,陸續(xù)有包括中國大陸在內(nèi)的各國和相關(guān)地區(qū)API開發(fā)者在社交媒體上表示,他們收到了來自一封來自O(shè)penAI的警告信。其內(nèi)容是:我們的數(shù)據(jù)顯示,貴組織的 APl 流量來自O(shè)penAl目前不支持的地區(qū)。您可以在此處找到受支持的國家和地區(qū)。我們將從7月9日開始采取額外措施,阻止來自不在我們支持的國家和地區(qū)列表中的地區(qū)的 APl 流量。要繼續(xù)使用OpenAl的服務,您需要在受支持的地區(qū)訪問服務...

    UCloud小助手 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<