摘要:本篇為場景中的智能聊天機器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術(shù)以及智能聊天機器人來解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問題。圖對于現(xiàn)代企業(yè)來說,智能聊天機器人有著非常廣泛的業(yè)務(wù)需求。
寫在前面:在背景篇《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實踐【背景篇】》中,我們大概了解了NLP技術(shù)的發(fā)展情況,接下來,我們會向大家介紹NLP技術(shù)在宜信應(yīng)用的高級場景。本篇為場景中的智能聊天機器人篇,敬請收看~
作者:井玉欣。畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,獲博士學(xué)位,研究方向包括計算機軟件與理論、邏輯推理等,目前就職于宜信技術(shù)研發(fā)中心,從事人工智能、機器學(xué)習(xí)、自然語言處理以及知識工程等方面的研究。
##高級場景之智能聊天機器人
前文我們介紹了NLP技術(shù)、數(shù)據(jù)、服務(wù)上相關(guān)演化發(fā)展的過程,接下來,我將結(jié)合兩個具體的實例來分享我們在NLP領(lǐng)域的一些實施經(jīng)驗。今天要介紹的是:如何利用NLP技術(shù)以及智能聊天機器人來解決組織內(nèi)部面臨的大量的每日業(yè)務(wù)咨詢問題。
圖1
對于現(xiàn)代企業(yè)來說,智能聊天機器人有著非常廣泛的業(yè)務(wù)需求。對外,我們有常見的客服機器人、智能投資顧問等;對內(nèi),我們有業(yè)務(wù)支持機器人、運維機器人以及個人助理等。
本實例是一個面向企業(yè)內(nèi)部的信貸業(yè)務(wù)咨詢機器人,為一個問答類QA-BOT。它的業(yè)務(wù)背景是:目前宜信的普惠業(yè)務(wù)在全國范圍內(nèi)有著500+線下門店,包括600+位營業(yè)部主管,3000+位業(yè)務(wù)專員以及20000+位一線銷售。
每天這些一線同事在業(yè)務(wù)工作中都會產(chǎn)生大量的業(yè)務(wù)咨詢問題,以往這些問題都是后臺支持同事人工在IM中進行處理,工作非??菰?,處理成本高、效率低;無法對問題進行有效的統(tǒng)計,不知道問題提問的頻次,導(dǎo)致無法針對性的進行培訓(xùn)。長此以往,不利于業(yè)務(wù)的發(fā)展,也不利于團隊的發(fā)展。
為了解決這個困境,我們研發(fā)了一個基于QA的問答機器人來支持這個工作,將人工的過程轉(zhuǎn)為自動處理,從而實現(xiàn)一個全天候、7X24小時的全面支持機制。
對于問答機器人來說,其任務(wù)的核心和本質(zhì)實際上就是基于檢索的問答模型,我們給它半形式化地定義如下:
輸入一個用戶的問題Qx,在已有的QA數(shù)據(jù)庫中,即(Q1,A1),(Q2,A2),…,(Qn,An)等QA問答對中,找到這樣一組問答對(Qk,Ak),使得函數(shù)F(R(Qx),R(Qk))的值最大,其中F為語義相似度函數(shù),R為文本表征函數(shù)。
上述定義就是說我們希望在所有QA問答對的問題中找到與用戶提問最為相似的那個問題,它所對應(yīng)的答案便是最合適反饋給用戶的答案。
這其中的核心問題是求文本語義相似度,也就是求兩個問題文本之間的相似度。解決這個問題有很多方法,例如我們可以直接構(gòu)建一個Dual LSTM的神經(jīng)網(wǎng)絡(luò),把用戶的query從一側(cè)進行輸入,然后把知識庫中問答對的question從另外一側(cè)輸入,通過RNN、CNN或者全鏈接的網(wǎng)絡(luò),在語料充足的情況下,就能夠訓(xùn)練出一個模型,輸出的概率值即為兩個輸入問題的相似度,如圖2所示。
圖2
然而,大多數(shù)情況下我們都面臨樣本不夠充足的問題,尤其是在快速迭代的研發(fā)環(huán)境下,我們通常無法搜集到足夠的語料。所以我們常把相似度問題拆分為兩個子問題,即短文本語義表征和語義距離計算。兩者間又以前者更重要一些,一旦我們即將處理的問題有了一個合理的語意表征,我們就可以通過簡單的余弦距離、全鏈接網(wǎng)絡(luò)等計算出兩個表征之間的語義距離或者說語義相似度。
那我們怎樣準(zhǔn)確地表征短文本語義呢?
這也有很多方法,比如經(jīng)典的詞袋模型,還有一些無監(jiān)督的表示方法(詞向量加權(quán)、Doc2Vec、Skip-thought、Variational Auto-encoder)以及有監(jiān)督的表示方法(DSSM、遷移學(xué)習(xí))等。
但是我們要注意到之前所說的限制條件,也就是只能基于小規(guī)模語料和目前有限的QA問答對,而且業(yè)務(wù)要求快速實施、快速迭代。于是在方案的早期實施階段,我們優(yōu)先選擇了“詞袋模型+同義詞擴展+tf-idf 權(quán)重”的這個方法,利用我們之前積累的相關(guān)術(shù)語的同義詞、常用詞的同義詞,可以把一個問題進行基于同義詞的復(fù)述,從而探索出來很多不同的問法,來提高用戶提問在有限QA對數(shù)據(jù)庫中命中的幾率。通過上述方法構(gòu)建出短文本的表征向量之后,再利用一些語義相似度的計算方法,就可以得到兩個文本之間語義相似程度的分?jǐn)?shù)。
這種方法最大的好處就是快,我們可以利用小規(guī)模的語料,1-2周之內(nèi)在一個新領(lǐng)域上迅速上線一版效果表現(xiàn)非常不錯的問答機器人。
圖3
當(dāng)然這個方案肯定不是終點,上述這個方案最重要的作用是迅速上線初版模型,利用這個模型我們就可以去收集用戶提出的真實問題,滾動、積累更多問題數(shù)據(jù),不斷的補充進語料庫和QA數(shù)據(jù)庫,進而為我們訓(xùn)練更復(fù)雜的模型提供基礎(chǔ)。而且隨著QA數(shù)據(jù)庫中的QA對越來越多,我們可以去回答更多類型的問題。
在有了一定的語料基礎(chǔ)之后,我們構(gòu)建了一版更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。這里我們采用了經(jīng)典論文“Universal Language Model Fine-tuning for Text Classification”(by J. Howard et al)中的思想,在通用語料上先訓(xùn)練出一個language model(語言模型),再在領(lǐng)域語料上對該模型進行fine-tuning,最后將其遷移到最終的目標(biāo)任務(wù)上,此外論文還提供了一些調(diào)參、優(yōu)化的技巧。
圖4
按照這個思想實施項目:在Wiki語料上訓(xùn)練語言模型之后,又在領(lǐng)域語料上進行了調(diào)優(yōu),然后遷移到相應(yīng)的相似度計算網(wǎng)絡(luò)上,最終得到了一個不錯的測試效果。返回的答案列表中,正確答案排在首位的概率有88%,正確答案位于列表前三位范圍以內(nèi)的概率有94%,整體來看這個效果是不錯的。
當(dāng)然對于問答機器人來說,QQ相似度計算只是其中比較重要的一步,還有許多其他模型需要融合進來,協(xié)作提高問答的準(zhǔn)確率。比如QA匹配模型,用來計算用戶問題和知識庫中所有問題對應(yīng)答案的匹配程度。不過有了前面QQ相似度的計算基礎(chǔ),我們完全可以用同樣的思路來構(gòu)建一個QA匹配模型,輸出QA匹配度值。最后將QQ相似度值和QA匹配度值進行加權(quán)重排,得到最終的答案列表,這才是返回給用戶的答案。
此外還有一個擴展方向,即對于用戶提問未能命中QA數(shù)據(jù)情況的處理。QA數(shù)據(jù)庫是由人工提取或智能生成的QA問答對構(gòu)成的,個數(shù)有限,因此對于用戶可能會提問的各種各樣的問題無法完全覆蓋掉。一個有效的能力擴展方法就是開拓QA機器人的檢索數(shù)據(jù)源(見圖5),將機器人檢索范圍擴展到一些第三方API查詢接口,QA問答對數(shù)據(jù)庫,知識圖譜以及文檔等各個渠道的知識,從中找到答案。
圖5
在我們的項目里,我們實施了“文檔檢索+關(guān)鍵信息提取”的保底方案,在問答數(shù)據(jù)庫無法覆蓋所有問題的情況下也盡可能為用戶提供答案。
當(dāng)然,我們還可以針對一些問題,通過槽值提取、實體關(guān)系識別等方法,實現(xiàn)在三方API上或者知識圖譜上進行搜索,不過這個方法會稍微復(fù)雜一些,一般還需要會話的支持,此方面有專門的文章和報告,這里不再贅述。
不過提起多輪會話,我們還可以利用這個技術(shù)解決另外一個問題,即如何解決模糊提問。實際中,用戶提出的某些問題非常模糊,無法找到準(zhǔn)確答案,這常常會造成系統(tǒng)效果下降。例如用戶問的問題非常簡短,僅僅兩三個字,這顯然很難在QA 數(shù)據(jù)庫里檢索到一個準(zhǔn)確答案。
圖6
圖6是一些資料上對機器人進行的劃分,對話機器人在這里分為QA類和會話類兩類機器人。QA類機器人就是在結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)上進行檢索。而會話機器人則通常需要在多輪會話支持下,就一個問題多次與用戶進行交流,捕獲用戶意圖,給出對應(yīng)的響應(yīng),比如閑聊機器人,任務(wù)機器人以及推薦機器人等。
我們認(rèn)為QA機器人也會逐漸引入會話的概念,對于用戶提出的模糊問題,完全可以利用對話狀態(tài)分析、對話狀態(tài)管理以及關(guān)鍵信息識別等方法來判斷用戶的意圖是什么,缺失的信息有哪些,之后利用文本生成或追加提問等方法來要求用戶補充更多信息。這樣我們的機器人在有足夠信息的條件下,就可以查找到更精準(zhǔn)的結(jié)果。
圖7 機器人處理主要流程
圖7是機器人的處理流程,分為了預(yù)處理、分析分類、檢索匹配、綜合排序四個主要環(huán)節(jié),各環(huán)節(jié)所涉及的技術(shù)也有枚舉,報告之前我們著重介紹的QQ檢索、QA匹配等任務(wù)。
另外,我們對聊天機器人這一相對高級的場景也提供了平臺化的管理(見圖8),其架構(gòu)主要是在底層的自然語言處理平臺上進行了進一步的場景化包裝,在其基礎(chǔ)之上增加了聊天機器人模塊(包括Web/APP集成、對話管理、人工后臺、外部API對接等),QA庫管理模塊(包括數(shù)據(jù)管理、實施發(fā)布等)和知識庫管理模塊(批量導(dǎo)入、內(nèi)容管理、語料生成等)以及很重要的統(tǒng)計模塊(包括統(tǒng)計挖掘和報表展示)。
圖8 平臺化高級場景管理
我們通過對場景中各功能進行封裝和整合,以平臺的形式提供一個一站式解決方案,用戶在付出少量數(shù)據(jù)的情況下,就可以對模型無感知地迅速構(gòu)建一個自己的業(yè)務(wù)問答機器人。
圖9~圖11為機器人的一些運行效果截圖。其中圖9為web版機器人交互界面,可以看到機器人回答的形式包括精準(zhǔn)回答、相似問題、文檔庫搜索內(nèi)容。
圖9 機器人展示效果
圖10是后臺管理界面中的會話檢索功能,可以在此方便地瀏覽機器人和系統(tǒng)用戶所進行的會話,評估機器人效果,并可以把在會話過程中發(fā)現(xiàn)的、QA庫里沒有記錄到的新問題識別出來,快速方便地添加到QA庫之中。
圖10 后臺管理-會話檢索頁面
圖11為模型管理模塊,其中可以看到機器人所涉及的各類模型列表,每個模型后有相關(guān)操作按鈕,可以對模型進行上線、更新、重啟、停止等一系列管控操作。
圖11 后臺管理-模型管理頁面
以上便是NLP技術(shù)在宜信的應(yīng)用場景之一:智能聊天機器人。下篇我們會為大家介紹另一個應(yīng)用場景,構(gòu)建客戶畫像。敬請大家期待~
宜信技術(shù)學(xué)院
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/19887.html
摘要:技術(shù)在宜信宜信擁有豐富的業(yè)務(wù)和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。技術(shù)在宜信的實踐背景暫且介紹到這里,接下來我們會為大家介 文章圍繞基于機器學(xué)習(xí)的NLP技術(shù)在宜信內(nèi)部各業(yè)務(wù)領(lǐng)域的應(yīng)用實踐展開,分享這一過程中的相關(guān)經(jīng)驗,包括智能機器人在業(yè)務(wù)支持、客戶服務(wù)中的探索,基于文本語義分析的用戶畫像構(gòu)建,以及NLP算法服務(wù)平臺化實施思路等。本文為背景篇,敬請大家閱讀~ 作者:井玉欣。畢...
摘要:導(dǎo)讀前面兩篇我們介紹了技術(shù)在宜信應(yīng)用的背景敏捷技術(shù)在宜信業(yè)務(wù)中的實踐背景篇,以及應(yīng)用場景之一敏捷技術(shù)在宜信業(yè)務(wù)中的實踐智能聊天機器人篇。這就是我們實現(xiàn)的一個實時用戶畫像處理流程。 導(dǎo)讀: 前面兩篇我們介紹了NLP技術(shù)在宜信應(yīng)用的背景《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實踐【背景篇】》,以及應(yīng)用場景之一《敏捷AI | NLP技術(shù)在宜信業(yè)務(wù)中的實踐【智能聊天機器人篇】》。本篇為另一個場...
摘要:月日晚點,線上直播,中臺一種敏捷的智能業(yè)務(wù)支持方案金融科技領(lǐng)域,能解決什么問題在宜信年的發(fā)展歷程中,圍繞普惠金融和財富管理兩大業(yè)務(wù)板塊,宜信陸續(xù)推出了宜人貸宜人財富致誠信用博城保險等多個產(chǎn)品,技術(shù)已被廣泛應(yīng)用到各產(chǎn)品的業(yè)務(wù)線中。 [宜信技術(shù)沙龍】是由宜信技術(shù)學(xué)院主辦的系列技術(shù)分享活動,活動包括線上和線下兩種形式,每期技術(shù)沙龍都將邀請宜信及其他互聯(lián)網(wǎng)公司的技術(shù)專家分享來自一線的實踐經(jīng)驗,...
閱讀 1397·2023-04-26 03:05
閱讀 856·2021-10-19 11:43
閱讀 3405·2021-09-26 09:55
閱讀 876·2019-08-30 15:56
閱讀 1049·2019-08-30 15:44
閱讀 1303·2019-08-30 15:44
閱讀 2792·2019-08-30 14:23
閱讀 3292·2019-08-30 13:13