亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

敏捷AI|NLP技術在宜信業(yè)務中的實踐「構建用戶畫像篇」

djfml / 1321人閱讀

摘要:導讀前面兩篇我們介紹了技術在宜信應用的背景敏捷技術在宜信業(yè)務中的實踐背景篇,以及應用場景之一敏捷技術在宜信業(yè)務中的實踐智能聊天機器人篇。這就是我們實現(xiàn)的一個實時用戶畫像處理流程。

導讀:

前面兩篇我們介紹了NLP技術在宜信應用的背景《敏捷AI | NLP技術在宜信業(yè)務中的實踐【背景篇】》,以及應用場景之一《敏捷AI | NLP技術在宜信業(yè)務中的實踐【智能聊天機器人篇】》。本篇為另一個場景,也就是在業(yè)務中如何構建客戶畫像,敬請收看~

作者簡介

井玉欣:畢業(yè)于北京大學信息科學技術學院,獲博士學位,研究方向包括計算機軟件與理論、邏輯推理等,目前就職于宜信技術研發(fā)中心,從事人工智能、機器學習、自然語言處理以及知識工程等方面的研究。

高級場景之構建客戶畫像

在許多企業(yè)中,每天業(yè)務人員和客戶的溝通都會產(chǎn)生大量記錄,這些記錄可能包括了客服的溝通數(shù)據(jù)(通話記錄、通話小結),也可能包括了各式各樣的報告數(shù)據(jù)(陪訪報告、征信報告等)(見圖1)。

圖1 業(yè)務人員與客戶產(chǎn)生溝通記錄

前者可能口語會多一些,后者則主要是書面用語。但兩者之間有一個共同的特點,就是其中都蘊含著豐富的客戶信息。想要把這些信息提取出來,我們就需要利用到(NLP)技術。

圖2為一段客戶陪訪報告的節(jié)選,觀察其文本特征,發(fā)現(xiàn)有許多業(yè)務所關注的信息,比如職業(yè)方面,客戶是“大學教授”;在可投資產(chǎn)方面,理財金額有“100萬”,投資類型是“銀行理財”,對公司的態(tài)度是“不了解”等。


圖2 客戶陪訪報告示例

所以我們完全可以通過NLP分析文本,對其中的客戶特征進行標簽化提取,最終利用得到的標簽構建出客戶畫像。這樣做的好處很多,比如方便我們的業(yè)務人員隨時發(fā)現(xiàn)關鍵問題,便于跟進;自動化處理,提高工作效率。根據(jù)挖掘出的信息構建出客戶標簽畫像之后,就可以方便地盤點特定時間范圍內(nèi)的需求特點,為新產(chǎn)品設置提供系數(shù)參考,或者補充、驗證結構化字段內(nèi)容。

總體的實施路線如圖3所示,先通過業(yè)務分析來定義業(yè)務關注的標簽庫,然后針對定義出來的標簽訓練相應的提取模型,最后利用模型對數(shù)據(jù)進行分析,得到一系列客戶標簽,再對其進行匯總,最終形成客戶畫像。


圖3 總體實施路線

總體的路線是這樣的,但具體的實施過程中我們也有一些細節(jié)需要關注。通過對之前的數(shù)據(jù)進行分析,我們發(fā)現(xiàn)了一些特征,比如文本之中信息高度集中,信息表述通常以短句為單位,但是單一短句語義存在模糊性,還需要結合一定的上下文對其進行分析。所以我們需要對復雜句進行適當?shù)那懈?,確定合適的數(shù)據(jù)粒度,同時配合一個適當大小的短句滑動窗口來捕獲相關的上下文語義。

此外對于內(nèi)部的業(yè)務文本來說,其內(nèi)容涉及大量產(chǎn)品的專有實體名稱和術語,以及較多的數(shù)字。針對這種情況,我們建立了專門的詞庫和實體庫,對相應的實體名稱和術語進行準確的切割和識別。對于數(shù)字的處理,我們先后比較字向量、標識符替換、規(guī)則識別+后處理等等技術方案,并且選擇了其中效果最好的方法。

當然我們也面臨著普遍存在的標注語料不足的問題,因此在這個項目中,我們側重于研究怎么在小樣本條件下進行Few-shot learning。

實際中,在大多數(shù)專業(yè)領域AI項目實施過程中,都存在著標注數(shù)據(jù)不足的情況,所以針對小樣本進行學習的Few-shot learning也越來越凸顯其重要性。Few-shot learning包括很多種技術,有常見的遷移學習+fine-tuning技術,典型的如Bert;也有基于半監(jiān)督訓練的一些技術,如基于相似性度量的一些神經(jīng)網(wǎng)絡模型,基于最近鄰算法的樣本標注擴散這些技術等;還有meta learning的相關技術,例如OpenAI在ICLR 2018上的best paper;甚至還有一些圖網(wǎng)絡的相關技術。

在以上種種技術當中,比較適合工程化的、比較容易實施的還是基于遷移學習的方法。在我們的項目中,發(fā)現(xiàn)遷移學習,也就是基于預訓練模型,遷移到目標訓練任務上,再加上半監(jiān)督學習的標注輔助,可以比較好的滿足我們的需求。

下面介紹一下我們的算法流程:

先對復雜句進行清洗與切割;之后可以選擇性的加入一些過濾規(guī)則,快速地去除那些比較明顯的噪音數(shù)據(jù);然后將數(shù)據(jù)流入到標簽提取模型之中,得到具體的標簽;最后在畫像構建階段對得到的所有標簽進行去重、消歧,形成最終的客戶畫像。

具體到算法模型,我們也先后比較許多方法,本質上我們認為標簽識別模型是一個短文本分類算法,我們嘗試了基于統(tǒng)計的方法(SVM, Random Forest, XgBoost),也嘗試了基于神經(jīng)網(wǎng)絡的模型(FastText,Text CNN/RNN/RCNN, HAN),最終我們選擇了HAN模型,也就是層次注意網(wǎng)絡(Hierarchical Attention Network)模型,通過在詞一級和句一級分別進行RNN和Attention計算,最終得到一個合理的文本向量表征,用于最后的分類,整個過程如圖4所示。


圖4 HAN模型架構

圖5是本實例的總體處理流程,經(jīng)過數(shù)據(jù)預處理之后,文本被并行地分配到各個業(yè)務關注標簽提取模型之中,輸出各個業(yè)務標簽,最終匯總到客戶畫像構建模塊,在此進行去重、消解歧義和矛盾,最后得到客戶的畫像。


圖5 實例處理總體流程

另外我們結合公司的敏捷實時數(shù)據(jù)平臺設計了一個相應的實時AI解決方案,如圖6所示,這里用到了我們團隊開源的一些技術,包括DBus(數(shù)據(jù)總線平臺),Wormhole(流式處理平臺),Moonbox(計算服務平臺)以及Davinci(可視應用平臺),這四個平臺構成了敏捷大數(shù)據(jù)平臺棧。

在這個方案里,我們通過DBus來采集各類數(shù)據(jù)存儲中的自然語言數(shù)據(jù),經(jīng)過一些可選的技術(如ASR等)得到相應的文本;再通過Wormhole來進行實時的流式處理,標簽模型在Wormhole的實時數(shù)據(jù)流上運行,對數(shù)據(jù)流中的文本自動提取相應的標簽,再由Wormhole輸出到指定的數(shù)據(jù)存儲中;之后由Moonbox對標簽進行后續(xù)的匯總處理,先從存儲介質之上把之前計算得到的標簽提取出來,使用畫像模型對畫像進行構建,輸出到如Redis之類的存儲介質之中,最后推送給業(yè)務系統(tǒng)供其使用。這就是我們實現(xiàn)的一個實時用戶畫像處理流程。


圖6

此外,在圖6下方的數(shù)據(jù)流分支里,我們通過在Wormhole上流轉的生產(chǎn)數(shù)據(jù)流進行一個選擇性抽樣,之后同樣利用標簽模型和畫像模型,計算出客戶畫像,此后將原始數(shù)據(jù)、標簽數(shù)據(jù)和客戶畫像通過Davinci展示給我們的模型維護人員,用于評估檢查模型的運行情況,這樣就實現(xiàn)了一個實時的模型效果監(jiān)控系統(tǒng)。綜合這兩者,我們就得到了一個實時的、基于文本分析的畫像構建系統(tǒng)。

總結

隨著各企業(yè)實體對自然語言數(shù)據(jù)愈發(fā)關注,NLP+AI技術在各領域都成了非常重要、核心的基礎技術服務。領域知識與NLP技術的結合帶來了新的技術產(chǎn)品,創(chuàng)造出了新的商業(yè)價值,比如我們目前常用的一些產(chǎn)品:Siri、小愛同學等等,這種Conversational UI帶來的不僅是一種全新的交互模式,更是開辟了一個新的產(chǎn)品領域。

在數(shù)據(jù)方面,雖然自然語言的數(shù)據(jù)存量很大,但目前來看無論是通用領域還是專業(yè)領域,經(jīng)過加工整理的高質量自然語言語料數(shù)據(jù)資源還是比較缺乏,因此其具有非常高的價值。領域語料的積累可以極大提升AI產(chǎn)品的效果,在一定程度上幫助企業(yè)形成新的數(shù)據(jù)壁壘、技術壁壘。

在NLP的算法方面,就未來一段時間來看,如前文所述,面對小語料任務的Few-shot Learning會越來越受關注,尤其是以Bert為代表的遷移學習技術,將給現(xiàn)在的一些NLP任務帶來一場革命。此外還有針對NLP語料的數(shù)據(jù)增強技術,我們知道在圖像領域數(shù)據(jù)增強技術已經(jīng)比較成熟,是一種常見的數(shù)據(jù)處理方式,但是在NLP領域數(shù)據(jù)增強技術的發(fā)展還不夠成熟,如果能在這方面有所突破的話,相信會對各類NLP任務都有很大幫助。

NLP技術的發(fā)展還需要業(yè)界各企業(yè)、各位算法與工程專家的共同努力,相信未來我們能夠更準確、更快速、更方便地理解各領域的自然語言數(shù)據(jù)。

-

作者:井玉欣 宜信技術學院

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://www.ezyhdfw.cn/yun/19918.html

相關文章

  • 敏捷AI | NLP技術宜信業(yè)務中的實踐【背景

    摘要:技術在宜信宜信擁有豐富的業(yè)務和產(chǎn)品線,這些產(chǎn)品線產(chǎn)生了大量的人工智能賦能需求。技術在宜信的實踐背景暫且介紹到這里,接下來我們會為大家介 文章圍繞基于機器學習的NLP技術在宜信內(nèi)部各業(yè)務領域的應用實踐展開,分享這一過程中的相關經(jīng)驗,包括智能機器人在業(yè)務支持、客戶服務中的探索,基于文本語義分析的用戶畫像構建,以及NLP算法服務平臺化實施思路等。本文為背景篇,敬請大家閱讀~ 作者:井玉欣。畢...

    myshell 評論0 收藏0
  • 敏捷AI | NLP技術宜信業(yè)務中的實踐【智能聊天機器人

    摘要:本篇為場景中的智能聊天機器人篇,敬請收看作者井玉欣。今天要介紹的是如何利用技術以及智能聊天機器人來解決組織內(nèi)部面臨的大量的每日業(yè)務咨詢問題。圖對于現(xiàn)代企業(yè)來說,智能聊天機器人有著非常廣泛的業(yè)務需求。 寫在前面:在背景篇《敏捷AI | NLP技術在宜信業(yè)務中的實踐【背景篇】》中,我們大概了解了NLP技術的發(fā)展情況,接下來,我們會向大家介紹NLP技術在宜信應用的高級場景。本篇為場景中的智能...

    jeffrey_up 評論0 收藏0
  • AI中臺:一種敏捷的智能業(yè)務支持方案

    摘要:月日晚點,線上直播,中臺一種敏捷的智能業(yè)務支持方案金融科技領域,能解決什么問題在宜信年的發(fā)展歷程中,圍繞普惠金融和財富管理兩大業(yè)務板塊,宜信陸續(xù)推出了宜人貸宜人財富致誠信用博城保險等多個產(chǎn)品,技術已被廣泛應用到各產(chǎn)品的業(yè)務線中。 [宜信技術沙龍】是由宜信技術學院主辦的系列技術分享活動,活動包括線上和線下兩種形式,每期技術沙龍都將邀請宜信及其他互聯(lián)網(wǎng)公司的技術專家分享來自一線的實踐經(jīng)驗,...

    Chaz 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<