摘要:有人使用谷歌的自駕汽車完全意識(shí)不到之所以車輛開行都是上百個(gè)如果不是上千種的話的模型和級(jí)的數(shù)據(jù)發(fā)揮作用的結(jié)果。這是驅(qū)動(dòng)系統(tǒng)方法的目標(biāo)。建模器的第二個(gè)組成部分與保險(xiǎn)公司的利潤(rùn)有關(guān)條件是客戶接受這個(gè)價(jià)格。
翻譯:克迪
歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營(yíng)經(jīng)驗(yàn)。
在過去幾年中, 我們看到了許多基于預(yù)測(cè)建模的數(shù)據(jù)產(chǎn)品。這些產(chǎn)品的范圍從天氣預(yù)報(bào)到推薦引擎, 再到比航空公司本身更準(zhǔn)確地預(yù)測(cè)航空公司航班時(shí)間的服務(wù)。但這些產(chǎn)品仍然只是在做預(yù)測(cè), 而不是問他們基于預(yù)測(cè)后下一步需要采取什么行動(dòng)。人們對(duì)預(yù)測(cè)技術(shù)可以是有趣很感興趣,從基礎(chǔ)數(shù)學(xué)的角度這種技術(shù)很有深度。但我們最終還是需要采取下一步行動(dòng)繼續(xù)前行。這項(xiàng)技術(shù)的存在是為了構(gòu)建能夠徹底改變整個(gè)行業(yè)的數(shù)據(jù)產(chǎn)品。既然如此, 我們?yōu)楹尾焕^續(xù)構(gòu)建下去呢?
為了啟動(dòng)這一進(jìn)程, 我們建議采取四步走的方法, 這種方法已經(jīng)變革了保險(xiǎn)業(yè)。我們稱之為驅(qū)動(dòng)系統(tǒng)法, 靈感來自于新興的自駕汽車領(lǐng)域。工程師們首先確定了一個(gè)明確的目標(biāo): 他們希望汽車在沒有人為干預(yù)的情況下安全地從 a 點(diǎn)行駛到 b 點(diǎn)。偉大的預(yù)測(cè)建模是整個(gè)解決方案中的一個(gè)重要部分。偉大的預(yù)測(cè)建模是解決方案的重要組成部分, 但它不再獨(dú)立存在;隨著產(chǎn)品變得更加復(fù)雜, 它就會(huì)融合到每一個(gè)組成部分,貌似消失得無影蹤。有人使用谷歌的自駕汽車, 完全意識(shí)不到之所以車輛開行都是上百個(gè) (如果不是上千種的話) 的模型和 PB級(jí)的數(shù)據(jù)發(fā)揮作用的結(jié)果。但隨著數(shù)據(jù)科學(xué)家不斷構(gòu)建日益復(fù)雜的產(chǎn)品, 他們需要一種系統(tǒng)的設(shè)計(jì)方法。我們并不是說驅(qū)動(dòng)系統(tǒng)方法是最好的或唯一的方法;我們的目標(biāo)是在數(shù)據(jù)科學(xué)和事業(yè)領(lǐng)域之間展開對(duì)話, 以推進(jìn)我們的集體愿景。
基于目標(biāo)對(duì)象的數(shù)據(jù)產(chǎn)品
我們正在進(jìn)入作為驅(qū)動(dòng)系統(tǒng)的數(shù)據(jù)時(shí)代, 在這個(gè)系統(tǒng)中我們使用數(shù)據(jù)不僅是為了生成更多的數(shù)據(jù) (以預(yù)測(cè)的形式), 還是利用數(shù)據(jù)產(chǎn)生可操作的結(jié)果。這是驅(qū)動(dòng)系統(tǒng)方法的目標(biāo)。闡述這個(gè)過程的最好方法是用一個(gè)熟悉的數(shù)據(jù)產(chǎn)品: 搜索引擎。早在 1997年, AltaVista就是算法搜索世界的王者。雖然他們的模型善于尋找相關(guān)網(wǎng)站, 但用戶最感興趣的答案往往被埋在搜索結(jié)果的第100頁(yè)。隨后, 谷歌出現(xiàn)了, 并通過一個(gè)簡(jiǎn)單的問題開始改變?cè)诰€搜索: 用戶在搜索查詢中輸入內(nèi)容的主要目標(biāo)是什么?
谷歌意識(shí)到,其實(shí)目標(biāo)是顯示最相關(guān)的搜索結(jié)果;對(duì)于其他公司來說, 這可能是在增加利潤(rùn)、改善客戶體驗(yàn)、為機(jī)器人找到最佳路徑, 或者平衡數(shù)據(jù)中心的負(fù)載。一旦我們確定了目標(biāo), 第二步就是指定我們可以控制的系統(tǒng)輸入, 確定我們可以拉動(dòng)的杠桿來影響最終的結(jié)果。就谷歌而言, 他們可以控制搜索結(jié)果的排名。第三步是考慮他們需要哪些新的數(shù)據(jù)來產(chǎn)生這樣的排名;他們發(fā)現(xiàn)可以使用鏈接到某些其他頁(yè)面的隱含信息數(shù)據(jù)來達(dá)到這個(gè)效果。只有在這前三個(gè)步驟之后, 我們才開始考慮建立預(yù)測(cè)模型。我們的目標(biāo)和可用的杠桿, 已經(jīng)擁有哪些數(shù)據(jù), 還需要收集哪些額外的數(shù)據(jù), 所有這些決定了我們可以建立的模型。模型將以杠桿和不可控變量作為它們的輸入;模型的輸出可以結(jié)合在一起來預(yù)測(cè)我們目標(biāo)的最終狀態(tài)。
谷歌的驅(qū)動(dòng)系統(tǒng)方法的第4步現(xiàn)在是科技?xì)v史的一部分: 拉里·佩奇和謝爾蓋·布林發(fā)明了圖形遍歷算法網(wǎng)頁(yè)排名, 并在其之上構(gòu)建了一個(gè)引擎, 使搜索發(fā)生了革命性的變化。但你不必發(fā)明下一個(gè)網(wǎng)頁(yè)排名來構(gòu)建一個(gè)龐大的數(shù)據(jù)產(chǎn)品。我們將展示一個(gè)不需要計(jì)算機(jī)科學(xué)博士就可實(shí)現(xiàn)的第4步系統(tǒng)方法。
模型裝配線: 最優(yōu)決策組的案例研究
通過正確的預(yù)測(cè)模型優(yōu)化可操作的結(jié)果可能是公司最重要的戰(zhàn)略決策。對(duì)于保險(xiǎn)公司來說, 保單價(jià)格就是產(chǎn)品, 所以最優(yōu)定價(jià)模式對(duì)他們來說就像汽車制造的裝配線一樣。保險(xiǎn)公司在預(yù)測(cè)方面有幾個(gè)世紀(jì)的經(jīng)驗(yàn), 但在過去大概有10年的時(shí)間, 保險(xiǎn)公司往往未能就每個(gè)新客戶的收費(fèi)價(jià)格做出最佳的商業(yè)決定。他們的精算師可以建立模型, 預(yù)測(cè)客戶發(fā)生事故的可能性和索賠的預(yù)期價(jià)值。但這些模型并沒有解決定價(jià)問題, 因此保險(xiǎn)公司會(huì)在猜測(cè)和市場(chǎng)研究相結(jié)合的基礎(chǔ)上制定價(jià)格。
這種情況在1999年被一家名為 "最優(yōu)決策組" (ODG) 的公司徹底改變。ODG通過以往使用的驅(qū)動(dòng)系統(tǒng)方法和采取可適用于廣泛?jiǎn)栴}的步驟4解決了這一難題。他們首先確定了保險(xiǎn)公司要達(dá)到的目標(biāo): 制定一個(gè)價(jià)格,這個(gè)價(jià)格會(huì)一個(gè)很長(zhǎng)的時(shí)間段最大限度地提高新客戶利潤(rùn)的凈現(xiàn)值,問題是會(huì)受到某些限制, 如維持市場(chǎng)份額。從那里, 他們開發(fā)了一個(gè)優(yōu)化的定價(jià)流程, 為保險(xiǎn)公司的底線增加了數(shù)億美元。[注: 合著者杰里米·霍華德創(chuàng)立了ODG]
ODG確定了保險(xiǎn)公司可以控制的杠桿: 向每個(gè)客戶收取什么價(jià)格, 要涵蓋哪些類型的事故, 在營(yíng)銷和客戶服務(wù)上花費(fèi)多少錢, 以及如何對(duì)競(jìng)爭(zhēng)對(duì)手的定價(jià)決定做出反應(yīng)。他們還考慮了超出他們控制范圍的投入, 如競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略、宏觀經(jīng)濟(jì)條件、自然災(zāi)害和客戶的 "依附度"。他們考慮了預(yù)測(cè)客戶對(duì)價(jià)格變化的反應(yīng)所需的額外數(shù)據(jù)。有必要通過在數(shù)月內(nèi)隨機(jī)更改幾十萬項(xiàng)政策的價(jià)格來構(gòu)建此數(shù)據(jù)集。雖然保險(xiǎn)公司不愿意在真正的客戶上進(jìn)行這些實(shí)驗(yàn), 這樣做法會(huì)使他們因此失去一些客戶, 但實(shí)際上他們被優(yōu)化的政策定價(jià)可能帶來的巨大收益所吸引。最后, ODG開始設(shè)計(jì)可用于優(yōu)化保險(xiǎn)公司利潤(rùn)的模型。
ODG建模器的第一個(gè)組件是新策略和續(xù)訂的價(jià)格彈性模型 (客戶接受給定價(jià)格的概率)。價(jià)格彈性模型是價(jià)格曲線與客戶接受以該價(jià)格為條件的政策條件的概率。這條曲線路線是從幾乎肯定接受的低價(jià)到幾乎永遠(yuǎn)不漲價(jià)。
ODG建模器的第二個(gè)組成部分與保險(xiǎn)公司的利潤(rùn)有關(guān), 條件是客戶接受這個(gè)價(jià)格。低價(jià)產(chǎn)品的利潤(rùn)將是紅色的,主要是因?yàn)榈谝荒觐A(yù)期索賠的價(jià)值, 再加上收購(gòu)新客戶并為其提供服務(wù)的任何間接費(fèi)用造成。將這兩條曲線相乘將創(chuàng)建顯示價(jià)格與預(yù)期利潤(rùn)的最終曲線 (參見下面的預(yù)期利潤(rùn)數(shù)字)。最終曲線有一個(gè)可明確識(shí)別的本地最大值, 代表第一年向客戶收取的最佳價(jià)格。
ODG還構(gòu)建了客戶保留模型。這些模型預(yù)測(cè)客戶是否會(huì)在一年內(nèi)更新保單, 允許價(jià)格變化, 愿意跳槽到競(jìng)爭(zhēng)對(duì)手手中。這些額外的模型可以結(jié)合年度模型來預(yù)測(cè)未來五年新客戶的利潤(rùn)。
這套新的模型并不是最終的答案, 因?yàn)樗粯?biāo)定一組給定輸入的結(jié)果。裝配線上的下一臺(tái)機(jī)器是模擬器, 它讓ODG問 "如果" 問題, 看看杠桿如何影響最終結(jié)果的分布。預(yù)期的利潤(rùn)曲線只是可能結(jié)果表面的一部分。為了構(gòu)建整個(gè)曲面, 模擬器在廣泛的輸入范圍內(nèi)運(yùn)行模型。運(yùn)營(yíng)商可以調(diào)整輸入杠桿來回答具體的問題, 比如: "如果我們公司在第一年向客戶提供較低的噱頭價(jià)格, 但在第二年提高保費(fèi), 會(huì)發(fā)生什么?"他們還可以探討保險(xiǎn)公司控制之外的投入是如何決定利潤(rùn)分配的: "如果經(jīng)濟(jì)崩潰, 客戶失業(yè)怎么辦?如果100年的洪水襲擊了他的家呢?如果一個(gè)新的競(jìng)爭(zhēng)對(duì)手進(jìn)入市場(chǎng), 而我們的公司沒有反應(yīng), 會(huì)對(duì)我們的底線產(chǎn)生什么影響? "由于模擬是在每個(gè)保單級(jí)別進(jìn)行的, 因此保險(xiǎn)公司可以查看一組給定的價(jià)格變化對(duì)收入、市場(chǎng)份額和其他指標(biāo)隨時(shí)間變化的影響。
模擬器的結(jié)果被輸入到優(yōu)化器, 優(yōu)化器獲取可能表象結(jié)果, 并確定最高點(diǎn)。優(yōu)化器不僅可以找到最好的結(jié)果, 還可以識(shí)別災(zāi)難性的結(jié)果, 并顯示如何避免出現(xiàn)這樣的結(jié)果。有許多不同的優(yōu)化技術(shù)可供選擇 (請(qǐng)參見下面的邊欄), 但它是一個(gè)很好理解的領(lǐng)域, 具有可靠且可訪問的解決方案。ODG的競(jìng)爭(zhēng)對(duì)手使用不同的技術(shù)來尋找最佳價(jià)格, 但他們傳輸?shù)氖窍嗤娜珨?shù)據(jù)產(chǎn)品。重要的是, 使用驅(qū)動(dòng)系統(tǒng)方法與模型裝配線相結(jié)合, 可以彌合預(yù)測(cè)模型和可操作結(jié)果之間的差距。Irfan Ahmed的云物理提供了一個(gè)很好的預(yù)測(cè)建模分類, 描述了整個(gè)裝配線過程:
"在處理數(shù)百或數(shù)千個(gè)個(gè)別組件模型以了解全系統(tǒng)的行為時(shí), 必須進(jìn)行 " 搜索 "。我認(rèn)為這是一個(gè)復(fù)雜的機(jī)器 (全系統(tǒng)), 在那里撤出了遮幕,你可以在控制實(shí)驗(yàn)下對(duì)機(jī)器的每個(gè)重要部分進(jìn)行建模, 然后模擬相互作用。此處請(qǐng)注意不同級(jí)別: 各個(gè)組件的模型, 在給定一組輸入的模擬中綁定在一起, 在搜索優(yōu)化器中的不同輸入集中迭代。
推薦系統(tǒng)的驅(qū)動(dòng)系統(tǒng)方法
讓我們看看如何將這一過程應(yīng)用到另一個(gè)行業(yè): 營(yíng)銷。我們首先將驅(qū)動(dòng)系統(tǒng)方法應(yīng)用于熟悉的示例, 推薦引擎, 然后將其構(gòu)建為整個(gè)優(yōu)化的營(yíng)銷策略。
推薦引擎是基于構(gòu)建良好的預(yù)測(cè)模型數(shù)據(jù)產(chǎn)品的一個(gè)成熟案例, 這些模型沒有達(dá)到最佳目標(biāo)。目前的算法根據(jù)購(gòu)買歷史和類似客戶的歷史數(shù)據(jù), 預(yù)測(cè)客戶會(huì)喜歡什么產(chǎn)品。像亞馬遜這樣的公司代表了曾經(jīng)作為一個(gè)巨大的稀疏矩陣進(jìn)行的每一次收購(gòu), 客戶是以行顯示和產(chǎn)品為列顯示。一旦他們有了這種格式的數(shù)據(jù), 數(shù)據(jù)科學(xué)家就會(huì)應(yīng)用某種形式的協(xié)同過濾來 "填寫矩陣"。例如, 如果客戶 a 購(gòu)買產(chǎn)品1和 10, 而客戶 b 購(gòu)買產(chǎn)品1、2、4和 10, 則引擎會(huì)建議 a 購(gòu)買2和4。這些模型善于預(yù)測(cè)客戶是否會(huì)喜歡給定的產(chǎn)品, 但它們往往會(huì)推薦客戶已經(jīng)知道或已經(jīng)決定不購(gòu)買的產(chǎn)品。亞馬遜的推薦引擎可能是最好的, 但很容易讓它顯示出它的累贅缺陷。以下是在亞馬遜上搜索特里·普拉特切特的《迪斯科世界系列》中的最新一本書的截圖:所有的建議都是針對(duì)同一系列的其他書的, 但一個(gè)很好的假設(shè)是, 搜索 "特里·普拉特切特" 的客戶已經(jīng)知道這些書了。在提要的第2頁(yè)到第14頁(yè)上可能有一些意想不到的建議, 但是有多少客戶會(huì)費(fèi)心點(diǎn)擊?相反, 讓我們使用傳動(dòng)系統(tǒng)方法設(shè)計(jì)一個(gè)改進(jìn)的推薦引擎, 首先要重新考慮我們的目標(biāo)。推薦引擎的目的是通過給用戶意想不到的驚喜把因?yàn)闆]有推薦他/她沒有購(gòu)買的書籍來推動(dòng)額外的銷售。我們真正想做的是模仿Zite首席執(zhí)行官馬克·約翰遜的經(jīng)驗(yàn), 他在最近的TOC演講中給出了客戶推薦體驗(yàn)應(yīng)該是什么樣子的完美例子。他走進(jìn)紐約市的斯特蘭德書店, 要了一本類似托尼·莫里森的《寵兒》的書。柜臺(tái)后面的女孩推薦了威廉·??思{的《奧索洛姆·阿布索倫》。在亞馬遜上, 類似查詢的最高結(jié)果導(dǎo)致了托尼·莫里森的另一本書和著名的有色女作家的幾本書。斯特蘭德書商提出了一個(gè)精彩而牽強(qiáng)的建議, 可能更多的是基于莫里森寫作的特點(diǎn), 而不是表面上的相似之處她切入了顯而易見的部分, 提出了一個(gè)建議, 將客戶送回家的新書, 并在未來一次又一次地返回斯特蘭德。這并不是說亞馬遜的推薦引擎不可能建立同樣的聯(lián)系;問題是, 這個(gè)有益的推薦將被埋在推薦源的深處, 與 "親愛的信徒" 有更明顯相似之處的書下面。其目的是為了逃避推薦過濾氣泡, 這個(gè)詞最初是由 Eli Pariser 創(chuàng)造的, 用來描述個(gè)性化新聞源只顯示溫和流行的文章或進(jìn)一步證實(shí)讀者現(xiàn)有的偏見的趨勢(shì)。
正如Altavista-google 示例一樣, 書商可以控制的杠桿是建議的排名。還必須收集新數(shù)據(jù), 以生成將導(dǎo)致新銷售的建議。這將需要進(jìn)行許多隨機(jī)實(shí)驗(yàn), 以便收集關(guān)于為廣泛的客戶提出的廣泛建議的數(shù)據(jù)。
驅(qū)動(dòng)系統(tǒng)過程的最后一步是構(gòu)建模型裝配線。擺脫推薦泡沫的一種方法是構(gòu)建一個(gè)建模器, 其中包含兩個(gè)購(gòu)買概率模型, 條件是看到或看不到推薦。這兩種概率之間的差異是向客戶提供的特定建議的實(shí)用程序函數(shù) (請(qǐng)參閱下面的推薦引擎圖)。如果算法推薦了一本熟悉的書, 客戶已經(jīng)拒絕了 (兩個(gè)組件都是小的) 或一本書, 他或她會(huì)買, 即使沒有建議 (兩個(gè)組件都很大, 互相取消), 這款案例發(fā)生率較低。我們可以構(gòu)建一個(gè)模擬器來測(cè)試我們庫(kù)存的許多可能書籍中每一本的效用, 或者可能只是在類似客戶購(gòu)買的協(xié)作過濾模型的所有輸出上, 然后構(gòu)建一個(gè)簡(jiǎn)單的優(yōu)化器, 對(duì)那些在推薦書籍基礎(chǔ)上他們的模擬效用。一般來說, 在選擇目標(biāo)函數(shù)進(jìn)行優(yōu)化時(shí), 我們需要少?gòu)?qiáng)調(diào) "函數(shù)", 多強(qiáng)調(diào) "目標(biāo)"。使用我們數(shù)據(jù)產(chǎn)品的人的目標(biāo)是什么?我們到底在幫助他或她做出什么選擇?
優(yōu)化終身客戶價(jià)值
同樣的系統(tǒng)方法可以用來優(yōu)化整個(gè)營(yíng)銷策略。這包括零售商在實(shí)際買賣交易之外與客戶的所有互動(dòng), 無論是做產(chǎn)品推薦、鼓勵(lì)客戶查看網(wǎng)上商店的新功能, 還是發(fā)送促銷活動(dòng)。對(duì)零售商來說, 做出錯(cuò)誤的選擇是有代價(jià)的, 其結(jié)果形式是利潤(rùn)率降低 (不影響額外銷售的折扣)、其主頁(yè)上稀缺的不動(dòng)產(chǎn)機(jī)會(huì)成本減少 (在推薦源中占用客戶產(chǎn)品的空間)不喜歡或?qū)⒃跊]有推薦的情況下購(gòu)買) 或客戶調(diào)出產(chǎn)品) (發(fā)送如此多無幫助電子郵件促銷活動(dòng), 以至于客戶將所有未來通信過濾為垃圾郵件)。我們將展示如何構(gòu)建優(yōu)化的營(yíng)銷策略, 以減輕這些影響。
正如前面的每一個(gè)例子中, 我們首先問: "營(yíng)銷策略試圖達(dá)到什么目標(biāo)?"第二個(gè)問題: "我們有什么杠桿可以用來實(shí)現(xiàn)這個(gè)目標(biāo)?"例如:
1 我們可以讓產(chǎn)品的建議令人驚喜和開心(使用上一節(jié)中概述的優(yōu)化建議)。
2 我們可以為客戶還沒有完全準(zhǔn)備好購(gòu)買或本來會(huì)在其他地方購(gòu)買的產(chǎn)品提供量身定制的折扣或特別優(yōu)惠。
3 我們甚至可以撥打客戶貼心聯(lián)系電話, 只是為了了解用戶是如何享受我們的網(wǎng)站, 讓他們覺得他們的反饋是有價(jià)值的。我們需要收集哪些新數(shù)據(jù)?這可能因情況而異, 但少數(shù)在線零售商正在采取創(chuàng)造性的方法來采取這一步驟。在線時(shí)尚零售商Zafu展示了如何鼓勵(lì)客戶參與這一數(shù)據(jù)收集過程。很多網(wǎng)站都賣名牌牛仔, 但對(duì)很多女性來說, 高端牛仔褲是她們從未在網(wǎng)上購(gòu)買過項(xiàng)目, 因?yàn)椴辉嚧┚秃茈y找到合適的牛仔褲。Zafu的做法不是直接送顧客去穿上衣服, 而是首先問一系列簡(jiǎn)單的問題, 比如顧客的身體類型、其他牛仔褲的合身程度以及他們的時(shí)尚偏好。只有這樣, 客戶才能瀏覽到 Zafu 的推薦庫(kù)存選擇。數(shù)據(jù)收集和建議步驟不是附加步驟;它們是Zafu的整個(gè)商業(yè)模式--女式牛仔褲現(xiàn)在是一個(gè)數(shù)據(jù)產(chǎn)品。Zafu可以調(diào)整他們的建議, 以適應(yīng)他們的牛仔褲, 因?yàn)樗麄兊南到y(tǒng)正在問正確的問題 從目標(biāo)開始, 數(shù)據(jù)科學(xué)家就會(huì)考慮他們需要為建模器構(gòu)建哪些其他模型。我們可以保留我們已經(jīng)建立的 "類似" 模型以及建議和不建議購(gòu)買的因果關(guān)系模型, 然后采取分階段的方法添加更多的模型, 我們認(rèn)為這將提高營(yíng)銷效率。我們可以添加一個(gè)價(jià)格彈性模型來測(cè)試提供折扣如何改變客戶購(gòu)買商品的概率。我們可以構(gòu)建一個(gè)耐心模型, 讓客戶能夠容忍目標(biāo)不明確的通信: 他們何時(shí)將其排除在外, 并將我們的郵件直接過濾到垃圾郵件?("如果 hulu 再給我看一次同樣的狗食廣告, 我就不再看了!")采購(gòu)序列因果關(guān)系模型可用于識(shí)別關(guān)鍵的 "進(jìn)入產(chǎn)品"。例如, 一條牛仔褲, 往往搭配一個(gè)特定的頂部, 或一系列小說的第一部分, 往往導(dǎo)致整套系列的銷售。
一旦我們有了這些模型, 我們就構(gòu)建了一個(gè)模擬器和一個(gè)優(yōu)化器, 并在組合模型上運(yùn)行它們, 以找出哪些建議將實(shí)現(xiàn)我們的目標(biāo): 推動(dòng)銷售和改善客戶體驗(yàn)。
物理數(shù)據(jù)產(chǎn)品的最佳實(shí)踐
人們很容易誤以為, 由于數(shù)據(jù)存在于抽象的某個(gè)地方, 在電子表格或云中, 數(shù)據(jù)產(chǎn)品只是抽象的算法。因此, 我們想通過向您展示基于目標(biāo)的數(shù)據(jù)產(chǎn)品如何已經(jīng)是有形世界的一部分。這些例子最重要的是, 設(shè)計(jì)這些數(shù)據(jù)產(chǎn)品的工程師并不是從制造一個(gè) neato 機(jī)器人開始, 然后尋找與之有關(guān)的東西。他們從一個(gè)目標(biāo)開始,諸如 "我希望我的車開車送我要去的地方", 然后設(shè)計(jì)了一個(gè)隱蔽的數(shù)據(jù)產(chǎn)品來完成這個(gè)任務(wù)。工程師們常常安靜地走在算法應(yīng)用程序的前沿, 因?yàn)樗麄冮L(zhǎng)期以來一直在以基于對(duì)象的方式思考自己的建模挑戰(zhàn)。工業(yè)工程師是最早開始使用神經(jīng)網(wǎng)絡(luò)的工程師之一, 他們將神經(jīng)網(wǎng)絡(luò)應(yīng)用于裝配線優(yōu)化設(shè)計(jì)和質(zhì)量控制等問題。布萊恩·里普利關(guān)于識(shí)別的開創(chuàng)性著作, 為上世紀(jì) 7 0年代基本被遺忘的工程論文提供了許多想法和技術(shù)的功勞。
在設(shè)計(jì)產(chǎn)品或制造工藝時(shí), 驅(qū)動(dòng)系統(tǒng)類似工藝過程, 然后是模型集成、模擬和優(yōu)化, 是系統(tǒng)工程師工具包中常見的一部分。在工程中, 通常需要將許多組件模型鏈接在一起, 以便能夠同時(shí)對(duì)它們進(jìn)行模擬和優(yōu)化。這些公司在構(gòu)建最終產(chǎn)品中的每個(gè)組件和系統(tǒng)模型方面都有豐富的經(jīng)驗(yàn), 無論他們是在建造服務(wù)器工場(chǎng)還是戰(zhàn)斗機(jī)機(jī)型。機(jī)械系統(tǒng)可能有一個(gè)詳細(xì)的模型, 熱力系統(tǒng)可能有一個(gè)多帶帶的模型, 電氣系統(tǒng)可能有另一個(gè)模型, 等等。所有這些系統(tǒng)都有關(guān)鍵的相互作用。例如, 電氣系統(tǒng)中的電阻會(huì)產(chǎn)生熱量, 需要將其納入熱擴(kuò)散和冷卻模型的輸入。過熱可能會(huì)導(dǎo)致機(jī)械部件翹曲, 產(chǎn)生的應(yīng)力應(yīng)該應(yīng)輸入到機(jī)械模型中。
下面的屏幕截圖取自鳳凰集成設(shè)計(jì)的模型集成工具。雖然它來自一個(gè)完全不同的工程學(xué)科, 但這張圖表與我們?yōu)閿?shù)據(jù)產(chǎn)品推薦的驅(qū)動(dòng)系統(tǒng)方法非常相似。目標(biāo)明確: 建造飛機(jī)機(jī)翼。翼箱包括跨度、錐度比和掃描等設(shè)計(jì)杠桿。數(shù)據(jù)是在機(jī)翼材料的物理性質(zhì);成本列在應(yīng)用程序的另一個(gè)選項(xiàng)卡中。有一個(gè)模型的空氣動(dòng)力學(xué)和機(jī)械結(jié)構(gòu), 然后可以給到模擬器, 以產(chǎn)生成本, 重量, 升力系數(shù)和誘導(dǎo)阻力的關(guān)鍵翼輸出。這些結(jié)果可以提供給優(yōu)化器, 以建立一個(gè)功能良好且具有成本效益的飛機(jī)機(jī)翼。
由于預(yù)測(cè)建模和優(yōu)化對(duì)各種活動(dòng)變得更加重要, 請(qǐng)注意工程師會(huì)對(duì)那些似乎不會(huì)立即出現(xiàn)在數(shù)據(jù)業(yè)務(wù)中的行業(yè)造成困擾。例如, "傳動(dòng)系統(tǒng)方法" 一詞的靈感已經(jīng)出現(xiàn)在山景的街道上。我們現(xiàn)在可以讓數(shù)據(jù)驅(qū)動(dòng)我們, 而不是數(shù)據(jù)被驅(qū)動(dòng)。假設(shè)我們想從舊金山到2012年圣克拉拉的斯特拉塔會(huì)議。我們可以建立一個(gè)簡(jiǎn)單的距離/限速模型, 用一把尺子和一張路線圖來預(yù)測(cè)到達(dá)時(shí)間。如果我們想要一個(gè)更復(fù)雜的系統(tǒng), 我們可以建立另一個(gè)交通擁堵模型, 另一個(gè)模型來預(yù)測(cè)天氣狀況及其對(duì)最安全最高速度的影響。在構(gòu)建這些模型時(shí), 有很多很酷的挑戰(zhàn), 但它們本身并不把我們帶到目的地。如今, 使用某種類型的啟發(fā)式搜索算法來預(yù)測(cè)沿各種路線 (模擬器) 的行駛時(shí)間, 然后選擇最短的路線 (優(yōu)化器), 受到避免橋梁通行費(fèi)或最大限度地增加油耗等限制, 這是很微不足道的。但為什么不把它想得更大呢?而不是衛(wèi)星導(dǎo)航系統(tǒng)女性機(jī)器人的聲音告訴我們走哪條路, 往哪里轉(zhuǎn), 需要什么來制造一輛自己做出這些決定的汽車呢?為什么不把模擬和優(yōu)化引擎與物理引擎捆綁在一起, 都在汽車的黑匣子里呢?讓我們來看看這是如何應(yīng)用傳動(dòng)系統(tǒng)方法的。我們已經(jīng)確定了我們的目標(biāo): 制造一輛自己駕駛的汽車。杠桿是我們都熟悉的車輛控制: 方向盤、加速器、剎車等。接下來, 我們考慮汽車需要收集哪些數(shù)據(jù);它需要收集道路數(shù)據(jù)的傳感器, 以及能夠檢測(cè)路標(biāo)、紅色或綠燈以及意外障礙 (包括行人) 的攝像頭。我們需要定義我們需要的模型, 例如預(yù)測(cè)轉(zhuǎn)向、制動(dòng)和加速效果的物理模型, 以及解釋路標(biāo)數(shù)據(jù)的模式識(shí)別算法。正如谷歌汽車自動(dòng)駕駛項(xiàng)目的一位工程師在最近的一篇連線文章中所說, "我們每秒鐘分析和預(yù)測(cè)世界 2 0次"。報(bào)價(jià)中失去的是該預(yù)測(cè)的結(jié)果。車輛需要使用模擬器來檢查它可能采取的行動(dòng)的結(jié)果。如果現(xiàn)在左轉(zhuǎn), 會(huì)不會(huì)撞上那個(gè)行人?如果在這樣的天氣條件下, 它以每小時(shí)55英里的速度右轉(zhuǎn), 會(huì)不會(huì)滑出道路??jī)H僅預(yù)測(cè)會(huì)發(fā)生什么還不夠好。自動(dòng)駕駛需要采取下一步: 模擬所有的可能性后, 它必須優(yōu)化模擬的結(jié)果, 以選擇加速和制動(dòng), 轉(zhuǎn)向和信號(hào)的最佳組合, 讓我們安全到達(dá)圣克拉拉。預(yù)測(cè)只告訴我們會(huì)有意外。一個(gè)優(yōu)化者告訴我們?nèi)绾伪苊馐鹿实陌l(fā)生。
改進(jìn)數(shù)據(jù)收集和預(yù)測(cè)模型非常重要, 但我們要強(qiáng)調(diào)的重要性, 首先是用產(chǎn)生可操作結(jié)果的杠桿來確定一個(gè)明確的目標(biāo)。數(shù)據(jù)科學(xué)開始滲透, 即使是我們生活中最根本的元素。隨著科學(xué)家和工程師越來越善于將預(yù)測(cè)和優(yōu)化應(yīng)用于日常問題, 他們正在擴(kuò)展可能的藝術(shù), 優(yōu)化從我們的個(gè)人健康到我們居住的房屋和城市的一切。以出口和人群控制屏障的位置為杠桿, 將模擬流體動(dòng)力學(xué)和湍流的模型應(yīng)用于改善交通和人流。這改善了地鐵站的緊急疏散程序, 減少了體育賽事期間人群踩踏危險(xiǎn)。Nest正在設(shè)計(jì)智能恒溫器, 了解房主的溫度偏好, 然后優(yōu)化他們的能耗。在機(jī)動(dòng)車交通方面, IBM 與斯德哥爾摩市實(shí)施了一個(gè)項(xiàng)目, 優(yōu)化交通流量, 將交通擁堵減少了近四分之一, 并將市中心的空氣質(zhì)量提高了 2 5%。特別有趣的是, 沒有必要建立一個(gè)復(fù)雜的新數(shù)據(jù)收集系統(tǒng)。任何有按流量計(jì)費(fèi)的城市都已經(jīng)掌握了所有必要的信息;他們只是還沒有找到一種方法從中萃取有價(jià)值的信息。
在另一個(gè)基于目標(biāo)的數(shù)據(jù)產(chǎn)品有能力改變生活的領(lǐng)域, 硅谷的 CUM 擴(kuò)展項(xiàng)目是建立數(shù)據(jù)產(chǎn)品的一個(gè)積極項(xiàng)目, 以幫助自然災(zāi)害或人為災(zāi)害發(fā)生后的急救人員。硅谷卡內(nèi)基梅隆大學(xué) 的珍妮·斯坦伯格向我們解釋了預(yù)測(cè)算法在災(zāi)害響應(yīng)中的許多可能應(yīng)用, 從文本挖掘和對(duì)推特的情緒分析 (以確定損害的程度) 到成群結(jié)隊(duì)的用于偵察和救援的自主機(jī)器人, 用于物流優(yōu)化工具, 幫助多個(gè)司法管轄區(qū)協(xié)調(diào)其響應(yīng)。這些災(zāi)難應(yīng)用程序是一個(gè)特別好的例子, 說明了為什么數(shù)據(jù)產(chǎn)品需要簡(jiǎn)單、設(shè)計(jì)良好的接口來產(chǎn)生具體的建議。在緊急情況下, 只產(chǎn)生更多數(shù)據(jù)的數(shù)據(jù)產(chǎn)品沒有什么用處。數(shù)據(jù)科學(xué)家現(xiàn)在擁有構(gòu)建增加共同利益的產(chǎn)品的預(yù)測(cè)工具, 但他們需要意識(shí)到, 如果不同時(shí)產(chǎn)生優(yōu)化、可實(shí)現(xiàn)的結(jié)果, 構(gòu)建模型是不夠的。
數(shù)據(jù)產(chǎn)品的未來
我們引入了驅(qū)動(dòng)系統(tǒng)方法, 為設(shè)計(jì)下一代偉大的數(shù)據(jù)產(chǎn)品提供了一個(gè)框架, 并描述了本質(zhì)上如何依賴于優(yōu)化。今后, 我們希望看到在商學(xué)院以及統(tǒng)計(jì)部門教授優(yōu)化。我們希望看到數(shù)據(jù)科學(xué)家推送的產(chǎn)品, 旨在產(chǎn)生理想的業(yè)務(wù)成績(jī)。這仍然是數(shù)據(jù)科學(xué)的曙光。我們不知道未來會(huì)開發(fā)什么設(shè)計(jì)方法, 但現(xiàn)在, 數(shù)據(jù)科學(xué)界需要圍繞一個(gè)共享的詞匯和產(chǎn)品設(shè)計(jì)過程進(jìn)行聯(lián)合, 這些詞匯和產(chǎn)品設(shè)計(jì)過程可以用來教育其他人如何從它們的價(jià)值中獲得更大的價(jià)值。預(yù)測(cè)模型。如果我們不這樣做, 我們會(huì)發(fā)現(xiàn)我們的模型只使用數(shù)據(jù)來創(chuàng)建更多的數(shù)據(jù), 而不是使用數(shù)據(jù)來創(chuàng)建行動(dòng)、擾亂行業(yè)和改變生活。
我們究竟是想要提供數(shù)據(jù)的產(chǎn)品, 還是想要基于數(shù)據(jù)交付結(jié)果的產(chǎn)品?杰里米·霍華德在他的斯特拉塔 CA 12 會(huì)議上研究了這些問題, "從預(yù)測(cè)模型到優(yōu)化: 下一個(gè)前沿"。
原文:https://www.oreilly.com/ideas...
免費(fèi)領(lǐng)取驗(yàn)證碼、內(nèi)容安全、短信發(fā)送、直播點(diǎn)播體驗(yàn)包及云服務(wù)器等套餐
更多網(wǎng)易技術(shù)、產(chǎn)品、運(yùn)營(yíng)經(jīng)驗(yàn)分享請(qǐng)點(diǎn)擊。
文章來源: 網(wǎng)易云社區(qū)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/25319.html
摘要:譯者覺得作者的比喻很適合初學(xué)者理解,特此翻譯。進(jìn)一步說,回調(diào)觸發(fā)的順序是不能被保證的。所以我不必?fù)?dān)心代碼在同一時(shí)間訪問同一個(gè)數(shù)據(jù)結(jié)構(gòu)你確實(shí)理解了,這就是的單進(jìn)程事件循環(huán)設(shè)計(jì)美麗的地方。 前言 總括 :這篇文章十分生動(dòng)形象的的介紹了Node,滿足了讀者想去了解Node的需求。作者是Node的第一批貢獻(xiàn)者之一,德國(guó)前端大神。譯者覺得作者的比喻很適合初學(xué)者理解Node,特此翻譯。 譯者 :原...
摘要:評(píng)估目標(biāo)并將其拆解成任務(wù)。依據(jù)中心思考我將這篇文章分成了四小節(jié)。為了這個(gè)我們需要分成幾步,或者幾層設(shè)計(jì)。每個(gè)人都可以用不同的方式成長(zhǎng),知道自己的喜歡的然后去計(jì)劃。 這次我決定不耍流氓的寫一篇雞湯,這篇是以過程到結(jié)果的文章——以前老是寫結(jié)果,總感覺不好~~。 Blabla,群聊的時(shí)候,看到一個(gè)網(wǎng)站有一個(gè)Most active GitHub users的排名,發(fā)現(xiàn)我在里面的位置是20——在...
摘要:進(jìn)一步說,對(duì)于回調(diào)觸發(fā)的順序是無法保證的。時(shí)刻在向成為全球最快的動(dòng)態(tài)語言解釋器之一而努力。正在為對(duì)進(jìn)行實(shí)驗(yàn),正在使用它處理大規(guī)模的,并且由于而出名正在創(chuàng)建一個(gè)令人興奮的游戲引擎,其中后端使用了一些代碼。 一篇2010年的文章,自己讀完后一些對(duì)node.js的疑問迎刃而解,由于文章比較舊,所以文中描述的情況有些已經(jīng)發(fā)生了變化,在翻譯過程中會(huì)一一指出。 原文:http://debugga...
摘要:本文以管理者的視角,與大家分享下我自年月入職小菜后,與前端同學(xué)一起是如何規(guī)劃團(tuán)隊(duì)的技術(shù)棧的,這條技術(shù)棧上的技能點(diǎn)又是如何在不同童鞋不同業(yè)務(wù)中生長(zhǎng)出來的。 Scott 近兩年無論是面試還是線下線上的技術(shù)分享,遇到許許多多前端同學(xué),由于團(tuán)隊(duì)原因,個(gè)人原因,職業(yè)成長(zhǎng),技術(shù)方向,甚至家庭等等原因,在理想國(guó)與現(xiàn)實(shí)之間,在放棄與堅(jiān)守之間,搖擺不停,心酸硬抗,大家可以找我聊聊南聊聊北,對(duì)工程師的宿命...
摘要:番茄工作法簡(jiǎn)約而不簡(jiǎn)單,本書亦然。在番茄工作法一個(gè)個(gè)短短的分鐘內(nèi),你收獲的不僅僅是效率,還會(huì)有意想不到的成就感。 @author ASCE1885的 Github 簡(jiǎn)書 微博 CSDN 知乎本文由于潛在的商業(yè)目的,不開放全文轉(zhuǎn)載許可,謝謝! showImg(/img/remote/1460000007319503?w=728&h=792); 廣而告之時(shí)間:我的新書《Android 高...
閱讀 2791·2019-08-30 15:53
閱讀 2932·2019-08-29 16:20
閱讀 1134·2019-08-29 15:10
閱讀 1090·2019-08-26 10:58
閱讀 2251·2019-08-26 10:49
閱讀 694·2019-08-26 10:21
閱讀 768·2019-08-23 18:30
閱讀 1693·2019-08-23 15:58