亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

為什么Kaggle不會(huì)讓你成為一名出色的數(shù)據(jù)科學(xué)家?

evin2016 / 555人閱讀

摘要:缺少投資回報(bào)率的分析環(huán)節(jié)公司正在加大數(shù)據(jù)科學(xué)技能方面的投入。通常,成功的分析項(xiàng)目需要數(shù)據(jù)科學(xué)算法與投資回報(bào)率緊密相關(guān)。并不涉及這方面的分析,而只專注預(yù)測(cè),并不考慮如何把數(shù)據(jù)科學(xué)結(jié)果應(yīng)用于投資回報(bào)率。

作者 | Pranay Dave
CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權(quán)

毫無(wú)疑問(wèn),Kaggle是非常適合學(xué)習(xí)數(shù)據(jù)科學(xué)的平臺(tái)。許多數(shù)據(jù)科學(xué)家在Kaggle上投入了大量時(shí)間。

但同時(shí),你不應(yīng)該只依靠Kaggle來(lái)學(xué)習(xí)數(shù)據(jù)科學(xué)技能。

以下就是當(dāng)中的原因:

1.數(shù)據(jù)科學(xué)不僅僅是預(yù)測(cè)

Kaggle主要針對(duì)預(yù)測(cè)相關(guān)的問(wèn)題。然而許多現(xiàn)實(shí)問(wèn)題是與預(yù)測(cè)無(wú)關(guān)的。

例如,許多公司都想知道用戶流失的最常見(jiàn)途徑。這些類(lèi)型的問(wèn)題需要了解不同的數(shù)據(jù)類(lèi)型和用戶接觸點(diǎn),例如web導(dǎo)航、計(jì)費(fèi)、客服中心交互、商店訪問(wèn)等問(wèn)題。同時(shí)還需要識(shí)別重要事件,例如超額計(jì)費(fèi)或?qū)Ш藉e(cuò)誤。在確定所有事件后,你需要應(yīng)用路徑算法來(lái)了解導(dǎo)致用戶流失的常見(jiàn)路徑。解決這類(lèi)問(wèn)題不能僅靠預(yù)測(cè)算法,而需要能夠根據(jù)事件構(gòu)建時(shí)間線的算法。

同樣,解決許多其他問(wèn)題也需要預(yù)測(cè)之外的技能。能夠解決預(yù)測(cè)性問(wèn)題是很強(qiáng)大的,但作為數(shù)據(jù)科學(xué)家你需要解決多種類(lèi)型的問(wèn)題?,F(xiàn)實(shí)情況中有更多類(lèi)型的問(wèn)題需要解決,因此你不能僅局限于Kaggle,還需要用其他技能解決現(xiàn)實(shí)的數(shù)據(jù)科學(xué)挑戰(zhàn)。

2.無(wú)法提高圖算法方面的技能

社交網(wǎng)絡(luò)分析、影響預(yù)測(cè)、社區(qū)分析、欺詐網(wǎng)絡(luò)分析等,這些有趣的分析問(wèn)題都是數(shù)據(jù)科學(xué)家需要解決。解決這類(lèi)問(wèn)題需要有關(guān)圖形算法的知識(shí),如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

網(wǎng)絡(luò)或社區(qū)類(lèi)型問(wèn)題在Kaggle中很少見(jiàn)。解決圖形和網(wǎng)絡(luò)方面問(wèn)題需要節(jié)點(diǎn)和鏈接相關(guān)數(shù)據(jù),而Kaggle中大多數(shù)數(shù)據(jù)并不是這種形式的。

當(dāng)然,你可以將問(wèn)題轉(zhuǎn)換為使用圖算法,但這種情況很少。Kaggle上缺少這類(lèi)的比賽,這也表明了于數(shù)據(jù)科學(xué)家日常需要解決問(wèn)題的巨大差距。

3.無(wú)法提高算法可解釋性

算法的可解釋性越來(lái)越重要。你可以使用高大上的方法和最復(fù)雜的算法,但如果無(wú)法解釋算法是怎樣得到預(yù)測(cè)的,在企業(yè)中這將是一個(gè)大問(wèn)題。這種說(shuō)不清緣由的算法被稱為“黑匣子”算法。

使用黑盒算法存在一定的隱患,而且也可能造成法律方面的問(wèn)題。假設(shè),你開(kāi)發(fā)了一種非常精確的算法集合來(lái)預(yù)測(cè)信用風(fēng)險(xiǎn)。在投入生產(chǎn)時(shí),它將用于預(yù)測(cè)信貸風(fēng)險(xiǎn)。其中有些人的信用得分會(huì)很低,被拒絕貸款的人有權(quán)知道他們申請(qǐng)被拒的原因。如果算法無(wú)法提供解釋,則可能會(huì)產(chǎn)生法律問(wèn)題。

在Kaggle比賽中,獲勝者是基于準(zhǔn)確性,而不是基于可解釋性。這意味著比賽中數(shù)據(jù)科學(xué)家可以使用復(fù)雜的算法來(lái)保證高準(zhǔn)確性,而不必關(guān)心可解釋性。這種方法能夠贏得比賽,但在企業(yè)的數(shù)據(jù)科學(xué)項(xiàng)目中就行不通了。

4.缺少投資回報(bào)率的分析環(huán)節(jié)

公司正在加大數(shù)據(jù)科學(xué)技能方面的投入。他們希望數(shù)據(jù)科學(xué)項(xiàng)目能夠提供投資回報(bào)率。通常,成功的分析項(xiàng)目需要數(shù)據(jù)科學(xué)算法與投資回報(bào)率緊密相關(guān)。

其中一個(gè)例子是預(yù)測(cè)性維護(hù),其中能夠?qū)υO(shè)備故障進(jìn)行預(yù)測(cè)。假設(shè)設(shè)備的故障率為10%,那么你需要派維護(hù)人員去進(jìn)行檢查嗎?可能并不需要。但如果故障率為95%,那是肯定需要的。

然而在實(shí)際情況中,故障率通常為55%,63%等,這時(shí)就不確定了。如果公司派維護(hù)人員檢查所有這些設(shè)備,則可能產(chǎn)生巨大的成本。如果不派人檢查,則會(huì)有很大的設(shè)備故障風(fēng)險(xiǎn)。

那么故障率的閾值應(yīng)該是多少呢?這時(shí)就需要計(jì)算投資回報(bào)率了。因此非常需要數(shù)據(jù)科學(xué)家給出當(dāng)中的閾值,從而幫助公司確定相關(guān)決策。

Kaggle并不涉及這方面的分析,而只專注預(yù)測(cè),并不考慮如何把數(shù)據(jù)科學(xué)結(jié)果應(yīng)用于投資回報(bào)率。

5.不會(huì)涉及到模擬和優(yōu)化問(wèn)題

關(guān)于模擬和優(yōu)化算法,比如系統(tǒng)動(dòng)態(tài)仿真、基于代理模擬或蒙特卡羅模擬等應(yīng)該是所有數(shù)據(jù)科學(xué)家的必備技能。金融優(yōu)化、路線優(yōu)化、定價(jià)等許多問(wèn)題都是數(shù)據(jù)科學(xué)家需要解決的問(wèn)題。

以價(jià)格預(yù)測(cè)為例,你可以使用機(jī)器學(xué)習(xí),根據(jù)季節(jié)、日期、地點(diǎn)、競(jìng)爭(zhēng)對(duì)手價(jià)格等數(shù)據(jù)來(lái)預(yù)測(cè)產(chǎn)品價(jià)格。但機(jī)器學(xué)習(xí)算法預(yù)測(cè)的價(jià)格是否是最優(yōu)價(jià)格?也許不是。為了確定最優(yōu)價(jià)格,你首先要確定優(yōu)化目標(biāo)。

優(yōu)化目標(biāo)可以設(shè)為利潤(rùn)優(yōu)化。在這種情況下,你需要確定提供最佳利潤(rùn)的價(jià)格范圍。為了留住用戶,這樣的價(jià)格不能設(shè)太高。同時(shí),為了保持良好的利潤(rùn)率,也不應(yīng)該太低。

因此,你需要通過(guò)優(yōu)化算法來(lái)確定最佳價(jià)格范圍。如果預(yù)測(cè)價(jià)格在價(jià)格范圍內(nèi),那么機(jī)器學(xué)習(xí)的結(jié)果是可以接受的,否則應(yīng)被拒絕。

在Kaggle上,通常不會(huì)給出利潤(rùn)優(yōu)化等優(yōu)化目標(biāo)。因此,當(dāng)中涉及的問(wèn)題仍然局限于機(jī)器學(xué)習(xí),而并沒(méi)有探索優(yōu)化方面的問(wèn)題。

6.無(wú)法體驗(yàn)?zāi)P筒渴鸷筒僮?/strong>

假設(shè)你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,這是在Kaggle上無(wú)法體驗(yàn)的。

生產(chǎn)部署模型會(huì)涉及到docker、kubernetes等技術(shù)。雖然數(shù)據(jù)科學(xué)家并不需要成為docker和kubernetes方面的專家,但至少要能夠熟練使用。很多情況下,數(shù)據(jù)科學(xué)家需要用docker創(chuàng)建評(píng)分管道。

操作和部署還包括定期監(jiān)控模型性能,并在必要時(shí)采取改進(jìn)措施。假設(shè)有一個(gè)產(chǎn)品推薦模型。你在某個(gè)時(shí)間點(diǎn)觀察到,由于推薦而導(dǎo)致銷(xiāo)售額下降。那么問(wèn)題是出在模型上嗎?還是其他方面呢?

數(shù)據(jù)科學(xué)家需要參與到模型部署環(huán)節(jié),從而獲得獲得真實(shí)而豐富的體驗(yàn)。

結(jié)語(yǔ)

數(shù)據(jù)科學(xué)家需要涉及算法可解釋性、投資回報(bào)率評(píng)估、優(yōu)化等技能。在這一系列問(wèn)題中,你將解決各種有趣的現(xiàn)實(shí)問(wèn)題,從而更全面的提高數(shù)據(jù)科學(xué)相關(guān)技能。

對(duì)于數(shù)據(jù)科學(xué)家而言,不要僅局限于Kaggle,而是要從其他角度解決不同類(lèi)型的數(shù)據(jù)科學(xué)問(wèn)題。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19886.html

相關(guān)文章

  • Kaggle冠軍經(jīng)驗(yàn)分享丨如何用15個(gè)月沖到排行榜首位

    摘要:你是如何開(kāi)始參加比賽的正如之前所說(shuō)的,我一直在閱讀大量機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的書(shū)籍和論文,但發(fā)現(xiàn)很難將我學(xué)到的算法應(yīng)用于小型數(shù)據(jù)集。機(jī)器學(xué)習(xí)中,你對(duì)哪個(gè)子領(lǐng)域最感興趣我對(duì)深度學(xué)習(xí)的各種進(jìn)步都很感興趣。 showImg(https://segmentfault.com/img/bVboxKz?w=800&h=600); 作者 Kaggle Team中文翻譯 MikaCDA 數(shù)據(jù)分析師...

    AnthonyHan 評(píng)論0 收藏0
  • 成為靠譜數(shù)據(jù)學(xué)家——從提出正確問(wèn)題開(kāi)始

    摘要:我認(rèn)為提出正確的問(wèn)題和定義問(wèn)題陳述是許多數(shù)據(jù)科學(xué)初學(xué)者包括我面臨的一項(xiàng)挑戰(zhàn)。在本文中,我將與你分享作為數(shù)據(jù)科學(xué)家,該如何提出正確問(wèn)題并定義問(wèn)題陳述。我們的任務(wù)是幫助他們將問(wèn)題構(gòu)建成數(shù)據(jù)科學(xué)問(wèn)題,從他們的角度看問(wèn)題。 showImg(https://segmentfault.com/img/bVbnjxm?w=900&h=600);作者 | Admond Lee翻譯 | MikaCDA ...

    dendoink 評(píng)論0 收藏0
  • 如何為你深度學(xué)習(xí)任務(wù)挑選最合適 GPU?

    摘要:年月日,機(jī)器之心曾經(jīng)推出文章為你的深度學(xué)習(xí)任務(wù)挑選最合適從性能到價(jià)格的全方位指南。如果你想要學(xué)習(xí)深度學(xué)習(xí),這也具有心理上的重要性。如果你想快速學(xué)習(xí)深度學(xué)習(xí),多個(gè)廉價(jià)的也很好。目前還沒(méi)有適合顯卡的深度學(xué)習(xí)庫(kù)所以,只能選擇英偉達(dá)了。 文章作者 Tim Dettmers 系瑞士盧加諾大學(xué)信息學(xué)碩士,熱衷于開(kāi)發(fā)自己的 GPU 集群和算法來(lái)加速深度學(xué)習(xí)。這篇博文最早版本發(fā)布于 2014 年 8 月,之...

    taohonghui 評(píng)論0 收藏0
  • 8步從Python白板到專家,從基礎(chǔ)到深度學(xué)習(xí)

    摘要:去吧,參加一個(gè)在上正在舉辦的實(shí)時(shí)比賽吧試試你所學(xué)到的全部知識(shí)微軟雅黑深度學(xué)習(xí)終于看到這個(gè),興奮吧現(xiàn)在,你已經(jīng)學(xué)到了絕大多數(shù)關(guān)于機(jī)器學(xué)習(xí)的技術(shù),是時(shí)候試試深度學(xué)習(xí)了。微軟雅黑對(duì)于深度學(xué)習(xí),我也是個(gè)新手,就請(qǐng)把這些建議當(dāng)作參考吧。 如果你想做一個(gè)數(shù)據(jù)科學(xué)家,或者作為一個(gè)數(shù)據(jù)科學(xué)家你想擴(kuò)展自己的工具和知識(shí)庫(kù),那么,你來(lái)對(duì)地方了。這篇文章的目的,是給剛開(kāi)始使用Python進(jìn)行數(shù)據(jù)分析的人,指明一條全...

    Zachary 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<