摘要:數(shù)據(jù)挖掘的流程與方法任務關聯(lián)分析聚類分析分類分析異常分析特異組群分析演變分析方法統(tǒng)計在線處理分析情報檢索機器學習分類實際應用應用分類趨勢預測推薦關聯(lián)類商品回歸分析實際應用預測銷售趨勢聚類實際應用分類關聯(lián)規(guī)則包括兩個階段從海量數(shù)據(jù)中找到高頻項
數(shù)據(jù)挖掘的流程與方法 1.任務:
關聯(lián)分析
聚類分析
分類分析
異常分析
特異組群分析
演變分析
2.方法:統(tǒng)計
在線處理分析
情報檢索
機器學習
分類
實際應用: 應用分類/趨勢預測/推薦關聯(lián)類商品
回歸分析
實際應用: 預測銷售趨勢
聚類
實際應用: 分類
關聯(lián)規(guī)則
包括兩個階段: 從海量數(shù)據(jù)中找到高頻項目組/產(chǎn)生關聯(lián)規(guī)則
實際應用: 預測客戶需求
Web數(shù)據(jù)挖掘
常用算法: PageRank算法/HITS算法/LOGSOM算法
問題: 用戶分類/用戶頁面停留時間/內(nèi)容時效性/頁面鏈入鏈出/
專家系統(tǒng)
模式識別
神經(jīng)網(wǎng)絡方法
神經(jīng)網(wǎng)絡模型的種類:
用于分類預測和模式識別的前饋式: 函數(shù)型網(wǎng)絡/感知機
用于聯(lián)想記憶和優(yōu)化算法的反饋式: 離散模型/連續(xù)模型
用于聚類的自組織映射: ART模型
3.步驟:one.業(yè)務理解
階段目標
明確商業(yè)問題和數(shù)據(jù)挖掘目標
制定項目計劃
工作任務
業(yè)務需求調(diào)研,問題背景
項目資源評估,確定資源需求
明確業(yè)務目標和成功的標準
挖掘目標確定,可行性,明確數(shù)據(jù)挖掘目標和成功標準
項目計劃制定,指導項目實施
實施要點
充分的需求調(diào)研和溝通交流
合理的資源、約束條件假設
合適的挖掘結果應用場景設定
two.數(shù)據(jù)理解
階段目標
確定建模所需用的數(shù)據(jù)
探索建模需要的目標變量
工作任務
數(shù)據(jù)字典編制,梳理內(nèi)外部數(shù)據(jù)類型
明確數(shù)據(jù)業(yè)務指標含義
質(zhì)量校驗,確保數(shù)據(jù)全面性和可用性
目標變量探索,為模型構建做準備
數(shù)據(jù)的數(shù)據(jù)量(維度和樣本大?。?/p>
數(shù)據(jù)的質(zhì)量(缺失值、異常值、不一致性等)
數(shù)據(jù)的分布規(guī)律(各種統(tǒng)計指標)
實施要點
必備的內(nèi)外部數(shù)據(jù)可獲取和可干預
數(shù)據(jù)一致性、完整性、準確性
目標因子初步分析確定
three.數(shù)據(jù)準備
階段目標
建立數(shù)據(jù)集市或?qū)挶?/p>
工作任務
數(shù)據(jù)集市或?qū)挶碓O計
將多個表信息進行整合:表之間的聯(lián)接/明細數(shù)據(jù)的匯總加工
處理數(shù)據(jù)質(zhì)量問題: 缺失值/異常值
數(shù)據(jù)清洗、加載、轉(zhuǎn)換
數(shù)據(jù)的字段進行變換: 規(guī)范化/標準化
或都將數(shù)據(jù)進行映射變換,如Log變化
數(shù)值型按區(qū)間轉(zhuǎn)換成名詞型字段
特征工程
從業(yè)務角度加工新的計算指標
進行自動特征構建、特征選擇、特征降維
數(shù)據(jù)質(zhì)量校驗
數(shù)據(jù)標準化
實施要點
高效的數(shù)據(jù)保障項目進度和質(zhì)量
four.建立模型
階段目標
選擇合適的技術建模
實現(xiàn)數(shù)據(jù)挖掘目標
工作任務
技術選型,選擇合適的模型算法
樣本選取,確定訓練樣本、測試樣本和驗證樣本
模型建立,篩選變量、模型訓練、模型測試
模型評估,評估模型是否滿足數(shù)據(jù)挖掘目標
實施要點
合適的技術幫助實現(xiàn)挖掘目標
樣本數(shù)據(jù)真實反映業(yè)務需求
全面評估模型數(shù)據(jù)挖掘效果
five.檢驗模型
階段目標
進行模型的業(yè)務應用測試(A/B測試)
判斷是否實現(xiàn)商業(yè)目標
工作任務
模型試用,確定業(yè)務場景,進行模型應用測試,收集反饋效果
效果評價,對測試效果進行評估分析,判斷模型是否滿足商業(yè)目標
實施要點
合適的業(yè)務場景試用方案
全面科學的效果評價
six.結果部署
階段目標
把數(shù)據(jù)挖掘成果部署到商業(yè)環(huán)境,應用于生產(chǎn)
工作任務
規(guī)劃部署,制定部署計劃和方案
監(jiān)控與維護,實時跟蹤,驗證商業(yè)目標達成情況
總結報告,經(jīng)驗積累
實施要點
科學規(guī)劃,保障無縫部署
即時監(jiān)控及維護響應,保障運營
全面的總結分析,積累經(jīng)驗
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/45186.html
摘要:這是一個基于做的一個電商網(wǎng)站前端項目附帶前后端分離實現(xiàn)版本在分支,歡迎或項目地址項目預覽地址說明分支是單純的前端項目,分支為與后端接口結合的前端項目,附后端項目地址本項目僅供學習參考分支為純前端項目,所以登陸密碼是寫死的,體驗賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網(wǎng)站前端項目, 附帶前后端分離實現(xiàn)版本(在forMallServer分支),...
摘要:這是一個基于做的一個電商網(wǎng)站前端項目附帶前后端分離實現(xiàn)版本在分支,歡迎或項目地址項目預覽地址說明分支是單純的前端項目,分支為與后端接口結合的前端項目,附后端項目地址本項目僅供學習參考分支為純前端項目,所以登陸密碼是寫死的,體驗賬號密 MALL-VUE 這是一個基于VUE + VUEX + iView做的一個電商網(wǎng)站前端項目, 附帶前后端分離實現(xiàn)版本(在forMallServer分支),...
摘要:程序員不僅應致力于讓程序員失業(yè),也應致力于讓所有人失業(yè)。源代碼公開是一個熱議話題,當問到對源代碼公開的個人觀點時,說到雖然對程序員是一件好事,可以讓程序員研究源代碼,但我并不認為所有軟件的源代碼必須公開,源代碼公開涉及到知識產(chǎn)權等各種問題。 為打破外界對程序員簡單平面的偏見,一系列程序員訪談正在進行中。 第一個接受訪談的程序員 Gemini,在 SegmentFault 主要負責 An...
閱讀 1664·2023-04-26 03:04
閱讀 2582·2019-08-30 15:44
閱讀 3797·2019-08-30 14:15
閱讀 3645·2019-08-27 10:56
閱讀 2977·2019-08-26 13:53
閱讀 2675·2019-08-26 13:26
閱讀 3134·2019-08-26 12:11
閱讀 3688·2019-08-23 18:21