摘要:詞頻逆向文件頻率詞頻越大越重要越大,即出現(xiàn)詞的文件數(shù)越少,越重要概述一般結(jié)構(gòu)為卷積層一組平行的,之后經(jīng)過(guò)激活函數(shù)如來(lái)決定該神經(jīng)元是否被激活。一般都是,把行進(jìn)行處理。
做ML最重要的是啥??!跟我念三遍??!LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來(lái)幫助自己理解data。
Pandas
引入:import pandas as pd
常也需import numpy as np
create df:
df = pd.DataFrame(...)
selection:
選列:df["A"] 選行:df[0:3] 多維:df.loc[:, ["A", "B"]]或df.iloc[:, 0:2] 選值:df.at[2,"A"]或者df.iloc[2,0]
處理空值:df.dropna df.fillna
apply funcs:df.apply(lambda)
SQL-like join: pd.merge(A, B, on="...")
文件:df.to_csv("...") pd.read_csv("...")
filtering的pitfall:
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來(lái)filter了training set,那么age就不可以再作為feature,否則模型就會(huì)嚴(yán)重學(xué)習(xí)到age < 18這條手動(dòng)規(guī)則
Ngrams:
一段text里相臨近的n個(gè)單詞,ngram feature每次就以n為窗口計(jì)算
ngram model一般是馬爾科夫鏈算法,由前n-1個(gè)單詞預(yù)測(cè)最后一個(gè)單詞
feature engineering:
如何提出好的feature:1)憑直覺(jué) e.g.頭發(fā)長(zhǎng)短用于判斷性別; 2)用數(shù)據(jù)做correlation分析
ROC曲線:
橫坐標(biāo)FPR, 縱坐標(biāo)TPR, 每個(gè)點(diǎn)上都有threshold,可以根據(jù)距離(0,1)點(diǎn)最近的曲線上點(diǎn)來(lái)選擇threshold。(但一般都是0.5不用動(dòng)。)
TFIDF:
TFIDF = TF(詞頻) * IDF(逆向文件頻率)
詞頻越大越重要
idf越大,即出現(xiàn)詞的文件數(shù)越少,越重要
CNN概述:
一般結(jié)構(gòu)為
kernals(window) --> convolution layer --> pooling operation --> vectorization
卷積層:一組平行的feature map,之后經(jīng)過(guò)激活函數(shù)(如sigmoid)來(lái)決定該神經(jīng)元是否被激活。
池化層:downsampling,有助于減少param數(shù)量并避免overfit
常見(jiàn)池化方法:max,min,avg,l2等
Model deployment:
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model
預(yù)處理
一般都要包括去重(!非常重要!否則會(huì)overfit和bias)和處理N/A值
train、test set split的pitfall:
注意不能有data leak!?。∷匀ブ卣娴姆浅V匾?。
一般的ranking backend結(jié)構(gòu):
一般first stage做filter(這樣結(jié)果才能變少?。?,second stage做rank。
所以先f(wàn)ilter model,然后再ranking models
如果應(yīng)對(duì)position bias(e.g.排第一個(gè)的結(jié)果收到的點(diǎn)擊最多):
predict as if they are all shown at position 0
include position feature
counterfactual evaluation
Training package:
訓(xùn)練代碼一般都會(huì)打包成package通過(guò)command來(lái)跑。
一般都是batch training,把行進(jìn)行batch處理。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19933.html
摘要:谷歌云在其官方博客上公布,確認(rèn)來(lái)自卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)院院長(zhǎng)教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會(huì)上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語(yǔ)言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...
MindsDB作為一個(gè)開(kāi)源項(xiàng)目,它旨在將機(jī)器學(xué)習(xí)模型無(wú)縫集成到現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)中,為用戶(hù)提供實(shí)時(shí)的數(shù)據(jù)預(yù)測(cè)能力。這個(gè)項(xiàng)目的創(chuàng)新之處在于,它能夠以簡(jiǎn)單、直觀的方式讓開(kāi)發(fā)者和非技術(shù)人員都能夠利用AI進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)。 它是根據(jù)企業(yè)數(shù)據(jù)庫(kù)定制的AI平臺(tái),使用者可以根據(jù)數(shù)據(jù)庫(kù)、矢量存儲(chǔ)和應(yīng)用程序數(shù)據(jù)實(shí)時(shí)創(chuàng)建、提供和微調(diào)模型。簡(jiǎn)介MindsDB 的核心理念是使數(shù)據(jù)庫(kù)不僅能夠存儲(chǔ)和檢索數(shù)據(jù),還能基于這些數(shù)據(jù)...
摘要:在一個(gè)數(shù)據(jù)分析任務(wù)和任務(wù)混合的環(huán)境中,大數(shù)據(jù)分析任務(wù)也會(huì)消耗很多網(wǎng)絡(luò)帶寬如操作,網(wǎng)絡(luò)延遲會(huì)更加嚴(yán)重。本地更新更新更新目前,我們已經(jīng)復(fù)現(xiàn)中的實(shí)驗(yàn)結(jié)果,實(shí)現(xiàn)了多機(jī)并行的線性加速。 王佐,天數(shù)潤(rùn)科深度學(xué)習(xí)平臺(tái)負(fù)責(zé)人,曾擔(dān)任 Intel亞太研發(fā)中心Team Leader,萬(wàn)達(dá)人工智能研究院資深研究員,長(zhǎng)期從事分布式計(jì)算系統(tǒng)研究,在大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)、機(jī)器學(xué)習(xí)算法設(shè)計(jì)和應(yīng)用方面有深厚積累。在...
摘要:舉例,神經(jīng)元,感知機(jī),神經(jīng)網(wǎng)絡(luò)行為主義智能機(jī)器人認(rèn)為人工智能源于控制論。人工智能的研究領(lǐng)域包括專(zhuān)家系統(tǒng)推薦系統(tǒng)等等。是一種實(shí)現(xiàn)人工智能的方法根據(jù)某些算法,通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),然后對(duì)真實(shí)世界中的事件做出決策和預(yù)測(cè)。 1. 緒論 四大流派 符號(hào)主義(知識(shí)圖譜)原理主要為物理符號(hào)系統(tǒng)(即符號(hào)操作系統(tǒng))假設(shè)和有限合理性原理 用數(shù)理邏輯描述智能行為, 在計(jì)算機(jī)上實(shí)現(xiàn)了邏輯演繹系統(tǒng)。 ...
閱讀 3314·2023-04-26 02:27
閱讀 2192·2021-11-22 14:44
閱讀 4188·2021-10-22 09:54
閱讀 3243·2021-10-14 09:43
閱讀 804·2021-09-23 11:53
閱讀 13124·2021-09-22 15:33
閱讀 2770·2019-08-30 15:54
閱讀 2766·2019-08-30 14:04