【技術(shù)性】AI/ML知識(shí)

Alfred 發(fā)布于2019-06-26 18:47 / 2308人閱讀

摘要：詞頻逆向文件頻率詞頻越大越重要越大，即出現(xiàn)詞的文件數(shù)越少，越重要概述一般結(jié)構(gòu)為卷積層一組平行的，之后經(jīng)過(guò)激活函數(shù)如來(lái)決定該神經(jīng)元是否被激活。一般都是，把行進(jìn)行處理。

做ML最重要的是啥??！跟我念三遍??！LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來(lái)幫助自己理解data。

Pandas

引入：import pandas as pd

常也需import numpy as np

create df：

df = pd.DataFrame(...)

selection：

選列：df["A"]
選行：df[0:3]
多維：df.loc[:, ["A", "B"]]或df.iloc[:, 0:2]
選值：df.at[2,"A"]或者df.iloc[2,0]

處理空值：df.dropna df.fillna

apply funcs：df.apply(lambda)

SQL-like join: pd.merge(A, B, on="...")

文件：df.to_csv("...") pd.read_csv("...")

filtering的pitfall：
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來(lái)filter了training set，那么age就不可以再作為feature，否則模型就會(huì)嚴(yán)重學(xué)習(xí)到age < 18這條手動(dòng)規(guī)則

Ngrams:
一段text里相臨近的n個(gè)單詞，ngram feature每次就以n為窗口計(jì)算
ngram model一般是馬爾科夫鏈算法，由前n-1個(gè)單詞預(yù)測(cè)最后一個(gè)單詞

feature engineering：
如何提出好的feature：1）憑直覺(jué) e.g.頭發(fā)長(zhǎng)短用于判斷性別； 2）用數(shù)據(jù)做correlation分析

ROC曲線：
橫坐標(biāo)FPR, 縱坐標(biāo)TPR, 每個(gè)點(diǎn)上都有threshold，可以根據(jù)距離(0,1)點(diǎn)最近的曲線上點(diǎn)來(lái)選擇threshold。（但一般都是0.5不用動(dòng)。）

TFIDF:
TFIDF = TF（詞頻） * IDF（逆向文件頻率）
詞頻越大越重要
idf越大，即出現(xiàn)詞的文件數(shù)越少，越重要

CNN概述：
一般結(jié)構(gòu)為

kernals(window) --> convolution layer --> pooling operation --> vectorization

卷積層：一組平行的feature map，之后經(jīng)過(guò)激活函數(shù)（如sigmoid）來(lái)決定該神經(jīng)元是否被激活。
池化層：downsampling，有助于減少param數(shù)量并避免overfit
常見(jiàn)池化方法：max，min，avg，l2等

Model deployment：
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model

預(yù)處理
一般都要包括去重（！非常重要！否則會(huì)overfit和bias）和處理N/A值

train、test set split的pitfall：
注意不能有data leak！?。∷匀ブ卣娴姆浅Ｖ匾?。

一般的ranking backend結(jié)構(gòu)：
一般first stage做filter（這樣結(jié)果才能變少?。?，second stage做rank。
所以先f(wàn)ilter model，然后再ranking models

如果應(yīng)對(duì)position bias（e.g.排第一個(gè)的結(jié)果收到的點(diǎn)擊最多）：
predict as if they are all shown at position 0
include position feature
counterfactual evaluation

Training package：
訓(xùn)練代碼一般都會(huì)打包成package通過(guò)command來(lái)跑。
一般都是batch training，把行進(jìn)行batch處理。

云服務(wù)器 GPU云服務(wù)器大數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí) 數(shù)碼知識(shí) 知識(shí) 知識(shí)城

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/19933.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Alfred

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3314·2023-04-26 02:27
BREW 應(yīng)用的開(kāi)發(fā)流程

閱讀 2192·2021-11-22 14:44
利用WizTree軟件查看Win系統(tǒng)大文件占用且可快速精簡(jiǎn)C盤(pán)

閱讀 4188·2021-10-22 09:54
怒肝1.5萬(wàn)字——史上最全C語(yǔ)言文件操作詳解

閱讀 3243·2021-10-14 09:43
Rackedge：英國(guó)vps，1核2GB內(nèi)存/30GB空間/不限流量/100Mbps端口，$2/月起

閱讀 804·2021-09-23 11:53
發(fā)件服務(wù)器主機(jī)名怎么填-收件、發(fā)件服務(wù)器的主機(jī)名填什么？

閱讀 13124·2021-09-22 15:33
vue內(nèi)置組件——transition簡(jiǎn)單原理圖文詳解

閱讀 2770·2019-08-30 15:54
常用的CSS框架

閱讀 2766·2019-08-30 14:04

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【技術(shù)性】AI/ML知識(shí)

相關(guān)文章

李飛飛卸任谷歌云AI負(fù)責(zé)人，回歸斯坦福

MindsDB：一個(gè)利用企業(yè)數(shù)據(jù)構(gòu)建 AI 的平臺(tái)

實(shí)現(xiàn) TensorFlow 多機(jī)并行線性加速

人工智能期末筆記

發(fā)表評(píng)論

0條評(píng)論

Alfred

男|高級(jí)講師

TA的文章

tensorflow

BREW 應(yīng)用的開(kāi)發(fā)流程

利用WizTree軟件查看Win系統(tǒng)大文件占用且可快速精簡(jiǎn)C盤(pán)

怒肝1.5萬(wàn)字——史上最全C語(yǔ)言文件操作詳解

Rackedge：英國(guó)vps，1核2GB內(nèi)存/30GB空間/不限流量/100Mbps端口，$2/月起

發(fā)件服務(wù)器主機(jī)名怎么填-收件、發(fā)件服務(wù)器的主機(jī)名填什么？

vue內(nèi)置組件——transition簡(jiǎn)單原理圖文詳解

常用的CSS框架

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

【技術(shù)性】AI/ML知識(shí)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！