亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

【技術(shù)性】AI/ML知識(shí)

Alfred / 2308人閱讀

摘要:詞頻逆向文件頻率詞頻越大越重要越大,即出現(xiàn)詞的文件數(shù)越少,越重要概述一般結(jié)構(gòu)為卷積層一組平行的,之后經(jīng)過(guò)激活函數(shù)如來(lái)決定該神經(jīng)元是否被激活。一般都是,把行進(jìn)行處理。

做ML最重要的是啥??!跟我念三遍??!LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來(lái)幫助自己理解data。

Pandas

引入:import pandas as pd

常也需import numpy as np

create df:

df = pd.DataFrame(...)

selection:

選列:df["A"]
選行:df[0:3]
多維:df.loc[:, ["A", "B"]]或df.iloc[:, 0:2]
選值:df.at[2,"A"]或者df.iloc[2,0]

處理空值:df.dropna df.fillna

apply funcs:df.apply(lambda)

SQL-like join: pd.merge(A, B, on="...")

文件:df.to_csv("...") pd.read_csv("...")

filtering的pitfall:
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來(lái)filter了training set,那么age就不可以再作為feature,否則模型就會(huì)嚴(yán)重學(xué)習(xí)到age < 18這條手動(dòng)規(guī)則

Ngrams:
一段text里相臨近的n個(gè)單詞,ngram feature每次就以n為窗口計(jì)算
ngram model一般是馬爾科夫鏈算法,由前n-1個(gè)單詞預(yù)測(cè)最后一個(gè)單詞

feature engineering:
如何提出好的feature:1)憑直覺(jué) e.g.頭發(fā)長(zhǎng)短用于判斷性別; 2)用數(shù)據(jù)做correlation分析

ROC曲線:
橫坐標(biāo)FPR, 縱坐標(biāo)TPR, 每個(gè)點(diǎn)上都有threshold,可以根據(jù)距離(0,1)點(diǎn)最近的曲線上點(diǎn)來(lái)選擇threshold。(但一般都是0.5不用動(dòng)。)

TFIDF:
TFIDF = TF(詞頻) * IDF(逆向文件頻率)
詞頻越大越重要
idf越大,即出現(xiàn)詞的文件數(shù)越少,越重要

CNN概述:
一般結(jié)構(gòu)為

kernals(window) --> convolution layer --> pooling operation --> vectorization

卷積層:一組平行的feature map,之后經(jīng)過(guò)激活函數(shù)(如sigmoid)來(lái)決定該神經(jīng)元是否被激活。
池化層:downsampling,有助于減少param數(shù)量并避免overfit
常見(jiàn)池化方法:max,min,avg,l2等

Model deployment:
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model

預(yù)處理
一般都要包括去重(!非常重要!否則會(huì)overfit和bias)和處理N/A值

train、test set split的pitfall:
注意不能有data leak!?。∷匀ブ卣娴姆浅V匾?。

一般的ranking backend結(jié)構(gòu):
一般first stage做filter(這樣結(jié)果才能變少?。?,second stage做rank。
所以先f(wàn)ilter model,然后再ranking models

如果應(yīng)對(duì)position bias(e.g.排第一個(gè)的結(jié)果收到的點(diǎn)擊最多):
predict as if they are all shown at position 0
include position feature
counterfactual evaluation

Training package:
訓(xùn)練代碼一般都會(huì)打包成package通過(guò)command來(lái)跑。
一般都是batch training,把行進(jìn)行batch處理。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19933.html

相關(guān)文章

  • 李飛飛卸任谷歌云AI負(fù)責(zé)人,回歸斯坦福

    摘要:谷歌云在其官方博客上公布,確認(rèn)來(lái)自卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)院院長(zhǎng)教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會(huì)上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語(yǔ)言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...

    tuantuan 評(píng)論0 收藏0
  • MindsDB:一個(gè)利用企業(yè)數(shù)據(jù)構(gòu)建 AI 的平臺(tái)

    MindsDB作為一個(gè)開(kāi)源項(xiàng)目,它旨在將機(jī)器學(xué)習(xí)模型無(wú)縫集成到現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)中,為用戶(hù)提供實(shí)時(shí)的數(shù)據(jù)預(yù)測(cè)能力。這個(gè)項(xiàng)目的創(chuàng)新之處在于,它能夠以簡(jiǎn)單、直觀的方式讓開(kāi)發(fā)者和非技術(shù)人員都能夠利用AI進(jìn)行數(shù)據(jù)分析和預(yù)測(cè)。 它是根據(jù)企業(yè)數(shù)據(jù)庫(kù)定制的AI平臺(tái),使用者可以根據(jù)數(shù)據(jù)庫(kù)、矢量存儲(chǔ)和應(yīng)用程序數(shù)據(jù)實(shí)時(shí)創(chuàng)建、提供和微調(diào)模型。簡(jiǎn)介MindsDB 的核心理念是使數(shù)據(jù)庫(kù)不僅能夠存儲(chǔ)和檢索數(shù)據(jù),還能基于這些數(shù)據(jù)...

    UCloud小助手 評(píng)論0 收藏0
  • 實(shí)現(xiàn) TensorFlow 多機(jī)并行線性加速

    摘要:在一個(gè)數(shù)據(jù)分析任務(wù)和任務(wù)混合的環(huán)境中,大數(shù)據(jù)分析任務(wù)也會(huì)消耗很多網(wǎng)絡(luò)帶寬如操作,網(wǎng)絡(luò)延遲會(huì)更加嚴(yán)重。本地更新更新更新目前,我們已經(jīng)復(fù)現(xiàn)中的實(shí)驗(yàn)結(jié)果,實(shí)現(xiàn)了多機(jī)并行的線性加速。 王佐,天數(shù)潤(rùn)科深度學(xué)習(xí)平臺(tái)負(fù)責(zé)人,曾擔(dān)任 Intel亞太研發(fā)中心Team Leader,萬(wàn)達(dá)人工智能研究院資深研究員,長(zhǎng)期從事分布式計(jì)算系統(tǒng)研究,在大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu)、機(jī)器學(xué)習(xí)算法設(shè)計(jì)和應(yīng)用方面有深厚積累。在...

    時(shí)飛 評(píng)論0 收藏0
  • 人工智能期末筆記

    摘要:舉例,神經(jīng)元,感知機(jī),神經(jīng)網(wǎng)絡(luò)行為主義智能機(jī)器人認(rèn)為人工智能源于控制論。人工智能的研究領(lǐng)域包括專(zhuān)家系統(tǒng)推薦系統(tǒng)等等。是一種實(shí)現(xiàn)人工智能的方法根據(jù)某些算法,通過(guò)大量數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),然后對(duì)真實(shí)世界中的事件做出決策和預(yù)測(cè)。 1. 緒論 四大流派 符號(hào)主義(知識(shí)圖譜)原理主要為物理符號(hào)系統(tǒng)(即符號(hào)操作系統(tǒng))假設(shè)和有限合理性原理 用數(shù)理邏輯描述智能行為, 在計(jì)算機(jī)上實(shí)現(xiàn)了邏輯演繹系統(tǒng)。 ...

    CodeSheep 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<