亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

三年前,我差點(diǎn)成了爬蟲大師

Codeing_ls / 3487人閱讀

摘要:期間,我從爬蟲入手,一路摸爬滾打,實(shí)現(xiàn)了千萬級(jí)微博評(píng)論自動(dòng)抓取,在即將成為爬蟲專家前,受師兄指點(diǎn)轉(zhuǎn)向算法。確定研究方向經(jīng)過前面的理論學(xué)習(xí),你應(yīng)該發(fā)現(xiàn)深度學(xué)習(xí)領(lǐng)域有很多細(xì)分方向,例如語音自然語言處理視覺強(qiáng)化學(xué)習(xí)純深度學(xué)習(xí)理論。

最近很多剛?cè)雽W(xué)的學(xué)弟學(xué)妹給我們留言,聽說算法崗現(xiàn)在競爭很激烈,還能轉(zhuǎn)機(jī)器學(xué)習(xí)嗎?實(shí)習(xí)對(duì)于找工作重要嗎?

看完他們的疑問,三年前的經(jīng)歷在我眼前歷歷在目。

研一修完畢業(yè)學(xué)分后,我去創(chuàng)業(yè)公司實(shí)習(xí)了一年。期間,我從爬蟲入手,一路摸爬滾打,實(shí)現(xiàn)了千萬級(jí)微博評(píng)論自動(dòng)抓取,在即將成為“爬蟲專家”前,受師兄指點(diǎn)轉(zhuǎn)向DL算法。

下面我以「就業(yè)」為導(dǎo)向,分享一條親身經(jīng)歷的學(xué)習(xí)路線。參考這個(gè)方法,在深度學(xué)習(xí)方向拿到offer進(jìn)大廠,不是啥難事兒。

一、研一:基礎(chǔ)理論學(xué)習(xí)

研一的主要工作是學(xué)理論,打基礎(chǔ)。

然鵝學(xué)校的課程基本屬于科普講座,很多內(nèi)容僅靠上課是遠(yuǎn)遠(yuǎn)不夠的。

這里我把第一年的學(xué)習(xí)任務(wù)細(xì)分了4個(gè)方向。

1)深度學(xué)習(xí)理論

基礎(chǔ)不牢,地動(dòng)山搖。沒有扎實(shí)的基本功,無論是做科研還是做項(xiàng)目,都很容易捉襟見肘。

那怎樣學(xué)習(xí)效率最高呢?

如果你覺得看大頭書很枯燥(比如《深度學(xué)習(xí)》花書),我推薦你直接看吳恩達(dá)和李宏毅老師的深度學(xué)習(xí)視頻課。

內(nèi)容既權(quán)威又有趣,看完會(huì)讓你覺得學(xué)習(xí)簡直是一天中最快樂的事!

這些網(wǎng)課都有配套的編程練習(xí),學(xué)一課做一課,養(yǎng)成好習(xí)慣,及時(shí)查漏不缺。

看完視頻,如果想檢測一下自己的學(xué)習(xí)效果,推薦你參考我在知乎的一篇回答,看看第一部分“理論基礎(chǔ)”問題,自己能輕松解答多少。

如果你是面試官,你怎么去判斷一個(gè)面試者的深度學(xué)習(xí)水平?[1]

例如了解前向傳播反向傳播,以及鏈?zhǔn)角髮?dǎo);給一個(gè)兩層的MLP和簡單的二維向量,能推導(dǎo)出 forward propagation,再用 chain rule 推導(dǎo)出 back propagation。

2)確定研究方向

經(jīng)過前面的理論學(xué)習(xí),你應(yīng)該發(fā)現(xiàn)深度學(xué)習(xí)領(lǐng)域有很多細(xì)分方向,例如語音、自然語言處理、視覺、強(qiáng)化學(xué)習(xí)、純深度學(xué)習(xí)理論。

所以第二步我們要明確自己的研究方向,并在之后兩年的學(xué)習(xí)中有所突破。

如果你喜歡語音交互,熟悉C++,可以選擇語音識(shí)別、語音合成等研究課題;

如果你喜歡研究文本和對(duì)話,熟悉Python和爬蟲,可以選擇自然語言處理方向;

如果你喜歡圖片與視頻,熟悉Python,對(duì)算法落地也很感興趣,可以選擇計(jì)算機(jī)視覺方向;

至于強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)理論研究等方向,如果不是自身基礎(chǔ)非常扎實(shí)或有優(yōu)秀的師兄師姐指導(dǎo),建議謹(jǐn)慎入坑。

這一步大家不要著急,既要了解不同方向,更要認(rèn)真了解自己,包括能力、性格、特質(zhì)。如果對(duì)自己研究領(lǐng)域沒有熱愛和興趣,到了中后期會(huì)非常痛苦,即便再換方向,沉沒成本也會(huì)很高。

好比讓你挑一道菜吃十年,什么才會(huì)是你的首選呢?

3)閱讀經(jīng)典論文

選好方向之后,下一步的重點(diǎn)是閱讀該領(lǐng)域的經(jīng)典論文,包括傳統(tǒng)方法,以及近期熱點(diǎn)。

如果你和我一樣主攻自然語言處理方向,那應(yīng)該對(duì)最早期的神經(jīng)網(wǎng)絡(luò)語言模型(2003)、靜態(tài)詞向量word2vec(2013)、動(dòng)態(tài)詞向量ELMO(2018)、預(yù)訓(xùn)練語言模型BERT、RoBerta、GPT(2018-2020),以及近期流行的prompt訓(xùn)練(2021)都有清晰的認(rèn)識(shí),明白哪些場景適用哪種方法。

然后再往下細(xì)分,選擇子領(lǐng)域內(nèi)的論文閱讀。

如果研究對(duì)話系統(tǒng),對(duì)于常規(guī)的分類、匹配算法應(yīng)該非常熟悉,同時(shí)了解基于神經(jīng)網(wǎng)絡(luò)的DST算法,不同召回策略等等。

還不知道怎么搜論文的同學(xué),這里教你兩種萬能搜索方法。

1. 正向檢索

在谷歌學(xué)術(shù)、arxiv、ACL Anthology輸入英文關(guān)鍵詞,檢索相應(yīng)主題的paper,注意查看發(fā)表年份和引用數(shù)量。

或者直接查找近年的survey文章,在綜述中查看主要的研究分支和related work。

2.反向檢索

在谷歌學(xué)術(shù)的搜索結(jié)果頁面,點(diǎn)擊某一篇論文的“被引用次數(shù)”,跳轉(zhuǎn)進(jìn)入引用了該論文的所有paper。

底層邏輯是引用了A論文的其他論文,基本都和A論文所屬的研究領(lǐng)域一致。

這兩種檢索方法,可以大幅提高查找文獻(xiàn)的效率。

4)強(qiáng)化一門主流編程語言

通過以上3步,我們已經(jīng)具有了相對(duì)系統(tǒng)的理論基礎(chǔ)。然而“巧婦難為無米之炊”,有idea卻無法通過編程實(shí)現(xiàn),還是白搭。

所以接下來,我們要給軍火庫增添幾樣重型武器,包括一門主流編程語言(深度學(xué)習(xí)一般用Python),深度學(xué)習(xí)框架(推薦Pytorch),服務(wù)器調(diào)用(Linux指令),IDE使用(Pycharm或Vscode+jupyter?lab)等。

有了這些工具,開發(fā)深度學(xué)習(xí)項(xiàng)目會(huì)方便很多。

而且從目前大家都在卷的情況看,coding已是基本功,是技術(shù)崗?fù)ㄟ^面試的底線。

一邊學(xué)習(xí),一邊每天在leetcode上刷1~2道算法題,校招找工作會(huì)事半功倍。

進(jìn)入研二,大家可選的路更多了。有的同學(xué)繼續(xù)在實(shí)驗(yàn)室從事科研,以做實(shí)驗(yàn)發(fā)paper為目標(biāo),有的同學(xué)已經(jīng)走出校園開始提前實(shí)習(xí)。

這兩種選擇沒有好壞,關(guān)鍵要適合自己。最怕每天窩在宿舍吃外賣打游戲,畢業(yè)只多了張文憑。

二、科研與學(xué)術(shù)

有些同學(xué)是主動(dòng)從事科研的,例如我身邊就有本科發(fā)表頂會(huì),碩士畢業(yè)已手握6-7篇CCF-A一作的巨佬。

也有導(dǎo)師不放實(shí)習(xí),“被迫”滯留實(shí)驗(yàn)室的同學(xué)。研二時(shí)的我就屬于這一類,雖然拿到了大廠實(shí)習(xí)offer,又被勸退重回學(xué)校搞科研。

總的來說,做科研四分靠實(shí)力,三分靠努力,還有三分天注定。

實(shí)力首先指理論扎實(shí),具有敏銳的學(xué)術(shù)嗅覺,懂得挖掘idea;英語閱讀、寫作過關(guān),用詞地道,知道怎樣寫paper容易中稿;同時(shí)編程強(qiáng)悍,能快速迭代實(shí)驗(yàn),驗(yàn)證結(jié)果。

有同學(xué)可能某方面薄弱些,可以通過大三大四以及研一研二的努力來彌補(bǔ)。

即便手握七成概率,paper能否中稿還和評(píng)審人的口味等“隨機(jī)因素”相關(guān),有一定運(yùn)氣成分。

所以做科研挺有風(fēng)險(xiǎn)的,如果忙活了2-3年沒中論文,碩士生涯幾乎等于nothing。

之前聽一位985師兄說,他們實(shí)驗(yàn)室有50多個(gè)深度學(xué)習(xí)方向的博士,每當(dāng)夜深人靜之際,經(jīng)常能聽到博士宿舍樓傳來哭聲(科研壓力太大,沒有達(dá)標(biāo)數(shù)量的paper畢不了業(yè))。

甚至還有博士生在實(shí)驗(yàn)室做實(shí)驗(yàn),做著做著就哭了。

三、項(xiàng)目與實(shí)習(xí)

相比之下,在互聯(lián)網(wǎng)公司找到一份實(shí)習(xí)要容易很多。

雖然內(nèi)卷天天有,但只要研一沒摸魚,研二進(jìn)一家第一第二梯隊(duì)的大廠一般問題不大。再不濟(jì),也能去偏頭部的創(chuàng)業(yè)公司。

在公司實(shí)習(xí),主要是積累項(xiàng)目經(jīng)驗(yàn),把之前學(xué)習(xí)的理論落到實(shí)處。同時(shí)提前了解公司的管理流程、開發(fā)部署環(huán)境等等。

實(shí)習(xí)經(jīng)歷將會(huì)是簡歷的一大亮點(diǎn),越來越多大廠開始更加重視實(shí)習(xí)。一段充沛的實(shí)習(xí)經(jīng)歷(3個(gè)月以上)絲毫不遜色于發(fā)表一篇頂會(huì)論文。

這是我導(dǎo)師部分碩士的畢業(yè)去向,有很多學(xué)術(shù)大佬,他們也會(huì)提前去公司實(shí)習(xí)。有的順利轉(zhuǎn)正,有的跳槽拿了更好的offer。

如上,走大廠實(shí)習(xí)轉(zhuǎn)正是拿到校招offer的很好選擇。部分大廠(如阿里)很多hc很早就預(yù)定給實(shí)習(xí)生轉(zhuǎn)正了,走常規(guī)秋招難度要大很多。

如果想實(shí)習(xí)導(dǎo)師卻不放人,建議提早和導(dǎo)師溝通協(xié)調(diào)。如果只能留在實(shí)驗(yàn)室,趕緊看看有沒有靠譜的項(xiàng)目,能提供指導(dǎo)的師兄師姐。

如果導(dǎo)師放養(yǎng),又不讓實(shí)習(xí),還不給機(jī)器,那兄弟你只能自求多福了!

四、總結(jié)

研究生2-3年的時(shí)間非常短,如果熱愛學(xué)術(shù),想要對(duì)整個(gè)研究領(lǐng)域產(chǎn)生個(gè)人影響,建議先出門右拐讀個(gè)博。

另外,深度學(xué)習(xí)也沒有想象中的那么高大上。大部分業(yè)務(wù)導(dǎo)向的算法崗,很多時(shí)候在和數(shù)據(jù)分析打交道、跟各個(gè)部門對(duì)齊需求,真正讓你訓(xùn)模型跑實(shí)驗(yàn)的比例其實(shí)很低。

在工業(yè)界,模型是否新穎不是最重要的,通過A/B測試,驗(yàn)證算法能給公司真正帶來經(jīng)濟(jì)效益才是關(guān)鍵。

為什么還有那么多同學(xué)反饋算法面試好難呢?

因?yàn)樯嘀嗌?,除了?jì)算機(jī),還有各個(gè)專業(yè)的同學(xué)一起往里卷,門檻自然水漲船高。因而有了“面試造火箭”的說法,公司也正好通過面試刷掉一批想渾水摸魚的人。

從這個(gè)角度看,提早選擇開發(fā)崗也是一種不錯(cuò)的折中。開發(fā)崗需求大,和算法的薪資差距也越來越小。

不管選擇什么,認(rèn)真了解自己,適合自己的才是最好的。

千淘萬漉雖辛苦,吹盡狂沙始到金。

無論什么崗位,成長、薪水、福利都是和付出成正比的。只有自己努力,才能在研究生階段學(xué)有所成,收獲滿意的offer!

- END -

覺得還不錯(cuò)就給我一個(gè)小小的鼓勵(lì)吧!

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/119992.html

相關(guān)文章

  • selenium 自動(dòng)化爬蟲 5分鐘爬取新浪李敖大師1751條微博.

    摘要:是一個(gè)瀏覽器自動(dòng)化測試框架可以模擬用戶的所有操作很久以前就想把李敖大師的所有微博爬取下來一直沒空前天看見群里有人推薦和就學(xué)了做了個(gè)你們想爬別人的只要把李敖大師的地址換成你要的就行了我還沒學(xué)不過我猜他就是去掉功能的瀏覽器這樣可以讓爬蟲更快如果 selenium 是一個(gè)瀏覽器自動(dòng)化測試框架.可以模擬用戶的所有操作. 很久以前就想把李敖大師的所有微博爬取下來.一直沒空,前天看見群里有人推薦s...

    zhichangterry 評(píng)論0 收藏0
  • Evil Python

    摘要:用將倒放這次讓我們一個(gè)用做一個(gè)小工具將動(dòng)態(tài)圖片倒序播放發(fā)現(xiàn)引力波的機(jī)構(gòu)使用的包美國科學(xué)家日宣布,他們?nèi)ツ暝率状翁綔y到引力波。宣布這一發(fā)現(xiàn)的,是激光干涉引力波天文臺(tái)的負(fù)責(zé)人。這個(gè)機(jī)構(gòu)誕生于上世紀(jì)年代,進(jìn)行引力波觀測已經(jīng)有近年。 那些年我們寫過的爬蟲 從寫 nodejs 的第一個(gè)爬蟲開始陸陸續(xù)續(xù)寫了好幾個(gè)爬蟲,從爬拉勾網(wǎng)上的職位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬蟲...

    Turbo 評(píng)論0 收藏0
  • Python貓薦書系列:文也深度學(xué)習(xí),理也深度學(xué)習(xí)

    摘要:本期貓薦書欄目系列之六,就以此為話題,推薦給大家兩本書它們都叫深度學(xué)習(xí),但是內(nèi)容很不一樣。事實(shí)上,第一本書被很多人譽(yù)為深度學(xué)習(xí)的圣經(jīng),知名度極高,有一個(gè)昵稱叫作花書。 最近出了兩件大新聞,相信大家可能有所耳聞。 我來當(dāng)個(gè)播報(bào)員,給大家轉(zhuǎn)述一下: 1、中國隊(duì)在第 11 界羅馬尼亞數(shù)學(xué)大師賽(RMM)中無緣金牌。該項(xiàng)賽事是三大國際賽事之一,被譽(yù)為中學(xué)奧數(shù)的最高難度。其中一道題,令中國隊(duì)全軍...

    LuDongWei 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<