摘要:通過海拔坡度到水源的距離地塊位置等特征項(xiàng),對(duì)地塊植被的類型進(jìn)行預(yù)測個(gè)類型。競賽結(jié)果提交請(qǐng)選手利用建立的模型對(duì)每階段提供的預(yù)測數(shù)據(jù)集中的地塊植被類型列進(jìn)行預(yù)測類,預(yù)測結(jié)果按如下格式保存成格式提交。
參加佛山互聯(lián)網(wǎng)協(xié)會(huì)建模大賽,主題為植被類型預(yù)測,數(shù)據(jù)量分3個(gè)階段,10/15/15萬左右的放出,暨大教授在里面加了噪音,但我EDA沒做得很好;因此只拿到26名;
訓(xùn)練環(huán)境:WIN7,16G內(nèi)存,Rstudio,xgboost,CV交叉驗(yàn)證;耗時(shí)比較久,因?yàn)橛胒or語句;
最高成績加權(quán)F1值只有0.69,Kaggle實(shí)測成績0.72;
腳本和訓(xùn)練過程見下面notebook;
鏈接描述
去聽前11名理論賽演講,其實(shí)大家用的都差不多,還有人會(huì)用并行結(jié)構(gòu);用spss做更多eda;
大賽規(guī)則:
“數(shù)創(chuàng)嶺南”職工技能賽賽題介紹與數(shù)據(jù)下載下載數(shù)據(jù)
1
賽題介紹
隨著計(jì)算能力、存儲(chǔ)空間、網(wǎng)絡(luò)的高速發(fā)展,人類所積累的數(shù)據(jù)量正在快速增長,而對(duì)特定數(shù)據(jù)的分類算法就顯得尤為重要。分類是一項(xiàng)非常有應(yīng)用價(jià)值的技術(shù)之一,它的應(yīng)用遍及了社會(huì)中的各個(gè)領(lǐng)域,尤其是對(duì)多標(biāo)簽分類問題的解決方法,是機(jī)器學(xué)習(xí)中一個(gè)重要的研究領(lǐng)域。
2
數(shù)據(jù)集描述
本次大賽提供數(shù)據(jù)集反映的是不同地塊的植被類型情況。通過海拔、坡度、到水源的距離、地塊位置等特征項(xiàng),對(duì)地塊植被的類型進(jìn)行預(yù)測(7個(gè)類型)。數(shù)據(jù)集中共有 13個(gè)特征,由 55 列數(shù)據(jù)組成。
如下圖所示:
字段名稱 數(shù)據(jù)類型 量度單位 描述
Elevation 定量數(shù)據(jù) 米 海拔高度
Aspect 定量數(shù)據(jù) 度 方位角
Slope 定量數(shù)據(jù) 度 坡度
Horizontal_Distance_To_Hydrology 定量數(shù)據(jù) 米 與最近水文特征的水平距離
Vertical_Distance_To_Hydrology 定量數(shù)據(jù) 米 與最近水文特征的垂直距離
Horizontal_Distance_To_Roadways 定量數(shù)據(jù) 米 與最近道路的水平距離
Ground position 定性數(shù)據(jù) a-l 地塊位置
Hillshade_9am 定量數(shù)據(jù) 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量數(shù)據(jù) 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量數(shù)據(jù) 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量數(shù)據(jù) 米 與最近燃火點(diǎn)的距離
Wilderness_Area (4個(gè)二元列) 定性數(shù)據(jù) 0或1(缺失/存在) 荒野地區(qū)等級(jí)
Soil_Type (40個(gè)二元列) 定性數(shù)據(jù) 0或1(缺失/存在) 土壤類型等級(jí)
Cover_Type (7種) 整數(shù) 0至7 地表覆蓋類型
3
數(shù)據(jù)集提供方式
這是一個(gè)模擬真實(shí)情況的過程,數(shù)據(jù)是分階段提供的,并且包含約1‰~2‰的噪聲值。每個(gè)階段,會(huì)提供不等數(shù)量的訓(xùn)練和預(yù)測數(shù)據(jù)集,選手通過訓(xùn)練數(shù)據(jù)進(jìn)行建模、優(yōu)化算法,并在測試集進(jìn)行預(yù)測,每個(gè)階段的預(yù)測準(zhǔn)確率都將計(jì)入第一輪實(shí)操賽的總成績。
· 第一階段提供10萬條訓(xùn)練數(shù)據(jù),預(yù)測2萬條。時(shí)間:8月20日00:00—9月5日23:59;
· 第二階段提供12~15萬條訓(xùn)練數(shù)據(jù),預(yù)測3萬條。時(shí)間:9月6日00:00—9月21日23:59;
· 第三階段提供12~15萬條訓(xùn)練數(shù)據(jù),預(yù)測3萬條。時(shí)間:9月22日00:00—10月8日23:59。
建議選手在考慮準(zhǔn)確率的同時(shí),需要考慮計(jì)算效率(運(yùn)算時(shí)間),計(jì)算效率將作為第三輪答辯賽的其中一個(gè)評(píng)分指標(biāo)。最終總決賽評(píng)委會(huì)根據(jù)實(shí)操賽、理論賽成績以及現(xiàn)場答辯的表現(xiàn)對(duì)選手進(jìn)行綜合評(píng)分。
4
評(píng)分標(biāo)準(zhǔn)
大賽平臺(tái)將自動(dòng)計(jì)算每一個(gè)階段測試數(shù)據(jù)集中預(yù)測分類的準(zhǔn)確率。 本次采用宏平均值(Macro-averaging)作為各階段的評(píng)價(jià)指標(biāo)。 宏平均(Macro-averaging),是先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值(F1-Score),然后再對(duì)所有類求加權(quán)(Qi=各類型樣本量占比)平均值。 在第一輪實(shí)操賽的三個(gè)階段,將依據(jù)參賽隊(duì)伍的預(yù)測準(zhǔn)確率(宏平均值)進(jìn)行排名,準(zhǔn)確率越高,則排名越靠前。參賽選手可以不斷優(yōu)化模型,通過平臺(tái)提交結(jié)果,每天最多提交3次。
· 第一輪實(shí)操賽最終總得分規(guī)則如下:
實(shí)操賽總排名按照如下公式計(jì)算:
(第一階段預(yù)測準(zhǔn)確率30%+第二階段預(yù)測準(zhǔn)確率35%+第三階段預(yù)測準(zhǔn)確率*35%)
實(shí)操賽標(biāo)準(zhǔn)分 = 100-(100*P1-50)/N1,P1為選手在實(shí)操賽的綜合排名,N1為參加實(shí)操賽的選手人數(shù)。
5
競賽結(jié)果提交
請(qǐng)選手利用建立的模型對(duì)每階段提供的預(yù)測數(shù)據(jù)集中的地塊植被類型(BD列)
進(jìn)行預(yù)測(7類),預(yù)測結(jié)果按如下格式保存成CSV格式提交。
預(yù)測結(jié)果(1/2/3/4/5/6/7)
預(yù)測結(jié)果(1/2/3/4/5/6/7)
預(yù)測結(jié)果(1/2/3/4/5/6/7)
......
預(yù)測結(jié)果(1/2/3/4/5/6/7)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/44966.html
摘要:最近項(xiàng)目用到谷歌地圖,但是看谷歌文檔,對(duì)于國人來說,還是比較吃力的,網(wǎng)上找資料也并沒有太多的資料,所以就想分享給大家。顯示了整個(gè)地球地圖的完全縮放。 最近項(xiàng)目用到谷歌地圖,但是看谷歌api文檔,對(duì)于國人來說,還是比較吃力的,網(wǎng)上找資料也并沒有太多的資料,所以就想分享給大家。但是因?yàn)楸救颂珣辛?,每次研究技術(shù)完事時(shí)間一久就忘了,更別提分享了,在朋友的鼓勵(lì)支持之下,重新開始寫博客,共享給大家...
摘要:我要給家里開發(fā)一個(gè)自動(dòng)化的物聯(lián)網(wǎng)灌溉系統(tǒng)。大致思路有兩個(gè)一是自動(dòng)控制,二是物聯(lián)網(wǎng),人可以輕松查看以及控制我們可以從我后續(xù)的手機(jī)上管窺一下具體的功能。持續(xù)更新,未完待續(xù)。 ...
摘要:中主要關(guān)注的就是,對(duì)象的主要功能就是處理網(wǎng)頁內(nèi)容。中文翻譯模型,如果你把這個(gè)詞從中抽離出來,看下面的圖片是不是就很好理解。年月制定的標(biāo)準(zhǔn),由兩大部分組成核心和。擴(kuò)展鼠標(biāo)和用戶界面事件范圍遍歷,增加了對(duì)支持。 往期回顧 在上一期的《JavaScript的組成 | 核心-ECMAScript 》?里,我們有說到JavaScript 是由三大部分組成,分別是:核心ECMAScript、文檔對(duì)...
閱讀 3742·2021-11-16 11:41
閱讀 2954·2021-09-23 11:45
閱讀 745·2019-08-30 15:44
閱讀 628·2019-08-30 13:10
閱讀 2006·2019-08-30 12:49
閱讀 3590·2019-08-28 17:51
閱讀 1558·2019-08-26 12:20
閱讀 761·2019-08-23 17:56