亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

在mint下導(dǎo)入csv數(shù)據(jù)到mongodb中,轉(zhuǎn)換utf8編碼

remcarpediem / 3036人閱讀

摘要:先將里面的表格預(yù)處理清理下復(fù)雜格式把第一行置為英文字段名將導(dǎo)出為格式這時(shí)在中導(dǎo)入會(huì)提示是因?yàn)闀?huì)使用系統(tǒng)編碼到處的文件編碼在中使用系統(tǒng)自帶的轉(zhuǎn)換該文件為格式具體參數(shù)可以參考這樣轉(zhuǎn)換好的文件就是使用導(dǎo)入安裝即自帶導(dǎo)入工具

先將excel里面的表格預(yù)處理,清理下復(fù)雜格式,把第一行置為英文字段名
將xls導(dǎo)出為csv格式: points.csv
這時(shí)在mongoimport中導(dǎo)入會(huì)提示:
exception:Invalid UTF8 character detected

是因?yàn)閑xcel會(huì)使用系統(tǒng)編碼到處GBK的文件編碼.
在linux-mint中,使用系統(tǒng)自帶的iconv轉(zhuǎn)換該文件為utf8格式

iconv -f gbk -t UTF-8 points.csv > points_utf8.csv

具體參數(shù)可以參考:
iconv --help

這樣轉(zhuǎn)換好的文件就是points_utf8.csv
使用mongoimport導(dǎo)入(安裝mongodb即自帶導(dǎo)入工具)
mongoimport -d test -c students --type csv --file ./points_utf8.csv --headerline --upsert

同樣 具體參數(shù)解釋可以參見 mongoimport -h
points里面的內(nèi)容就會(huì)被轉(zhuǎn)換到mongodb:test db的students集合中.
每一行作為一個(gè)object有一個(gè)唯一的id,之前在表格中定義的headerline為key的document插入.

{ "_id" : ObjectId("553edfdac4e551239d3c975b"), "name" : "張三", "teamName" : "某某班", "ss1" : 12, "ss2" : "", "ss3" : 37, "ss4" : 45, "ss5" : "", "ss6" : "", "ss7" : 18, "ss8" : 24, "ss9" : 17, "ss10" : 11, "ss11" : 9, "ss12" : 15, "ss13" : 10, "ss14" : 13, "ss15" : 24, "ss16" : 26, "po1" : 21, "po2" : 38, "fn1" : "", "fn2" : 25, "fn3" : 23 }

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/18759.html

相關(guān)文章

  • 80行代碼爬取豆瓣Top250電影信息并導(dǎo)出csv數(shù)據(jù)庫(kù)

    摘要:查看源碼下載頁(yè)面并處理提取數(shù)據(jù)觀察該網(wǎng)站結(jié)構(gòu)可知該頁(yè)面下所有電影包含在標(biāo)簽下。使用語(yǔ)句獲取該標(biāo)簽在標(biāo)簽中遍歷每個(gè)標(biāo)簽獲取單個(gè)電影的信息。以電影名字為例清洗數(shù)據(jù)其余部分詳見源碼頁(yè)面跳轉(zhuǎn)檢查后頁(yè)標(biāo)簽。 查看源碼 1 下載頁(yè)面并處理 DOWNLOAD_URL = http://movie.douban.com/top250/ html = requests.get(url).text tr...

    galaxy_robot 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<