摘要:意大利商會(huì)通過遍布全國(guó)的多個(gè)分支機(jī)構(gòu)來服務(wù)和促進(jìn)意大利企業(yè)的公共機(jī)構(gòu)信息交流。這項(xiàng)工作是基于意大利企業(yè)注冊(cè)摘要獲得的數(shù)據(jù)集,并包含有關(guān)企業(yè)參股的數(shù)據(jù)。
實(shí)驗(yàn)概述摘要:
InfoCamere是附屬于意大利商會(huì)的IT公司,主要設(shè)計(jì)和開發(fā)最新和創(chuàng)新的IT解決方案和服務(wù),它通過一個(gè)公眾也可以訪問的網(wǎng)絡(luò)連接商會(huì)及其數(shù)據(jù)庫。借助InfoCamere,意大利和國(guó)外的企業(yè),公共機(jī)構(gòu),行業(yè)協(xié)會(huì),專業(yè)團(tuán)體和簡(jiǎn)單的公民可以輕松獲取在意大利注冊(cè)和運(yùn)營(yíng)的所有業(yè)務(wù)的最新官方信息和經(jīng)濟(jì)數(shù)據(jù)。
意大利商會(huì)通過遍布全國(guó)的300多個(gè)分支機(jī)構(gòu)來服務(wù)和促進(jìn)意大利企業(yè)的公共機(jī)構(gòu)信息交流。InfoCamere
是商會(huì)的服務(wù)系統(tǒng),幫助他們實(shí)現(xiàn)商業(yè)利益。在實(shí)施意大利數(shù)字化議程方面發(fā)揮了關(guān)鍵作用,涉及到國(guó)家生產(chǎn)系統(tǒng)的數(shù)字化轉(zhuǎn)型過程,特別是支持中小企業(yè)的數(shù)字化。
實(shí)驗(yàn)案例由 Luca Sinico (InfoCamere 軟件開發(fā)人員) 負(fù)責(zé)編寫。
InfoCamere 于二零一六年下半年展開圖形數(shù)據(jù)庫領(lǐng)域的檢驗(yàn)工作,工作的目的是對(duì)該技術(shù)的主要特性進(jìn)行調(diào)查; 在概念和性能方面比較市場(chǎng)上的一些可用產(chǎn)品以及關(guān)系解決方案;并檢查一些InfoCamere應(yīng)用程序的圖形數(shù)據(jù)庫的采用可能性。這項(xiàng)工作是基于意大利企業(yè)注冊(cè)摘要獲得的數(shù)據(jù)集,并包含有關(guān)企業(yè)參股的數(shù)據(jù)。圖的節(jié)點(diǎn)可以是自然人或公司,并且收集關(guān)于面額,公司的股本,注冊(cè)國(guó)家,唯一的財(cái)政標(biāo)識(shí)符等的數(shù)據(jù)。圖的邊緣代表其中的股權(quán)參與。
在我們的工作中,我們檢查了兩種主要類型的圖形數(shù)據(jù)模型,即“屬性圖”和“RDF”。盡管RDF(W3C標(biāo)準(zhǔn))代表了實(shí)現(xiàn)鏈接數(shù)據(jù)和語義Web的有效方法,盡管它以圖形的形式組織數(shù)據(jù),但是我們發(fā)現(xiàn)屬性圖模型(一種“行業(yè)標(biāo)準(zhǔn)”)能更好地滿足我們的要求。實(shí)際上,它允許在邊上定義屬性。而RDF不允許直接使用它。另外,針對(duì)RDF(SPARQL)提出的標(biāo)準(zhǔn)查詢語言對(duì)于通常由支持“屬性圖”模型的DBMS提供的查詢語言顯示出一些限制。兩個(gè)簡(jiǎn)單的例子是缺少最短路徑計(jì)算函數(shù),并且可能為可變長(zhǎng)度路徑搜索表示最大深度級(jí)別。
數(shù)據(jù)進(jìn)入圖形數(shù)據(jù)庫的流程如圖2所示。從存儲(chǔ)意大利商業(yè)注冊(cè)的復(fù)雜關(guān)系數(shù)據(jù)庫開始,通過用戶需求或更新操作不斷產(chǎn)生一些標(biāo)題搜索。標(biāo)題搜索保存通過組合不同表中的不同記錄獲得的匯總數(shù)據(jù),這對(duì)于某些應(yīng)用是有用的。正因?yàn)槿绱?,這些數(shù)據(jù)放在關(guān)系數(shù)據(jù)庫上以支持其操作。由于這個(gè)第二關(guān)系數(shù)據(jù)庫主要集中在與公司參股相關(guān)的方面,圖形數(shù)據(jù)庫從中獲取數(shù)據(jù)。
查詢我們開發(fā)的查詢可以被這些數(shù)據(jù)集上的應(yīng)用程序所使用,也可以稍微強(qiáng)調(diào)數(shù)據(jù)庫管理系統(tǒng)的能力。特別是我們開發(fā)了一些標(biāo)準(zhǔn)查詢和一些更具體的查詢。
鑒于一個(gè)特定的公司,由其“財(cái)政ID”確定,我們要求其員工;它的參與;或兩者同時(shí);從而通過將搜索限制到僅一個(gè)深度級(jí)別。但是,我們也要求直接和間接參與一家公司(同樣也是為了同事)。這對(duì)應(yīng)于沒有深度限制的圖的探索。此外,由于數(shù)據(jù)集構(gòu)成一個(gè)圖(而不是“簡(jiǎn)單”樹),兩家公司之間的路徑可能是多個(gè)。這使我們要求提供連接兩家公司的完整的直接路徑列表;或者,也可以是最短的一個(gè)。我們還要求兩家公司的共同參與(或同事)。數(shù)據(jù)集的圖形性質(zhì)也導(dǎo)致了另外兩個(gè)查詢的制定:第一個(gè)返回與檢索到的參與節(jié)點(diǎn)一起, 并且檢索到的深度值降低; 第二個(gè)查詢計(jì)算每個(gè)深度級(jí)別的與給定節(jié)點(diǎn)的關(guān)聯(lián)公司,但是避免對(duì)它們進(jìn)行多次計(jì)數(shù)。
查詢的開發(fā)有助于調(diào)查目的和更好的數(shù)據(jù)探索體驗(yàn)。
我們將數(shù)據(jù)集導(dǎo)入了三個(gè)最知名的圖形數(shù)據(jù)庫,分別是ArangoDB v3.0.10; Neo4j v3.0.6;和OrientDB v2.2.11(均為社區(qū)版)。我們還將數(shù)據(jù)集導(dǎo)入了一個(gè)眾所周知的關(guān)系數(shù)據(jù)庫:PostgreSQL v9.6.1。關(guān)系型數(shù)據(jù)庫的選擇沒有強(qiáng)烈的約束,因?yàn)樾阅苤饕躍QL語言性能的影響。這些產(chǎn)品已經(jīng)安裝在虛擬服務(wù)器上,資源適中,因此對(duì)于其他類似硬件可用性的公司來說,結(jié)果也是有用的。對(duì)于每一種查詢,我們選擇了三個(gè)代表三種不同負(fù)載的DBMS的三個(gè)節(jié)點(diǎn)。特別是:一個(gè)節(jié)點(diǎn)表示一個(gè)輕量級(jí)的案例,可能較少的返回的結(jié)果,或者較短的勘探深度值; 一個(gè)節(jié)點(diǎn)代表中間的案例; 還有一個(gè)重量級(jí)的案例。我們不止一次地執(zhí)行了這些查詢,所以我們也研究了延遲加載的緩存之間的性能差異。
由于目前還沒有圖形數(shù)據(jù)庫的標(biāo)準(zhǔn)查詢語言,因此每個(gè)圖形DBMS都提供自己的查詢語言。這促使我們?cè)u(píng)估各種查詢語言的表達(dá)性和易用性。
結(jié)果我們收集的結(jié)果概括如下:
圖表數(shù)據(jù)庫提供了一些特意設(shè)計(jì)的查詢語言,這些語言大大有助于描述圖遍歷查詢,也有助于應(yīng)對(duì)該領(lǐng)域的一些典型計(jì)算問題。使用SQL或借助存儲(chǔ)過程,相同的查詢很難以高效的方式實(shí)現(xiàn)。
雖然關(guān)系數(shù)據(jù)庫對(duì)較簡(jiǎn)單的查詢執(zhí)行得很好,但對(duì)于圖挖掘查詢的重量級(jí)案例(即那些有大量待分析節(jié)點(diǎn)的數(shù)據(jù),并需要遍歷的高水平的值),分析顯示三個(gè)圖數(shù)據(jù)庫的性能通常要比關(guān)系型數(shù)據(jù)庫高出一個(gè)或兩個(gè)數(shù)量級(jí)。
ArangoDB顯示了良好的導(dǎo)入和查詢性能,尤其適用于輕量級(jí)和中等工作負(fù)載的情況。
關(guān)于ArangoDB 測(cè)試版本的關(guān)注點(diǎn)之一就是內(nèi)存占用 RAM
greedy。然而,ArangoDB聲稱已經(jīng)用他們新的3.2版本和新的RocksDB存儲(chǔ)引擎解決了這個(gè)“問題”。
由于在研究工作中得到了良好的反饋,在導(dǎo)入和執(zhí)行時(shí)間方面表現(xiàn)良好,文檔良好,易于使用和商業(yè)價(jià)格合理,ArangoDB 在InfoCamere 的一些應(yīng)用程序中表現(xiàn)出了很好的潛力。最終,我們決定在我們正在開發(fā)的演示應(yīng)用程序中使用ArangoDB。
關(guān)于比較實(shí)驗(yàn)的一些額外細(xì)節(jié)可以在這里找到。
英文原文
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/27123.html
摘要:本報(bào)告面向的讀者是想要進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)生和正在尋找新框架的專家。其輸入需要重塑為包含個(gè)元素的一維向量以滿足神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)目前代表著用于圖像分類任務(wù)的較先進(jìn)算法,并構(gòu)成了深度學(xué)習(xí)中的主要架構(gòu)。 初學(xué)者在學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的時(shí)候往往會(huì)有不知道從何處入手的困難,甚至可能不知道選擇什么工具入手才合適。近日,來自意大利的四位研究者發(fā)布了一篇題為《神經(jīng)網(wǎng)絡(luò)初學(xué)者:在 MATLAB、Torch 和 ...
摘要:于年在意大利北部帕維亞的監(jiān)獄中死亡。的死亡促使了現(xiàn)代犯罪學(xué)的誕生。寫道,犯罪分子生下來就是罪犯。最近的一個(gè)例子便是,上海交通大學(xué)和在年月傳到上的論文使用臉部圖像自動(dòng)推斷罪犯。 任何關(guān)心如何確保 AI 技術(shù)朝著有利于人類發(fā)展的人都是本文的讀者1844 年,意大利南部一個(gè)小城鎮(zhèn)舉辦了一場(chǎng)審判會(huì),一個(gè)名叫 Giuseppe Villella 的勞工因涉嫌竊取了5 個(gè)里考塔(注釋:意大利奶制品,類似...
摘要:于月日至日在意大利比薩舉行,主會(huì)于日開始。自然語言理解領(lǐng)域的較高級(jí)科學(xué)家受邀在發(fā)表主旨演講。深度學(xué)習(xí)的方法在這兩方面都能起到作用。下一個(gè)突破,將是信息檢索。深度學(xué)習(xí)在崛起,在衰退的主席在卸任的告別信中這樣寫到我們的大會(huì)正在衰退。 SIGIR全稱ACM SIGIR ,是國(guó)際計(jì)算機(jī)協(xié)會(huì)信息檢索大會(huì)的縮寫,這是一個(gè)展示信息檢索領(lǐng)域中各種新技術(shù)和新成果的重要國(guó)際論壇。SIGIR 2016于 7月17...
閱讀 3903·2023-04-25 18:41
閱讀 1315·2021-11-11 16:55
閱讀 1936·2021-09-22 15:54
閱讀 3193·2021-09-22 15:51
閱讀 3636·2019-08-30 15:55
閱讀 2028·2019-08-30 14:19
閱讀 1416·2019-08-29 10:57
閱讀 1790·2019-08-29 10:56