a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁(yè) > 科技論文 > 地質(zhì)論文 >

地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)與文本信息分析

發(fā)布時(shí)間:2020-11-13 02:29
   最近幾年大數(shù)據(jù)技術(shù)與計(jì)算機(jī)科學(xué)技術(shù)飛速發(fā)展,在地質(zhì)、生物、醫(yī)藥以及工業(yè)等眾多領(lǐng)域中都開(kāi)始對(duì)大數(shù)據(jù)技術(shù)進(jìn)行廣泛應(yīng)用,這種技術(shù)已經(jīng)成為人們最為熟知的技術(shù)類專業(yè)詞匯。大數(shù)據(jù)的出現(xiàn)讓人們重新認(rèn)識(shí)對(duì)科學(xué)研究方法的理論,從而產(chǎn)生了全新的思維模式。面對(duì)海量數(shù)據(jù),人們只需從這些數(shù)據(jù)中獲取有價(jià)值的信息,進(jìn)而轉(zhuǎn)換為知識(shí)。地質(zhì)大數(shù)據(jù)主要包括公共地質(zhì)數(shù)據(jù)和核心地質(zhì)數(shù)據(jù),公共地質(zhì)數(shù)據(jù)主要用于科學(xué)普及等方面,核心地質(zhì)資料含有大量保密數(shù)據(jù),不能對(duì)外公開(kāi),主要存儲(chǔ)在局域網(wǎng)中,結(jié)合大數(shù)據(jù)技術(shù)方法,充分挖掘公共數(shù)據(jù)的潛在價(jià)值,是地質(zhì)大數(shù)據(jù)應(yīng)用的一個(gè)重要方面。對(duì)地質(zhì)大數(shù)據(jù)的研究已經(jīng)成為我國(guó)的國(guó)家大數(shù)據(jù)戰(zhàn)略其中一個(gè)重要內(nèi)容。在大數(shù)據(jù)的新興時(shí)代下,有效挖掘高價(jià)值的數(shù)據(jù)與信息,合理使用地質(zhì)大數(shù)據(jù),科學(xué)分析相關(guān)數(shù)據(jù)信息,具有十分重要的意義。在地質(zhì)科學(xué)領(lǐng)域大量數(shù)據(jù)中隱藏這非常重要的信息,通過(guò)采用大數(shù)據(jù)技術(shù)可以對(duì)數(shù)據(jù)中這些隱藏的重要信息進(jìn)行發(fā)掘,從而可以促進(jìn)整個(gè)學(xué)科的不斷發(fā)展與深入研究。大數(shù)據(jù)技術(shù)在近幾的發(fā)展中已經(jīng)在很多學(xué)科與領(lǐng)域中都得到了廣泛應(yīng)用,采用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析與挖掘具有重要意義,尤其是在醫(yī)療和教育領(lǐng)域,采用大數(shù)據(jù)技術(shù)進(jìn)行分析可以給人們的生活帶來(lái)更多便利。本文主要研究的是針對(duì)外文文本大數(shù)據(jù)應(yīng)用的相關(guān)需求,總結(jié)大數(shù)據(jù)相關(guān)基礎(chǔ)理論知識(shí),從大數(shù)據(jù)發(fā)現(xiàn)理論模式入手結(jié)合大數(shù)據(jù)關(guān)鍵技術(shù)和方法,提出文本大數(shù)據(jù)發(fā)現(xiàn)理論模型,對(duì)體系中部分環(huán)節(jié)提出合理的解決措施、技術(shù)手段與應(yīng)用。在數(shù)據(jù)發(fā)現(xiàn)模塊依托需求結(jié)構(gòu)樹(shù),從關(guān)鍵詞與網(wǎng)址兩個(gè)方面進(jìn)行專題信息提取,以保證數(shù)據(jù)的全面性與系統(tǒng)性,利用在線工具,設(shè)定符合需求的規(guī)則進(jìn)行網(wǎng)絡(luò)爬蟲(chóng),獲取海量數(shù)據(jù),并進(jìn)行粗略清洗以獲得有效的專題信息數(shù)據(jù);在數(shù)據(jù)分析模塊,利用python語(yǔ)言實(shí)現(xiàn)多篇文本文檔的多國(guó)語(yǔ)言互譯的翻譯功能,以減少人為工作量,加速翻譯速度。最后以探討地質(zhì)信息服務(wù)為實(shí)例應(yīng)用,應(yīng)用上述技術(shù)手段,結(jié)合文獻(xiàn)研讀、分析的傳統(tǒng)方式解決國(guó)外地質(zhì)信息服務(wù)產(chǎn)品相關(guān)數(shù)據(jù)的獲取與分析問(wèn)題,并進(jìn)行分析成果集成。
【學(xué)位單位】:中國(guó)地質(zhì)大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:P628
【部分圖文】:

地質(zhì),需求服務(wù),國(guó)籍,語(yǔ)種


法和技術(shù)條件有不同的需求,因此需要制定一個(gè)個(gè)性化的大數(shù)據(jù)分析與處理系統(tǒng)從而可以為社會(huì)公眾提供更好的需求服務(wù)。本文著力解決大數(shù)據(jù)文本數(shù)據(jù)的語(yǔ)種障礙,在公共域互聯(lián)網(wǎng)獲取不同語(yǔ)種的專題信息,便于不同國(guó)籍公眾間的數(shù)據(jù)共享服務(wù),因此本章通過(guò)對(duì)大數(shù)據(jù)概念與特點(diǎn),以及地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)的介紹,提出文本地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)的理論模型。2.1 大數(shù)據(jù)概念及特點(diǎn)李國(guó)杰等(2011)在進(jìn)行的相關(guān)研究中對(duì)大數(shù)據(jù)的定義是,在一定的時(shí)間范圍內(nèi)無(wú)法采用傳統(tǒng)的技術(shù)方法來(lái)對(duì)數(shù)據(jù)信息進(jìn)行感知和有效處理的一組數(shù)據(jù)集合。這也充分說(shuō)明了大數(shù)據(jù)是一個(gè)體量非常大的數(shù)據(jù)信息集合,在大數(shù)據(jù)中數(shù)據(jù)的種類是非常龐雜的,對(duì)這些海量的數(shù)據(jù)無(wú)法采用傳統(tǒng)的數(shù)據(jù)庫(kù)工具以及數(shù)據(jù)處理方法來(lái)進(jìn)行內(nèi)容的抓取與管理。自 2011 年以來(lái)不同的學(xué)者、機(jī)構(gòu)一直在總結(jié)這大數(shù)據(jù)的特點(diǎn),簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)具有 5V 的特點(diǎn),如圖 2-1 所示。

流程圖,發(fā)現(xiàn)模式,文本,流程圖


圖 2-2 文本大數(shù)據(jù)發(fā)現(xiàn)模式流程圖各環(huán)節(jié)之間環(huán)環(huán)相扣,詳細(xì)闡述如下:(1)數(shù)據(jù)發(fā)現(xiàn):主要是通過(guò)互聯(lián)網(wǎng)技術(shù)來(lái)對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行快速查詢檢索。在地質(zhì)大數(shù)據(jù)進(jìn)行研究過(guò)程中首要解決的問(wèn)題就是如何實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速尋找與發(fā)現(xiàn),通過(guò)設(shè)計(jì)數(shù)據(jù)發(fā)現(xiàn)模塊可以優(yōu)化了傳統(tǒng)的使用搜索引擎進(jìn)行數(shù)據(jù)查詢以及數(shù)據(jù)獲取的方式。該模塊描述了互聯(lián)網(wǎng)地質(zhì)數(shù)據(jù)獲取原理,依托需求結(jié)構(gòu)樹(shù),構(gòu)建關(guān)鍵詞結(jié)構(gòu)樹(shù)與網(wǎng)址結(jié)構(gòu)樹(shù),在此基礎(chǔ)上雙向檢索數(shù)據(jù),并利用大數(shù)據(jù)采集技術(shù)的方法獲取與提取數(shù)據(jù),提出了其中存在的相關(guān)問(wèn)題,最終生成專題信息數(shù)據(jù),為數(shù)據(jù)清洗與數(shù)據(jù)分析工作奠定了基礎(chǔ)。(2)數(shù)據(jù)清洗:這個(gè)過(guò)程主要是對(duì)已經(jīng)發(fā)現(xiàn)并檢索到的數(shù)據(jù)進(jìn)一步的整理,從而可以為接下來(lái)的大數(shù)據(jù)分析提供更好地服務(wù)。在該模塊中主要是根據(jù)數(shù)據(jù)分析的需求對(duì)數(shù)據(jù)的格式以及數(shù)據(jù)種類進(jìn)行整理,把一些不滿足需求的數(shù)據(jù)進(jìn)行剔

聲像,數(shù)據(jù)發(fā)現(xiàn),搜索引擎


圖 3-1 專題信息數(shù)據(jù)發(fā)現(xiàn)的主要流程3.1.2. 關(guān)鍵詞結(jié)構(gòu)樹(shù)與網(wǎng)址結(jié)構(gòu)樹(shù)在公共域互聯(lián)網(wǎng)上發(fā)現(xiàn)數(shù)據(jù),目前大部分用戶選擇通過(guò)搜索引擎進(jìn)行查詢(如百度、搜狗等)。而這樣查詢出來(lái)的數(shù)據(jù)過(guò)于依賴輸入的關(guān)鍵詞,并且不能保證數(shù)據(jù)的全面性,同時(shí),搜索得出的數(shù)據(jù)結(jié)果包括許多其他類型的數(shù)據(jù),如Word 文檔、圖片、聲像等非相關(guān)性數(shù)據(jù),根據(jù)查詢結(jié)果發(fā)現(xiàn)不能滿足研究需要,如圖 3-2 所示。假設(shè)數(shù)據(jù)目標(biāo)是地質(zhì)信息產(chǎn)品,通過(guò)百度搜索引擎搜索數(shù)據(jù)的結(jié)果如下,并不能得到有意義的數(shù)據(jù)。
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 譚永杰;屈紅剛;文敏;;論地質(zhì)調(diào)查工作大數(shù)據(jù)[J];地理信息世界;2018年02期

2 王強(qiáng);;大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢(shì)[J];電子技術(shù)與軟件工程;2018年05期

3 劉思驛;;大數(shù)據(jù)時(shí)代信息分析的關(guān)鍵問(wèn)題、挑戰(zhàn)和對(duì)策[J];數(shù)字通信世界;2018年03期

4 孫晶濤;張秋余;;不均衡大數(shù)據(jù)集下的文本特征基因提取方法[J];電子科技大學(xué)學(xué)報(bào);2018年01期

5 孫海雪;陳建平;吳永亮;王恩瑞;;基于大數(shù)據(jù)發(fā)現(xiàn)技術(shù)的國(guó)外地質(zhì)信息服務(wù)跟蹤[J];地質(zhì)學(xué)刊;2017年03期

6 孫海雪;陳建平;鄭嘯;;世界主要發(fā)達(dá)國(guó)家地質(zhì)信息服務(wù)體系的現(xiàn)狀與特點(diǎn)[J];地質(zhì)學(xué)刊;2017年03期

7 王珂;;大數(shù)據(jù)與計(jì)算機(jī)輔助翻譯[J];北方文學(xué);2017年21期

8 文軍;吳曉凱;;找回失去的傳統(tǒng):“大數(shù)據(jù)”研究范式的反思與重構(gòu)[J];新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2018年01期

9 劉海濤;林燕妮;;大數(shù)據(jù)時(shí)代語(yǔ)言研究的方法和趨向[J];新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2018年01期

10 甘瓊;;大數(shù)據(jù)下的云會(huì)計(jì)特征及應(yīng)用[J];中國(guó)集體經(jīng)濟(jì);2017年16期


相關(guān)碩士學(xué)位論文 前10條

1 陳健;我國(guó)大數(shù)據(jù)技術(shù)發(fā)展的政策體系研究[D];云南師范大學(xué);2017年

2 王敏;分布式網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2017年

3 趙悅含;匹茲堡大學(xué)網(wǎng)站翻譯實(shí)踐報(bào)告[D];哈爾濱師范大學(xué);2016年

4 程佳;工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化協(xié)調(diào)發(fā)展研究[D];浙江工業(yè)大學(xué);2015年

5 岳雨儉;基于Hadoop分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[D];安徽理工大學(xué);2015年

6 鄭秋輝;基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)[D];首都師范大學(xué);2014年

7 王亮;地質(zhì)調(diào)查信息化中大數(shù)據(jù)平臺(tái)研究[D];長(zhǎng)江大學(xué);2014年

8 李亞坤;基于網(wǎng)絡(luò)的數(shù)據(jù)清洗技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

9 夏琰;基于數(shù)據(jù)挖掘技術(shù)的稅務(wù)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用平臺(tái)建設(shè)[D];浙江工業(yè)大學(xué);2012年

10 張志軒;互聯(lián)網(wǎng)熱點(diǎn)話題的數(shù)據(jù)采集及數(shù)據(jù)集建立[D];北京郵電大學(xué);2011年



本文編號(hào):2881595

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/kejilunwen/diqiudizhi/2881595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0c775***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
精品久久久久香蕉网| 激情燃烧的岁月| 欧美婷婷六月丁香综合色| 婷婷午夜| 亚洲欧美一区二区三区在线 | 亚洲国产精品无码久久久蜜芽 | 国产精品污www一区二区三区 | www.色网站| www插插插无码免费视频网站| 免费高清a级毛片在线播放| 一本色道久久88—综合亚洲精品| 91精品国产色综合久久不卡蜜臀 | 中文字幕乱人伦视频在线| 国产精品久久99| 成人午夜毛片| 天堂影音| 欧美成人看片一区二三区图文| 国产亚洲精品a在线无码| 最近最新中文字幕大全免费版| 久久情| 久久久偷拍| 亚洲偷自拍另类图片二区| 国精无码欧精品亚洲一区| 国产一区二区三区内射高清| 伊人精品无码一区二区三区电影| 亚洲精品18| 日韩亚洲av人人夜夜澡人人爽| 一区久久| 男女性潮高清免费网站| 无码专区AAAAAA免费视频| 亚洲欧洲无码专区AV| 亚洲色拍拍噜噜噜最新网站| 久久婷婷五月综合色欧美蜜芽 | 无码精品人妻一区二区三区人妻斩 | 国产无遮挡无码视频免费软件| 久久综合久久综合九色| 亚洲国产综合精品2020| 国产日韩精品欧美2020区 | 九九热精品在线视频| 久久偷拍人| 国产福利91精品|