基于文本挖掘的網(wǎng)絡(luò)招聘信息分析
發(fā)布時(shí)間:2020-12-30 04:17
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人才招聘方式發(fā)生了非常大的變化,逐步從以前那些招聘方法過渡到現(xiàn)在的網(wǎng)絡(luò)招聘,網(wǎng)絡(luò)招聘平臺(tái)的信息最直觀地反映了當(dāng)今社會(huì)對(duì)人才的需求,尤其是近年來風(fēng)生水起的大數(shù)據(jù)行業(yè)。為了研究當(dāng)今招聘市場(chǎng)的詳情和大數(shù)據(jù)行業(yè)的需求情況,本文以山東省為例,對(duì)普通崗位和大數(shù)據(jù)崗位的招聘數(shù)據(jù)進(jìn)行了相關(guān)研究。本文通過爬取前程無憂和智聯(lián)招聘兩個(gè)綜合性的招聘網(wǎng)站的數(shù)據(jù),主要對(duì)山東省普通崗位和大數(shù)據(jù)崗位進(jìn)行了研究。針對(duì)普通崗位,主要是采用描述性統(tǒng)計(jì)分析的方法,從工作地點(diǎn)、工作經(jīng)驗(yàn)要求、薪資水平、學(xué)歷水平、公司性質(zhì)、公司規(guī)模等方面對(duì)普通崗位的招聘情況進(jìn)行了分析;對(duì)大數(shù)據(jù)崗位,一方面利用描述性分析,對(duì)上述指標(biāo)進(jìn)行了統(tǒng)計(jì)分析,另一方面,針對(duì)崗位要求和崗位職責(zé)兩個(gè)指標(biāo)進(jìn)行詳細(xì)分析,利用TF-IDF算法、構(gòu)建LDA主題模型和職位畫像,對(duì)大數(shù)據(jù)各類崗位對(duì)人才的要求進(jìn)行了研究。通過分析,可以得到不管是普通崗位也好,還是大數(shù)據(jù)類崗位也好,在山東省內(nèi)部大多都是分布在濟(jì)南和青島兩座城市,普通崗位對(duì)經(jīng)驗(yàn)、學(xué)歷的要求要低于大數(shù)據(jù)類崗位,相應(yīng)的薪資水平也較低,而公司性質(zhì)和公司規(guī)模都是以小型民營企業(yè)為主。通過對(duì)大數(shù)據(jù)類崗位的分...
【文章來源】:山東師范大學(xué)山東省
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Scrapy框架結(jié)構(gòu)圖
LDA 主題模型是一個(gè)三層貝葉斯概率生成模型,是一種典型的無監(jiān)督、基于統(tǒng)計(jì)學(xué)詞袋模型,也就是說,它認(rèn)為一篇文章是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順和先后關(guān)系[10]。主題模型可以用來提取文本集合的主題和主題之間的關(guān)聯(lián)關(guān)系。LDA主要思想是:每篇文章都有各自的主題分布,其中,主題和它的主題詞都服從多項(xiàng)分布,自分布的參數(shù)也都服從狄利克雷分布。所以,有以下概率公式: ( | ) = ∑ ∈ ( | ) ( | ) ( 2 - 4 )式 2-4 的概率公式表示的是詞 在文檔 中出現(xiàn)的概率。這個(gè)概率等于特征值的概和主題詞的概率之積,即詞 在主題 中出現(xiàn)的概率與主題 在文檔 中出現(xiàn)的概率乘積。LDA 模型的思想可以用矩陣的形式表示出來,把整個(gè)文檔看作是文檔詞條矩陣,把個(gè)矩陣分成文檔-主題矩陣和主題-詞條矩陣,如圖 2-2 表示了三者之間的關(guān)系,和式 2-4含義相同。
③將公司規(guī)模統(tǒng)一為 100 人以下、100-499 人、500-999 人、1000-9999 人、10000 人以上五個(gè)標(biāo)準(zhǔn);④將學(xué)歷統(tǒng)一為高中及以下、大專、本科、碩士、博士、不限六個(gè)學(xué)歷水平;⑤將工作經(jīng)驗(yàn)統(tǒng)一為無經(jīng)驗(yàn)、1-3 年、3-5 年、5-10 年、10 年以上及經(jīng)驗(yàn)不限六個(gè)水平;⑥將薪資統(tǒng)一劃分到月薪 0-5k、5-10k、10-15k、15-20k、20-25k、25-30k、30-100七個(gè)水平,由于爬取的數(shù)據(jù)薪資水平上下限都不統(tǒng)一,因此取上下限的平均值,然后按照平均值隸屬以上哪個(gè)水平就將該條崗位信息的薪資劃分到哪個(gè)區(qū)間,以此做到統(tǒng)一薪資水平。3.2 山東省普通崗位描述性統(tǒng)計(jì)分析(1)崗位地點(diǎn)分布
【參考文獻(xiàn)】:
期刊論文
[1]基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的人才招聘數(shù)據(jù)采集[J]. 劉貴平,劉娜,段紅義. 電腦編程技巧與維護(hù). 2018(05)
[2]國內(nèi)招聘類網(wǎng)站的數(shù)據(jù)類崗位人才需求特征挖掘[J]. 張俊峰,魏瑞斌. 情報(bào)雜志. 2018(06)
[3]基于大數(shù)據(jù)技術(shù)的社交網(wǎng)絡(luò)招聘研究[J]. 邵丹. 中國戰(zhàn)略新興產(chǎn)業(yè). 2018(16)
[4]大數(shù)據(jù)行業(yè)人才培養(yǎng)探究[J]. 譚林海. 中國信息化. 2017(10)
[5]基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[6]基于國內(nèi)市場(chǎng)需求的大數(shù)據(jù)管理人才知識(shí)結(jié)構(gòu)分析[J]. 周曉燕,尹亞麗. 情報(bào)科學(xué). 2017(01)
[7]基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計(jì)算機(jī)應(yīng)用. 2016(03)
[8]大數(shù)據(jù)背景下的應(yīng)用統(tǒng)計(jì)專業(yè)碩士人才培養(yǎng)模式研究[J]. 阮敬,陳濤. 統(tǒng)計(jì)與管理. 2015(08)
[9]基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析[J]. 鐘曉旭,胡學(xué)鋼. 安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2010(04)
[10]我國網(wǎng)絡(luò)招聘研究綜述[J]. 張萌,衣馮源. 現(xiàn)代經(jīng)濟(jì)信息. 2009(20)
碩士論文
[1]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[2]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長(zhǎng)江大學(xué) 2018
[3]基于網(wǎng)絡(luò)爬蟲的信息采集技術(shù)研究[D]. 王子豪.西北師范大學(xué) 2018
[4]基于LDA主題模型的文本聚類研究[D]. 王惠.蘭州大學(xué) 2018
[5]網(wǎng)絡(luò)招聘信息的分析與挖掘[D]. 趙丹.貴州財(cái)經(jīng)大學(xué) 2017
[6]基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng)[D]. 張瑀.湖南師范大學(xué) 2017
[7]基于Web文本挖掘的電子商務(wù)專業(yè)人才市場(chǎng)需求研究[D]. 王萍.重慶工商大學(xué) 2016
[8]基于概率主題模型的中草藥文獻(xiàn)服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 凌超.浙江大學(xué) 2014
[9]基于VSM擴(kuò)展算法和經(jīng)典聚類算法的Web挖掘研究[D]. 王安.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2013
本文編號(hào):2946971
【文章來源】:山東師范大學(xué)山東省
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Scrapy框架結(jié)構(gòu)圖
LDA 主題模型是一個(gè)三層貝葉斯概率生成模型,是一種典型的無監(jiān)督、基于統(tǒng)計(jì)學(xué)詞袋模型,也就是說,它認(rèn)為一篇文章是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順和先后關(guān)系[10]。主題模型可以用來提取文本集合的主題和主題之間的關(guān)聯(lián)關(guān)系。LDA主要思想是:每篇文章都有各自的主題分布,其中,主題和它的主題詞都服從多項(xiàng)分布,自分布的參數(shù)也都服從狄利克雷分布。所以,有以下概率公式: ( | ) = ∑ ∈ ( | ) ( | ) ( 2 - 4 )式 2-4 的概率公式表示的是詞 在文檔 中出現(xiàn)的概率。這個(gè)概率等于特征值的概和主題詞的概率之積,即詞 在主題 中出現(xiàn)的概率與主題 在文檔 中出現(xiàn)的概率乘積。LDA 模型的思想可以用矩陣的形式表示出來,把整個(gè)文檔看作是文檔詞條矩陣,把個(gè)矩陣分成文檔-主題矩陣和主題-詞條矩陣,如圖 2-2 表示了三者之間的關(guān)系,和式 2-4含義相同。
③將公司規(guī)模統(tǒng)一為 100 人以下、100-499 人、500-999 人、1000-9999 人、10000 人以上五個(gè)標(biāo)準(zhǔn);④將學(xué)歷統(tǒng)一為高中及以下、大專、本科、碩士、博士、不限六個(gè)學(xué)歷水平;⑤將工作經(jīng)驗(yàn)統(tǒng)一為無經(jīng)驗(yàn)、1-3 年、3-5 年、5-10 年、10 年以上及經(jīng)驗(yàn)不限六個(gè)水平;⑥將薪資統(tǒng)一劃分到月薪 0-5k、5-10k、10-15k、15-20k、20-25k、25-30k、30-100七個(gè)水平,由于爬取的數(shù)據(jù)薪資水平上下限都不統(tǒng)一,因此取上下限的平均值,然后按照平均值隸屬以上哪個(gè)水平就將該條崗位信息的薪資劃分到哪個(gè)區(qū)間,以此做到統(tǒng)一薪資水平。3.2 山東省普通崗位描述性統(tǒng)計(jì)分析(1)崗位地點(diǎn)分布
【參考文獻(xiàn)】:
期刊論文
[1]基于聚焦網(wǎng)絡(luò)爬蟲技術(shù)的人才招聘數(shù)據(jù)采集[J]. 劉貴平,劉娜,段紅義. 電腦編程技巧與維護(hù). 2018(05)
[2]國內(nèi)招聘類網(wǎng)站的數(shù)據(jù)類崗位人才需求特征挖掘[J]. 張俊峰,魏瑞斌. 情報(bào)雜志. 2018(06)
[3]基于大數(shù)據(jù)技術(shù)的社交網(wǎng)絡(luò)招聘研究[J]. 邵丹. 中國戰(zhàn)略新興產(chǎn)業(yè). 2018(16)
[4]大數(shù)據(jù)行業(yè)人才培養(yǎng)探究[J]. 譚林海. 中國信息化. 2017(10)
[5]基于Scrapy的深層網(wǎng)絡(luò)爬蟲研究[J]. 劉宇,鄭成煥. 軟件. 2017(07)
[6]基于國內(nèi)市場(chǎng)需求的大數(shù)據(jù)管理人才知識(shí)結(jié)構(gòu)分析[J]. 周曉燕,尹亞麗. 情報(bào)科學(xué). 2017(01)
[7]基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計(jì)算機(jī)應(yīng)用. 2016(03)
[8]大數(shù)據(jù)背景下的應(yīng)用統(tǒng)計(jì)專業(yè)碩士人才培養(yǎng)模式研究[J]. 阮敬,陳濤. 統(tǒng)計(jì)與管理. 2015(08)
[9]基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析[J]. 鐘曉旭,胡學(xué)鋼. 安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2010(04)
[10]我國網(wǎng)絡(luò)招聘研究綜述[J]. 張萌,衣馮源. 現(xiàn)代經(jīng)濟(jì)信息. 2009(20)
碩士論文
[1]基于爬蟲和LDA的新聞話題挖掘[D]. 曹牧原.河北大學(xué) 2018
[2]基于TF-IDF推薦算法的多樣性研究[D]. 熊魏.長(zhǎng)江大學(xué) 2018
[3]基于網(wǎng)絡(luò)爬蟲的信息采集技術(shù)研究[D]. 王子豪.西北師范大學(xué) 2018
[4]基于LDA主題模型的文本聚類研究[D]. 王惠.蘭州大學(xué) 2018
[5]網(wǎng)絡(luò)招聘信息的分析與挖掘[D]. 趙丹.貴州財(cái)經(jīng)大學(xué) 2017
[6]基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng)[D]. 張瑀.湖南師范大學(xué) 2017
[7]基于Web文本挖掘的電子商務(wù)專業(yè)人才市場(chǎng)需求研究[D]. 王萍.重慶工商大學(xué) 2016
[8]基于概率主題模型的中草藥文獻(xiàn)服務(wù)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 凌超.浙江大學(xué) 2014
[9]基于VSM擴(kuò)展算法和經(jīng)典聚類算法的Web挖掘研究[D]. 王安.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2013
本文編號(hào):2946971
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/sjfx/2946971.html
最近更新
教材專著