a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于字詞對齊的中文字詞向量表示方法

發(fā)布時間:2018-04-13 17:19

  本文選題:自然語言處理 + 表示學(xué)習(xí); 參考:《中國科學(xué)技術(shù)大學(xué)》2017年碩士論文


【摘要】:詞語是構(gòu)成文本的最小語義單元,很多自然語言處理任務(wù)都會涉及詞語表示的問題。詞語表示的方法最常見的是獨熱表示.然而此方法存在稀疏問題,且不能捕捉詞語間的語義聯(lián)系。以表示學(xué)習(xí)為基礎(chǔ)的詞語表示旨在用稠密的低維向量來表示詞語的語義信息,其中分布式語義表示是表示學(xué)習(xí)中最常見的詞語表示方法。這種方法得到的詞向量在很多自然語言處理問題上取得了成功。借鑒于英文的詞向量表示方法,一些學(xué)者對中文詞向量的表示進(jìn)行了研究。最近的一些研究表明,中文詞語內(nèi)部的漢字也具有豐富的語義信息,基于字詞聯(lián)合學(xué)習(xí)的模型在一些中文自然語言處理任務(wù)上取得了一定的成功。然而現(xiàn)有的處理方法均沒有考慮詞語內(nèi)部漢字對詞語語義貢獻(xiàn)的差異性,使得學(xué)習(xí)的詞向量在一些任務(wù)上的表現(xiàn)不盡如人意。本文基于此問題,提出了一種計算組成詞語的漢字對詞語的語義貢獻(xiàn)的方法,這種方法利用了其他語言的語義信息。我們使用了這種基于相似度的方法來聯(lián)合學(xué)習(xí)字詞向量。并且通過實驗,這種方法對漢字消歧和識別非語義可組合詞也有很好的效果。本文具體工作如下:(1)本文根據(jù)中文的特點,提出了一種基于字詞相似度的字詞向量學(xué)習(xí)模型。該方法在詞語訓(xùn)練過程中,計算了不同內(nèi)部漢字對詞語的語義貢獻(xiàn),更好地對中文的詞語進(jìn)行建模,使?jié)h字對學(xué)習(xí)到的詞向量起到很好的平滑效果,并且通過字的關(guān)聯(lián)使詞的上下文信息更加豐富。(2)與傳統(tǒng)的基于上下文聚類的漢字消歧方法不同,本文創(chuàng)新地融入了英文這種富信息語言的優(yōu)勢,提出了一種新的方法來對漢字進(jìn)行消歧。這種方法利用了外部資源,使用了類似K-means的方式進(jìn)行了分類。(3)并非所有的詞都是語義可組合的。例如命名實體,舶來詞等等。本文在現(xiàn)有工作的基礎(chǔ)上,提出了一種辨別非語義可組合詞的方法。(4)在實驗部分,通過在多個不同數(shù)據(jù)集上,不同維度的比較,驗證了本文提出算法的有效性。
[Abstract]:Words are the smallest semantic unit of text, and many natural language processing tasks involve the representation of words.The most common way to express words is to express heat alone.However, this method has the problem of sparse, and can not capture the semantic relationship between words.The representation of words based on representation learning aims to represent the semantic information of words with dense low-dimensional vectors, in which distributed semantic representation is the most common representation of words in learning.The word vectors obtained by this method are successful in many natural language processing problems.Some scholars have studied the representation of Chinese word vectors for reference to English word vector representation.Some recent studies have shown that Chinese characters have abundant semantic information, and the model based on word combination learning has been successful in some Chinese natural language processing tasks.However, the existing processing methods do not take into account the differences of the Chinese characters' contribution to the semantic meaning of the words, which makes the performance of the learning word vector unsatisfactory in some tasks.Based on this problem, this paper proposes a method to calculate the semantic contribution of Chinese characters to words, which utilizes the semantic information of other languages.We use this similarity-based approach to learn word vectors jointly.The experiment shows that this method has good effect on Chinese character disambiguation and recognition of non-semantic combinable words.The main work of this paper is as follows: (1) according to the characteristics of Chinese, this paper proposes a word vector learning model based on word similarity.In the process of word training, this method calculates the semantic contribution of different internal Chinese characters to the words, and models the Chinese words better, so that the Chinese characters have a good smoothing effect on the word vectors learned.Moreover, the contextual information of words is enriched by the association of words, which is different from the traditional Chinese character disambiguation method based on contextual clustering. This paper innovatively integrates the advantages of English, which is a rich information language, in this paper.A new method is proposed to disambiguate Chinese characters.Not all words are semantically combinable.For example, naming entities, foreign words and so on.Based on the existing work, this paper proposes a method of identifying non-semantically combinable words. In the experimental part, the effectiveness of the proposed algorithm is verified by comparing different dimensions on many different datasets.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前5條

1 趙文;高速中英文翻譯字典卡[J];中國對外貿(mào)易;1994年01期

2 史穎;《CRS-漢語拼字方案》再續(xù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2005年09期

3 金山;;雇個責(zé)任編輯[J];軟件;2000年08期

4 林春;王嘉梅;張建營;樊津瑜;;彝文網(wǎng)頁敏感信息監(jiān)測系統(tǒng)的研究[J];中國新通信;2013年24期

5 王坤,董少明;計算機錄入技術(shù)專用周的安排[J];機械職業(yè)教育;1996年10期

相關(guān)碩士學(xué)位論文 前4條

1 王麗婷;兩種文言文字詞演示型學(xué)習(xí)資源學(xué)習(xí)效果比較研究[D];華中師范大學(xué);2015年

2 高芳菲;遷移理論在初中文言文字詞教學(xué)中的應(yīng)用研究[D];閩南師范大學(xué);2015年

3 徐健;基于字詞對齊的中文字詞向量表示方法[D];中國科學(xué)技術(shù)大學(xué);2017年

4 楊璐;高中文言文字詞教學(xué)存在的問題及應(yīng)對策略[D];信陽師范學(xué)院;2017年

,

本文編號:1745454

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1745454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c8f03***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
三个女人| 狂野欧美激情性XXXX| 99精品久久久久久人妻精品| 九九热av| 亚洲av线| 人人插人人干| 久久精品九九亚洲精品| 国产精品青青青在线观看| 普洱| 入盆后要少走还是多走| 国产精品一级二级三级| 日本亚洲精品成人欧美一区| 人人婷婷人人澡人人爽| 亚洲国产成人VA在线观看| 国产成人综合95精品视频| 三年片在线观看免费| 连州市| 丝袜 中出 制服 人妻 美腿| 在线国产视频| 天天操天天干天天日| 91色视频| 毛片aaaa| 二男一女一级一片视频在线观看| 中文字幕人成无码免费视频| 亚洲日韩片无码中文字幕| 粉嫩18p| 国产又黄又大又粗的视频| 欧美乱妇狂野欧美在线视频 | 人妻无码视频一区二区三区| 国产另类久久久精品| 扒开粉嫩小泬直接进视频| 亚洲av永久无码精品无码四虎| 精品AⅤ一区二区三区| 老子影院午夜伦不卡亚洲欧美| 免费人成在线视频无码| 项城市| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 南充市| 色婷婷激情av精品影院| 精品亚洲成a人7777在线观看| 亚洲乱码国产乱码精品精|