a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 文藝論文 > 語言藝術(shù)論文 >

大數(shù)據(jù)時(shí)代的漢語語言學(xué)研究

發(fā)布時(shí)間:2016-10-19 21:01

  本文關(guān)鍵詞:大數(shù)據(jù)時(shí)代的漢語語言學(xué)研究,由筆耕文化傳播整理發(fā)布。


第36卷第5期詹衛(wèi)東:大數(shù)據(jù)時(shí)代的漢語語言學(xué)研究

才能給出報(bào)告,而基于用戶查詢記錄的大數(shù)據(jù)方法則可以做到每天都發(fā)布流感態(tài)勢(shì)報(bào)告①。這項(xiàng)研究(Nature)雜志成果發(fā)表在2009年2月份的《自然》

[3]上。

大數(shù)據(jù)處理的魅力不僅體現(xiàn)在上述典型的數(shù)據(jù)

而且也開始在一些人文社會(huì)科學(xué)計(jì)算和分析領(lǐng)域,

研究領(lǐng)域初試啼聲。比如基于維基百科(Wikipe-dia)②的大規(guī)模文本分析來從某些特定角度展示人就是一個(gè)有代表性的例類歷史變遷的宏觀面貌,

[4]

子。研究人員利用一臺(tái)有4000個(gè)CPU,內(nèi)存為

1264TB(1TB=1000GB,即10字節(jié))的超級(jí)計(jì)算機(jī)對(duì)400萬篇以英語寫的百科文章進(jìn)行處理,提取其中

NLU)。這個(gè)語言(NaturalLanguageUnderstanding,

任務(wù)的實(shí)質(zhì)是希望找到從語言的形式映射到語言的

人類的自然語言意義的機(jī)械方法。如果把“理解”

看做是人類智能行為的主要特征,那么,自然語言理

解顯然屬于人工智能的研究范疇,即探求作為高級(jí)智能的人的語言行為在多大程度上可以機(jī)械化。作為一個(gè)誕生在僅僅半個(gè)世紀(jì)前的相當(dāng)新的研

NLU所經(jīng)歷的發(fā)展過程稱得上是跌宕起伏。究領(lǐng)域,

而伴隨其間的,可以說正是在NLU不同發(fā)展階段人

———“自然語言”們對(duì)于其處理對(duì)象的不同理解。NLU脫胎于機(jī)器翻譯(MachineTransla-眾所周知,

tion,MT)。上世紀(jì)中葉,自動(dòng)計(jì)算裝置在二戰(zhàn)中破刺激著正在重建新譯密碼的威力在戰(zhàn)后繼續(xù)發(fā)酵,

世界的人們的想象力。用剛問世不久的電子計(jì)算機(jī)把一種自然語言翻譯成另一種自然語言順理成章地也被看做是密碼破譯的過程。MT從想法到能實(shí)際運(yùn)行的演示系統(tǒng),只用了短短五年時(shí)間(1949-1954)。然而,由美國(guó)Georgetown大學(xué)和IBM聯(lián)合研制的第一個(gè)MT系統(tǒng)只是在媒體宣傳和爭(zhēng)取政府資助上獲得了實(shí)實(shí)在在的成功,真正能夠服務(wù)于社會(huì)解決翻譯問題的MT系統(tǒng)并沒有像其研制者所宣1966年發(fā)布的稱的那樣在三五年內(nèi)就問世。相反,

著名的ALPAC⑤報(bào)告終結(jié)了MT的頭一個(gè)十年熱潮。人們開始透過計(jì)算機(jī)難以逾越的翻譯障礙反思人類自然語言本身的性質(zhì)。翻譯不再僅僅被簡(jiǎn)單地看做是密碼破譯的信息處理過程,自然語言也不僅僅是一串單詞的序列。如何讓計(jì)算機(jī)真正“理解”人類的自然語言,語言的層次結(jié)構(gòu)該如何分析,如何從形式結(jié)構(gòu)映射到意義表示……等等理論問題開始引起來自計(jì)算機(jī)科學(xué)、數(shù)學(xué)、語言學(xué)等跨學(xué)科研究人

——計(jì)算語言學(xué)也正是員的深思,新興的交叉學(xué)科—在這個(gè)背景中走上歷史舞臺(tái)的。20世紀(jì)七八十年

代,各種分析自然語言的形式理論和計(jì)算方法如雨后春筍般涌現(xiàn),其中著名的如基于概念依存圖(Con-ceptDependencyGraph)的知識(shí)表示方法與腳本理論

地點(diǎn)信息,并通過統(tǒng)計(jì)每篇文章中的情感的日期、

計(jì)算某個(gè)特定年份的情感指數(shù)(取值從極負(fù)面到詞,

極正面分為200級(jí)),用這種方法計(jì)算了1800-2012年間212年的情感指數(shù),并將計(jì)算結(jié)果用212張疊加的世界地圖來表示,即以地圖上不同地點(diǎn)標(biāo)記不同顏色來反映當(dāng)?shù)卦谀硞(gè)特定年份的情感指數(shù)。這212張按年疊加帶有顏色變化的世界地圖以可視化(Visualization)的方式在網(wǎng)頁上呈現(xiàn)③,在某種程度上,可以說是直接把一幅“風(fēng)云際會(huì)、斗轉(zhuǎn)星移”的世界史動(dòng)態(tài)畫卷鋪展在了讀者面前④。

,“大數(shù)據(jù)”毫無疑問已經(jīng)給這個(gè)時(shí)代打下了鮮

明的印記,身處其中,無論是否愿意,都將受其影響。就科學(xué)研究而言,,有的學(xué)科因?yàn)橹苯由婕按髷?shù)據(jù)分析而已經(jīng)發(fā)生顯著的變化,比如計(jì)算機(jī)科學(xué)與語言——計(jì)算語言學(xué)在近十年來的發(fā)展,學(xué)的交叉學(xué)科—

就是這樣的例證。下面不妨快速掃描一下這門年輕的學(xué)科近半個(gè)世紀(jì)的發(fā)展歷程,以更深刻地體會(huì)“大數(shù)據(jù)”對(duì)一個(gè)學(xué)科所帶來的沖擊和影響。漢語語言學(xué)未來的進(jìn)程或可從中有所借鑒。

來自計(jì)算語言學(xué)的啟示

計(jì)算語言學(xué)(ComputationalLinguistics)從其應(yīng)

就是讓計(jì)算機(jī)能夠“理解”人類的自然用目標(biāo)來說,

Google流感趨勢(shì)網(wǎng)站(http://www.google.org/flutrends/us/#US)將流感狀態(tài)分為“極輕、輕、中等、重、極重”五級(jí),并以五種

顏色區(qū)分,在Google地圖上標(biāo)記每個(gè)地區(qū)的流感狀態(tài)。http://www.wikipedia.org/有285種語言,超過2200萬篇文章。https://www.youtube.com/watch?v=KmCQVIVpzWg

需要說明的是,盡管上述這些大數(shù)據(jù)計(jì)算的例子確有震撼效果,但客觀而言,大數(shù)據(jù)計(jì)算無論在實(shí)際應(yīng)用還是科學(xué)研究中,都還在初期探索階段,基于大數(shù)據(jù)得到的結(jié)論有的已經(jīng)可以直接指導(dǎo)人們的社會(huì)實(shí)踐,但也有不少還只是起到一定的參考作用,并不能取代傳統(tǒng)的方法。ALPAC是美國(guó)國(guó)會(huì)為調(diào)查MT而成立的“自動(dòng)語言處理咨詢委員會(huì)”的英文名首字母縮寫。

②③④

71


  本文關(guān)鍵詞:大數(shù)據(jù)時(shí)代的漢語語言學(xué)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):146393

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/wenyilunwen/yuyanyishu/146393.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1881***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产精品成久久久久三级6二k| 久久婷婷| 国产乱码一二三区精品| 国产亚洲2021成人乱码| 亚洲一区二区三区AV无码| 大同市| 亚洲精品xxx| 电影 在线| а√天堂中文在线资源bt在线| 无码性午夜视频在线观看| 国产精品青青青高清在线| 亚洲国产日韩A在线播放| 亚洲综合无码一区二区加勒此| 欧美多人乱大交xxxxx变态| dy888亚洲精品一区二区三区| 久久男人av资源网站| 亚洲av无码不卡久久| 日本aⅴ精品中文字幕| 无码人妻丰满熟妇啪啪网站| 国产成人精品免费视频网页大全| 超碰97人妻| 日韩一区二区三区在线| 色一欲一性一乱—区二区三区| 日韩欧美国产高清| 精品无码人妻一区二区三| 99久久久国产精品免费牛牛| 国产男女猛烈无遮挡免费网站 | 亚洲中文无码永久免费| 人妻被按摩师玩弄到潮喷| 精品久久久久香蕉网| 小辣椒福利视频精品导航| 欧美黑人疯狂性受XXXXX喷水| A亚洲VA欧美VA国产综合| 久久久精品国产SM最大网站| 国产午夜福利在线观看视频 | 日韩人妻无码精品专区综合网 | 久久18禁高潮出水呻吟娇喘| 亚洲老妈激情一区二区三区| 飘飘欲仙狼太郎| 亚洲熟妇av一区| 久久国产精久久精产国|