?? wordnet-history.htm
字號(hào):
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>WordNet-發(fā)展概述</title>
</head>
<body>
<p>一 WordNet發(fā)展概況<br>
<br>
· 關(guān)于WordNet的不成熟的想法可以追溯到20多年前,而這一想法開(kāi)始逐漸具體化和清晰化則是1985年后才開(kāi)始的。從85年開(kāi)始,WordNet作為一個(gè)知識(shí)工程全面展開(kāi)。不過(guò),當(dāng)時(shí)的WordNet和經(jīng)過(guò)10多年后今天的WordNet還是很不一樣的。<br>
<br>
· 這一工程最初的前提之一是“可分離性假設(shè)”(Separability hypothesis),即語(yǔ)言的詞匯成分可以被離析出來(lái)并專門(mén)針對(duì)它加以研究。詞匯編纂學(xué)的歷史明確地告訴我們,在詞語(yǔ)水平上可以得到有用的研究成果。詞庫(kù)(詞典,lexicon)當(dāng)然不是完全獨(dú)立于其他語(yǔ)言成分的,但它的確是可以從其他成分中分離出來(lái)的。例如,盡管語(yǔ)音和語(yǔ)法知識(shí)在一個(gè)人的早年生活中就成型了,但詞匯量卻可以隨著智力活動(dòng)的不斷積累而增加。這表明語(yǔ)言的不同成分涉及不同的認(rèn)知過(guò)程。<br>
<br>
· 另一個(gè)前提是“模式假設(shè)”(patterning hypothesis):一個(gè)人不可能掌握他運(yùn)用一種語(yǔ)言所需的所有詞匯,除非他能夠利用詞義中存在的系統(tǒng)的模式和詞義之間的關(guān)系。這種系統(tǒng)化的心智模式至少?gòu)陌乩瓐D時(shí)代就成為一種進(jìn)行推測(cè)的學(xué)問(wèn),現(xiàn)代語(yǔ)言學(xué)研究開(kāi)始在自然語(yǔ)言的語(yǔ)義結(jié)構(gòu)中識(shí)別這樣的模式。但許多遵循這類路線的出色的研究工作在這一問(wèn)題上碰到了困難。一個(gè)作者可能提出一種語(yǔ)義理論,并以20到50個(gè)英語(yǔ)單詞為例來(lái)展示他的理論,而留下另外10萬(wàn)個(gè)單詞讓讀者去做練習(xí)。<br>
<br>
· 第三個(gè)前提就是所謂的“廣泛性假設(shè)”(comprehensiveness hypothesis):計(jì)算語(yǔ)言學(xué)如果希望能像人那樣處理自然語(yǔ)言,就需要像人那樣儲(chǔ)存盡可能多的詞匯知識(shí)。<br>
<br>
·
建立包含詞語(yǔ)意義描述的大規(guī)模詞庫(kù)的方式之一是基于語(yǔ)義成分分析的詞匯語(yǔ)義學(xué)(componential lexical semantics)的方法(也可譯為義素分析法)。這種方式把一個(gè)詞的意義分析為更小的概念原子的組合。不過(guò),定義一套概念原子卻非易事。事實(shí)上,WordNet主帥George.A.Miller在1976年他與Philip N. Johnson-Laird合作的《Language and Perception》一書(shū)中還躊躇滿志地探索義素分析的語(yǔ)義描寫(xiě)方法,但直到1985年,仍然沒(méi)有能夠出籠一個(gè)完整的定義清晰的清單,在上面列舉出所有的概念原子。<br>
<br>
· 到1985年,許多認(rèn)知心理學(xué)家和計(jì)算語(yǔ)言學(xué)家開(kāi)始以“網(wǎng)”的形式來(lái)描述詞語(yǔ)的意義。比如:“桌子”(table)和“家具”(furniture)代表兩個(gè)節(jié)點(diǎn)(node),而這兩個(gè)節(jié)點(diǎn)之間有一個(gè)箭頭(dart)來(lái)表示這樣的命題:桌子是一種家具(a table is a kind of furniture),即“Is-A-KIND-OF”這樣的語(yǔ)義關(guān)系。隨著這方面研究的增多,越來(lái)越多的人自覺(jué)地意識(shí)到:除了利用語(yǔ)義成分(義素分析法)表示語(yǔ)義,還可以利用關(guān)系來(lái)表示語(yǔ)義(基于關(guān)系的詞匯語(yǔ)義學(xué)relational lexical semantics),而且后者有可能替代前者。<br>
<br>
· 在WordNet的早期階段,研究人員主要是在考慮用關(guān)系語(yǔ)義來(lái)描述詞義的方式是否能夠大規(guī)模地廣泛使用,而不是僅僅停留在玩具式的演示水平上。到了研究人員確信這是可行的的時(shí)候,他們就編制了應(yīng)用軟件來(lái)把想法變成現(xiàn)實(shí)。實(shí)際上,在早期,Miller并沒(méi)有關(guān)于構(gòu)建一個(gè)大詞庫(kù)的完整想法。初步設(shè)想是識(shí)別由字符串組成的最重要的詞節(jié)點(diǎn),并探索其中的語(yǔ)義關(guān)系模式。當(dāng)時(shí)的想法是,如果得到了正確的語(yǔ)義關(guān)系模式,詞語(yǔ)的定義就能從中推理出來(lái),因此,對(duì)于一個(gè)有關(guān)詞義的關(guān)系網(wǎng)來(lái)說(shuō),詞義的定義是多余的。<br>
<br>
· 在1978年的時(shí)候,Miller描述了一種“自動(dòng)化詞典”(automated dictionary)的想法。不過(guò)那時(shí)候他完全不知道該如何實(shí)現(xiàn)這種想法。由于Sloan基金會(huì),Spencer基金會(huì),IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持著他的想法,而沒(méi)有中途放棄。到1984年的時(shí)候,Miller甚至在IBM PC機(jī)上做出了45個(gè)名詞的小型語(yǔ)義網(wǎng),他把這個(gè)小網(wǎng)叫做“word net”。Miller在IBM和Bellcore演示了這個(gè)示例成果。他在Bellcore的一幫好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓勵(lì)他繼續(xù)下去,并在技術(shù)上給予許多實(shí)際指導(dǎo)。<br>
<br>
· Lesk邀請(qǐng)Miller參加了1985年11月在加拿大沃太盧(Waterloo)大學(xué)新牛津英語(yǔ)詞典中心的第一次會(huì)議。Miller提交了一篇論文。Miller在那篇論文中解釋這樣的思想: 我們可以使用同義詞集合(synset)來(lái)代表詞匯概念,并描述詞匯矩陣,即在詞的形式和意義之間建立起映射關(guān)系(mapping)。實(shí)際上,這正是在WordNet的發(fā)展中指導(dǎo)研究工作的主要思想。<br>
<br>
· 不過(guò),也許Miller在那次會(huì)議上的報(bào)告所介紹的思想尚在其次,報(bào)告的標(biāo)題反而意義更大。那個(gè)標(biāo)題是由Lesk提議的,叫做:WordNet: A Dictionary Browser。(WordNet:一個(gè)詞典瀏覽器)。在這里,WordNet被看作(設(shè)想為)是一個(gè)詞典瀏覽器,是一個(gè)機(jī)器可讀詞典的輔助工具。而這樣一個(gè)機(jī)器詞典不是傳統(tǒng)地按字母排序的,是基于意義的。<br>
<br>
· 也就是在WordNet開(kāi)始成形的時(shí)候,Miller和他的一些志同道合的同事在普林斯頓合作發(fā)起了一個(gè)認(rèn)知研究的計(jì)劃(Program for Cognitive Studies)。Richard Cullingford從1983年到1985年在普林斯頓訪問(wèn),他,Gilbert Herman,加上Miller說(shuō)服Provost Neil Rudenstine提供了一臺(tái)微型計(jì)算機(jī)。那臺(tái)計(jì)算機(jī)也就成了普林斯頓認(rèn)知科學(xué)實(shí)驗(yàn)室的心臟。有了設(shè)備在手,Miller又去說(shuō)服海軍研究辦公室的Susan Chipman跟他們簽合同來(lái)開(kāi)發(fā)WordNet。Cullingford和Miller一起收到了軍隊(duì)研究所(Army Research Institute)的一個(gè)合同,開(kāi)發(fā)一個(gè)詞匯語(yǔ)義學(xué)的計(jì)算理論。1986年3月,James S.McDonnell基金向普林斯頓慷慨解囊,支持認(rèn)知科學(xué)的研究工作。Marie BienKowski(Cullingford的研究生)和一個(gè)熟練的計(jì)算機(jī)專家,從1985年開(kāi)始跟我們一道工作,不久就拿出了我們需要的軟件。由此,WordNet真正成為普林斯頓新成立的認(rèn)知科學(xué)實(shí)驗(yàn)室?guī)醉?xiàng)研究計(jì)劃中的一個(gè),并開(kāi)始實(shí)際運(yùn)作。<br>
<br>
· 用來(lái)創(chuàng)建WordNet的最重要的程序是所謂的Grinder(磨床)程序。Bienkowski在1986年用LISP語(yǔ)言寫(xiě)了Grinder的第一個(gè)版本。Dan Teibel在1987年用C語(yǔ)言重寫(xiě)了這個(gè)程序。Antonio Romero在1989年又重寫(xiě)了一次。Randee Tengi從1991年開(kāi)始負(fù)責(zé)管理該程序的所有這些版本。<br>
<br>
· WordNet中的詞來(lái)自不同的地方。Brown語(yǔ)料庫(kù)、Laurence Urdang的同義反義小詞典(1978)、Urdang修訂的Rodale同義詞詞典(1978)、以及Robert Chapmand的第4版羅杰斯同義詞詞林(1977)等。1986年下半年,Miller得到海軍研究與發(fā)展中心的Fred Chang的一個(gè)詞表,Miller將Chang的詞表跟WordNet已有的詞表進(jìn)行了比較,令人沮喪的結(jié)果是只有15%的重合詞語(yǔ),于是Miller把Chang的詞表加入到WordNet中。1993年,Miller得到了Ralph Grishman和他在紐約大學(xué)的同事的一個(gè)詞表,39143個(gè)詞,這個(gè)詞表實(shí)際上包含在著名的COMLEX詞典中。這一次比較的結(jié)果是,WordNet中只包含了COMLEX中74%的詞。于是Miller又把這個(gè)詞表加入到WordNet中。<br>
<br>
· 隨著詞表長(zhǎng)度的增加,組織工作的壓力開(kāi)始增加。第一步區(qū)分是通過(guò)句法范疇來(lái)進(jìn)行的。我們創(chuàng)建了不同的文件用于存放名詞、動(dòng)詞、形容詞(1992年后加入副詞)。但在每個(gè)句法范疇內(nèi),仍有太多的詞語(yǔ),如果沒(méi)有進(jìn)一步分類就難以把握。名詞由于是開(kāi)放的詞類,因而問(wèn)題最嚴(yán)重。<br>
<br>
· 1987年春,Philip N. Johnson-Laird從英國(guó)劍橋應(yīng)用心理學(xué)研究所來(lái)到普林斯頓大學(xué)訪問(wèn)。他發(fā)現(xiàn)WordNet中缺乏手段來(lái)區(qū)分形容詞的意義在修飾不同名詞時(shí)所發(fā)生的變化。他利用266對(duì)反義形容詞(當(dāng)時(shí)WordNet包含了這些反義形容詞對(duì)),根據(jù)它們修飾名詞的適合度來(lái)分出名詞的次類。結(jié)果大約得到名詞的25個(gè)次類。這些次類構(gòu)成了名詞的基礎(chǔ)分類。而且這些不同次類的名詞也相應(yīng)地被分成不同的個(gè)別文件交給不同的研究人員去分頭加工,從而從工程上推動(dòng)了WordNet的進(jìn)展。<br>
<br>
· 1987年夏,Christiane Fellbaum加入到研究隊(duì)伍中來(lái),承擔(dān)了對(duì)動(dòng)詞進(jìn)行次分類的工作。<br>
<br>
· 只有Kitty Miller負(fù)責(zé)的描寫(xiě)性形容詞(descriptive adjective),從一開(kāi)始就一直保持是一個(gè)大類,沒(méi)有次范疇化,所有的這些形容詞也保存在一個(gè)巨大的文件中。<br>
<br>
· WordNet從一個(gè)簡(jiǎn)單的“詞典瀏覽器”(dictionary browser)發(fā)展成一個(gè)自足的詞匯數(shù)據(jù)庫(kù)(self-contained lexical database),主要的進(jìn)步是從1989年年初開(kāi)始的。當(dāng)時(shí)SusanChipman不滿于WordNet僅僅作為一個(gè)詞匯瀏覽器而存在,要求研究小組開(kāi)發(fā)一個(gè)工具。該工具可以在WordNet的基礎(chǔ)上閱讀一個(gè)文本,并報(bào)告文本中詞語(yǔ)的各種信息。這一工具即所謂的“Word Filter”(詞過(guò)濾器)。罕用的或不符合需要的詞能夠從小說(shuō)文檔中被過(guò)濾出去,而同時(shí)更常見(jiàn)的詞語(yǔ)可以用來(lái)替代這些詞。這個(gè)工作很快使我們意識(shí)到必須對(duì)詞形的曲折變化進(jìn)行處理。這使得我們處理了有關(guān)詞形方面的一些問(wèn)題,WordNet中僅包含詞語(yǔ)的基本形式,如果文本中出現(xiàn)“ships”,WordNet就無(wú)法識(shí)別它。Richard Beckwith和Miceael Colon寫(xiě)了一個(gè)程序,叫做Morphy,可以識(shí)別出文本中的“ships”的詞形式“ship”。到1989年9月,WordNet就可以處理文本中的詞形變化,并在詞庫(kù)中找到相應(yīng)的詞語(yǔ)基本形式。<br>
<br>
· 上述工作導(dǎo)致另一個(gè)重要的進(jìn)展,就是在文本中將詞語(yǔ)跟WordNet中的相應(yīng)意義關(guān)聯(lián)起來(lái)。Claudia Leacock(1991年11月加入)和Brian Gustafson開(kāi)發(fā)了一個(gè)界面-- ConText,可以對(duì)文本進(jìn)行預(yù)處理(實(shí)例化、詞匯化、自動(dòng)句法標(biāo)注等),并跟WordNet一道顯示目標(biāo)詞語(yǔ)(即對(duì)目標(biāo)詞語(yǔ)進(jìn)行了語(yǔ)義標(biāo)注)。1993年6月,Shari Landes負(fù)責(zé)把一整套的標(biāo)注工具匯編到一起(包含一組標(biāo)記),利用這樣一套工具,可以盡最大可能產(chǎn)生一個(gè)無(wú)歧義的文本作為輸出結(jié)果。對(duì)文本進(jìn)行語(yǔ)義標(biāo)注顯著地提高了WordNet的覆蓋面,即包括詞匯覆蓋面,也包括詞義的覆蓋面。<br>
<br>
· WordNet的另一個(gè)重要變化是1989年春發(fā)生的,Antonio Romero修改了Grinder程序,使得它可以接受插入語(yǔ)定義(或理解為“注釋”)作為同義詞集合(synset)的一部分。隨著WordNet中詞語(yǔ)數(shù)量的增加,既要盡可能清楚地區(qū)別詞義,同時(shí)又要保持同義詞集合的純粹性,就越來(lái)越困難了。換句話說(shuō),僅靠同義來(lái)定義詞義是不夠的。一開(kāi)始,WordNet保持注釋盡量得短。但一年后,注釋就開(kāi)始變得越來(lái)越長(zhǎng)。注釋數(shù)量也開(kāi)始穩(wěn)步增長(zhǎng)。1989年4月,WordNet中有37409個(gè)同義詞集合,沒(méi)有注釋;到1991年7月,WordNet包含44983個(gè)同義詞集合, 13688個(gè)注釋(30%);到1992年1月,WordNet包含49771個(gè)同義詞集合,19382個(gè)注釋(39%);到1993年1月,WordNet包含61023個(gè)同義詞集合,36880個(gè)注釋(60%);到1994年1月,WordNet中包含79542個(gè)同義詞集合,58705個(gè)注釋(74%);到1995年1月,WordNet包括了91050個(gè)同義詞集合,同時(shí)包含了75389個(gè)注釋(占同義詞集合數(shù)量的83%)。<br>
<br>
· WordNet的研究人員一直把WordNet視作一個(gè)試驗(yàn),而不是一個(gè)產(chǎn)品。因此當(dāng)WordNet中的詞語(yǔ)足夠多的時(shí)候,他們就把WordNet向?qū)W術(shù)界免費(fèi)公開(kāi)了。Randee Tengi監(jiān)督了WordNet一系列版本的發(fā)行。WordNet 1.0版是1991年7月公布的;1.1版是在1991年8月公布的;1.2版是在1992年4月公布的;1.3版是在1992年12月公布的;1.4版是在1993年8月公布的;1.5版是在1995年3月公布的。目前加入WordNet郵件列表的個(gè)人和單位超過(guò)1000個(gè)。諸多研究人員下載了WordNet,并在各個(gè)不同的方面使用它。<br>
<br>
· 對(duì)WordNet提供過(guò)資金支持的包括:海軍研究室(Office of Naval Research),高級(jí)研究計(jì)劃署(Advanced Research Projects Agency),James S. McDonnell基金,以及最近的語(yǔ)言學(xué)數(shù)據(jù)協(xié)作會(huì)(Linguistic Data Consortium)。</p>
</body>
</html>
?? 快捷鍵說(shuō)明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -