中國語料庫研究的歷史與現(xiàn)狀

時(shí)間：2024-01-31 11:32:50 馮志偉1由分享

語言學(xué)的研究必須以語言事實(shí)作為根據(jù)，必須詳盡地、大量地占有材料，才有可能在理論上得出比較可靠的結(jié)論。傳統(tǒng)的語言材料的搜集、整理和加工完全是靠手工進(jìn)行的，這是一種枯燥無味、費(fèi)力費(fèi)時(shí)的工作。計(jì)算機(jī)出現(xiàn)后，人們可以把這些工作交給計(jì)算機(jī)去作，大大地減輕了人們的勞動(dòng)。后來，在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法，形成了一門新的學(xué)科——語料庫語言學(xué)（corpus linguistics），并成為了自然語言處理的一個(gè)分支學(xué)科。

語料庫語言學(xué)主要研究機(jī)器可讀自然語言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語法標(biāo)注、句法語義分析，以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風(fēng)格分析、自然語言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用。多年來，機(jī)器翻譯和自然語言理解的研究中, 分析語言的主要方法是句法語義分析。因此，在很長一段時(shí)間內(nèi)，許多系統(tǒng)都是基于規(guī)則的，而根據(jù)當(dāng)前計(jì)算機(jī)的理論和技術(shù)的水平很難把語言學(xué)的各種事實(shí)和理解語言所需的廣泛的背景知識(shí)用規(guī)則的形式充分地表達(dá)出來，這樣，這些基于規(guī)則的機(jī)器翻譯和自然語言理解系統(tǒng)只能在極其受限的某些子語言（sub- language）中獲得一定的成功。為了擺脫困境，自然語言處理的研究者者們開始對(duì)大規(guī)模的非受限的自然語言進(jìn)行調(diào)查和統(tǒng)計(jì)，以便采用一種基于統(tǒng)計(jì)的模型來處理大量的非受限語言。不言而喻，語料庫語言學(xué)將有可能在大量語言材料的基礎(chǔ)上來檢驗(yàn)傳統(tǒng)的理論語言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論，從而使我們對(duì)于自然語言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認(rèn)識(shí)。

本文首先簡要介紹國外語料庫的發(fā)展情況，然后，比較詳細(xì)地介紹中國語料庫的發(fā)展情況和主要的成績，使我們對(duì)于語料庫研究得到一個(gè)鳥瞰式的認(rèn)識(shí)。

一、國外語料庫概況

現(xiàn)在，美國Brown大學(xué)建立了BROWN語料庫（布朗語料庫），英國Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了 LOB 語料庫。歐美各國學(xué)者利用這兩個(gè)語料庫開展了大規(guī)模的研究，其中最引人注目的是對(duì)語料庫進(jìn)行語法標(biāo)注的研究。他們?cè)O(shè)計(jì)了基于規(guī)則的自動(dòng)標(biāo)注系統(tǒng) TAGGIT 來給布朗語料庫的 100 萬詞的語料作自動(dòng)標(biāo)注，正確率為 77%. 他們還設(shè)計(jì)了 CLAWS 系統(tǒng)來給 LOB 語料庫的100萬詞的語料作自動(dòng)標(biāo)注，根據(jù)統(tǒng)計(jì)信息來建立算法，自動(dòng)標(biāo)注正確率達(dá) 96%, 比基于規(guī)則的 TAGGIT 系統(tǒng)提高了將近 20%. 最近他們同時(shí)考察三個(gè)相鄰標(biāo)記的同現(xiàn)頻率，使自動(dòng)語法標(biāo)注的正確率達(dá)到 99.5%。這個(gè)指標(biāo)已經(jīng)超過了人工標(biāo)注所能達(dá)到的最高正確率。

現(xiàn)在，國外的主要語料庫還有：

London-Lund口語語料庫：收篇目87篇，每篇5000詞，共為43.4萬詞，有詳細(xì)的韻律標(biāo)注(prosodic marking)。

AHI語料庫：美國Heritage出版社為編纂Heritage詞典而建立，有400萬詞。

OTA牛津文本檔案庫（Oxford Text Archive）：英國牛津大學(xué)計(jì)算中心建立，有10億字節(jié)。

BNC英國國家語料庫(British National Corpus)：1995年正式發(fā)布，使用TEI編碼(Text Encoding Initiative)和SGML通用標(biāo)準(zhǔn)置標(biāo)語言的國際標(biāo)準(zhǔn)(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。

ACL/DCI美國計(jì)算語言學(xué)學(xué)會(huì)數(shù)據(jù)采集計(jì)劃：美國計(jì)算語言學(xué)學(xué)會(huì)(The association for Computational Linguistics, ACL)倡議的數(shù)據(jù)采集計(jì)劃(Data Collection Initiative, DCI)，其宗旨是向非贏利的學(xué)術(shù)團(tuán)體提供語料，以免除費(fèi)用和版權(quán)的困擾，用標(biāo)準(zhǔn)通用置標(biāo)語言SGML統(tǒng)一置標(biāo)，以便于數(shù)據(jù)交換。

LDC語言數(shù)據(jù)聯(lián)合會(huì) (Linguistic data Consortium): 設(shè)在美國賓州大學(xué)，實(shí)行會(huì)員制，有163 個(gè)語料庫 (包括Text的以及 speech的)，共享語言資源。

RWC日語語料庫：日本新情報(bào)處理開發(fā)機(jī)構(gòu)RWCP研制，包括《每日新聞》4年的全文語料，語素標(biāo)注量達(dá)1億條。

亞洲各語種對(duì)譯作文語料庫：日本國立國語研究所研制，中野洋主持，北京外國語大學(xué)參加。

為了推進(jìn)語料庫研究的發(fā)展，歐洲成立了TELRI和ELRA等專門學(xué)會(huì)。TELRI 是跨歐洲語言資源基礎(chǔ)建設(shè)學(xué)會(huì)(Trans-European Language Resources Infrastructure )的首字母縮寫，John Sinclair擔(dān)任主席，由歐洲共同體提供經(jīng)費(fèi)，其目的在于建立歐洲諸語言的語料庫，現(xiàn)已經(jīng)建成柏拉圖(Plato)的《理想國》(Politeia) 多語語料庫，建立了計(jì)算工具和資源的研究文檔TRACTOR (Research Archive of Computational Tools and Resources)，正在語料庫的基礎(chǔ)上建立歐洲語言詞庫EUROVOCA。TELRI每年召開一次Seminar 。最近的一次Seminar在Lubljana, (Slovenia)召開(22.September – 26.September.2000)，主題是從語料庫中自動(dòng)抽取知識(shí)（Automatic knowledge extraction）。ELRA是歐洲語言資源學(xué)會(huì) (European Language Resources Associationi)的首字母縮寫，由Zampolli擔(dān)任主席， ELRA負(fù)責(zé)搜集、傳播語言資源并使之商品化，對(duì)于語言資源的使用提供法律支持。ELRA建立了歐洲語言資源分布服務(wù)處ELDA (European Language resources Distribution Agency)，負(fù)責(zé)研制并推行ELRA的戰(zhàn)略和計(jì)劃。ELRA還組織語言資源和評(píng)價(jià)國際會(huì)議LREC (Language Resources & Evaluation Congress), 每兩年一次。第一次會(huì)議于1998年在西班牙的Grenade舉行；第二次會(huì)議在Athens（Greece）召開（31.May – 02.June.2000），第三次會(huì)議于2002年在西班牙的Las Palmas de Gran Canaria 召開(27.May – 02.June 2002)。

二、我國語料庫的發(fā)展概況

（一）早期的漢語語料庫

1、我國語料庫研究的先河

在我國，從20世紀(jì)20年代開始，就有學(xué)者建立文本的語料庫，采用統(tǒng)計(jì)的方法來研究漢字的頻率，其目的在于制定基礎(chǔ)漢字的字表。當(dāng)然，這樣的語料庫不是機(jī)器可讀的，規(guī)模也很小，它是現(xiàn)代語料庫的雛形，開我國語料庫研究的先河，在我國語料庫的發(fā)展史上是功不可沒功的。著名教育學(xué)家陳鶴琴為了教學(xué)的目的，在對(duì)語料統(tǒng)計(jì)的基礎(chǔ)上，編寫了《語體文應(yīng)用字匯》，于1925年完成，于1928年由商務(wù)印書館出版，陳書前有“緒論”，說明“ 中文應(yīng)用字匯”曾有多種，其中包括P.克侖茨(Pastor P. Kronz)的研究和他自己的編寫的《常用四千字表》。陳鶴琴做過兩次統(tǒng)計(jì)，第一次統(tǒng)計(jì)使用了六種材料，包含554,478個(gè)漢字的語料，得不同漢字 4261個(gè)；第二次使用包含34,818個(gè)漢字的語料，得出與4261個(gè)漢字相異的漢字458個(gè)。第二次統(tǒng)計(jì)所得的成果毀于戰(zhàn)火，在《語體文應(yīng)用字匯》中印出的只是第一次統(tǒng)計(jì)的結(jié)果。

陳鶴琴用的語料分如下六類：

兒童用書：127,293字；

報(bào)刊（以通俗報(bào)刊為主）：153,344字；

婦女雜志：90,142字；

小學(xué)生課外作品：51,807字；

古今小說：71,267字；

雜類：60,625字。

書末附有“字?jǐn)?shù)次數(shù)對(duì)照表”，這是按漢字在語料中出現(xiàn)的絕對(duì)頻率排列的字表。

我國著名教育家陶行知先生為《語體文應(yīng)用字匯》寫了序言。序言中說：“他們（指“近代教育家”）對(duì)于一門一門的功課，甚至一篇文章，一個(gè)算題，一項(xiàng)運(yùn)動(dòng)，都要依據(jù)目標(biāo)去問他們的效用。他們的主張是要所學(xué)的，即是所用的。......到了后來他們連學(xué)生學(xué)的字也要審查起來了。學(xué)生現(xiàn)在所學(xué)的字，個(gè)個(gè)字都是有用的字嗎？自從這個(gè)問題發(fā)生就有好幾位學(xué)者開始研究應(yīng)用字匯。我國方面也有幾位先生研究這個(gè)問題，其中以陳鶴琴先生的研究最有系統(tǒng)。他和他的助理九人先后費(fèi)了二三年工夫，檢查了幾十萬字的語體文，編成這本《語體文應(yīng)用字匯》。這冊(cè)報(bào)告未付印以前已經(jīng)做了《平民千子課》用字的根據(jù)。將來小學(xué)課本用字當(dāng)然也可以拿他來做一個(gè)很好的根據(jù)。雖然不能十分完備，但我想這本字匯對(duì)于成人及國民教育一定是有很大的貢獻(xiàn)的。”（見陳鶴琴《語體文應(yīng)用字匯》，商務(wù)印書館，1928年）。

2、早期的機(jī)器可讀語料庫

從1979年以來，中國就開始進(jìn)行機(jī)器可讀語料庫的建設(shè)，早期在中國建立的主要的機(jī)器可讀語料庫有：

漢語現(xiàn)代文學(xué)作品語料庫（1979年），527萬字，武漢大學(xué)。

現(xiàn)代漢語語料庫（1983年），2000萬字，北京航天航空大學(xué)。

中學(xué)語文教材語料庫（1983年），106萬8千字，北京師范大學(xué)。

現(xiàn)代漢語詞頻統(tǒng)計(jì)語料庫（1983年），182萬字，北京語言學(xué)院。

我們以北京語言學(xué)院的漢語詞頻統(tǒng)計(jì)語料庫來說明早期語料庫的情況。

1979年，北京語言學(xué)院（現(xiàn)在改名為“北京語言文化大學(xué)”）針對(duì)對(duì)外漢語教學(xué)的特點(diǎn)，把“現(xiàn)代漢語詞匯統(tǒng)計(jì)研究”作為重點(diǎn)科研課題，開始進(jìn)行規(guī)模較大的漢語單詞的頻率統(tǒng)計(jì)研究。

這項(xiàng)研究工作，采用人工與計(jì)算機(jī)相結(jié)合的方式，對(duì)179篇樣文、182萬字的語料進(jìn)行了詞語切分、詞頻統(tǒng)計(jì)和數(shù)據(jù)分析的工作，統(tǒng)計(jì)的總詞匯量為 1,315,752詞次，含不同單詞31,159個(gè)，其中包括十年制語文課本（52萬字，374,654詞次）的字頻和詞頻的定量分析，統(tǒng)計(jì)結(jié)果編成《現(xiàn)代漢語頻率詞典》出版。

他們選取的語料可以分為如下四類：

報(bào)刊政論：44萬字，占語料總量的24.4%。

科技和科普文章：29萬字，占語料總量的19.8%。

口語材料：20萬字，占語料總量的11.1%。

文學(xué)作品：89萬字，占語料總量的48.7%。

整個(gè)語料共182萬字。這樣容量的語料，在當(dāng)時(shí)已經(jīng)是比較大的語料庫了。

根據(jù)數(shù)理統(tǒng)計(jì)的原理，所統(tǒng)計(jì)的語料的總體個(gè)數(shù)必須達(dá)到一定足夠的數(shù)量，才能保證統(tǒng)計(jì)結(jié)果符合客觀實(shí)際。《現(xiàn)代漢語頻率詞典》的編者認(rèn)為，如果常用詞的出現(xiàn)頻率不低于百萬分之一，也就是在一百萬次的場合，常用詞的出現(xiàn)機(jī)會(huì)至少應(yīng)該有一次，就可以保證統(tǒng)計(jì)結(jié)果的客觀性?！冬F(xiàn)代漢語頻率詞典》實(shí)際上統(tǒng)計(jì)了 182萬個(gè)漢字的語料，因此，其抽樣是合理的、經(jīng)濟(jì)的、適度的。

但是，國外在1971年進(jìn)行英語詞頻統(tǒng)計(jì)時(shí)，所用語料量有5,088,721個(gè)詞，包含不同單詞86,741個(gè)，統(tǒng)計(jì)規(guī)模比《現(xiàn)代漢語頻率詞典》大得多。由于語料庫語言學(xué)的發(fā)展，語料庫的容量不斷擴(kuò)大，現(xiàn)在，數(shù)千萬詞甚至于數(shù)億詞的語料庫已經(jīng)不算少見。與當(dāng)前語料庫的容量比較起來，《現(xiàn)代漢語頻率詞典》所依據(jù)的語料規(guī)模是小了一些。不過，盡管這樣，《現(xiàn)代漢語頻率詞典》在詞頻統(tǒng)計(jì)方面取得的成績?nèi)匀皇呛艽蟮摹?/p>

這次詞頻統(tǒng)計(jì)得出了如下詞表：

1、按字母音序排列的頻率詞表：共列出常用詞16,593個(gè)，按音序排列，從中可以看出：

漢語中以Z、S、J、Y開頭的詞較多：以Z開頭的詞有1457個(gè)，占8.78%；以S開頭的詞有1327個(gè)，占7.99%；以J開頭的詞有1243個(gè)，占7.49%；以Y開頭的詞有1205個(gè)，占7.26%。

漢語中以E、O開頭的詞很少：以E開頭的詞只有64個(gè)，占0.38%；以O(shè)開頭的詞只有13個(gè)，占0.07%。

2、按頻率遞減的順序排列的詞表：在詞表中，最常用詞的使用頻率相當(dāng)高，前100個(gè)詞占了語料總量的40%以上，前500個(gè)詞占了語料總量的70% 以上，前2562個(gè)詞占了語料總量的85%，詞表共有不同單詞31,159個(gè)，這些詞占了語料總量的100%。從前100個(gè)詞到前500個(gè)詞，不同的單詞數(shù)增加了400個(gè)，百分比就增加了30%，而從前2562個(gè)詞到前31,159個(gè)詞，不同單詞數(shù)增加了30,597個(gè)，百分比材增加了15%。由此可見，高頻詞對(duì)于百分比的增加有著很大的作用，而低頻詞對(duì)于百分比的增加，其作用是微乎其微的，往往要大量的低頻詞，才能使百分比增加一點(diǎn)點(diǎn)。

3、按使用度遞降順序排列的詞表：

使用度是1954年尤蘭德(Juilland)和洛德西蓋(Chang-Rodsiguez)在計(jì)算西班牙語的詞匯頻率時(shí)提出的一個(gè)新概念,他們并且也提出了計(jì)算使用度的數(shù)學(xué)公式，根據(jù)這個(gè)使用度公式計(jì)算出的使用度，可以綜合地反映單詞在出現(xiàn)頻率和分布率兩方面的情況。

他們根據(jù)使用度的計(jì)算公式，計(jì)算了單詞的使用度，并給出了按使用度遞降順序排列的詞表。這個(gè)詞表又分為兩個(gè)表：使用度較高的前8000詞的詞表，使用度較低的詞語單位表。

在使用度較高的前8000詞的詞表中，使用度在20以上的詞共4186個(gè)，其詞次累計(jì)占了全部語料（314,404詞次）的90.1%。這說明，《現(xiàn)代漢語頻率詞典》所統(tǒng)計(jì)的語料中，有十分之九是用這4186個(gè)詞寫成的，這些詞可以成為“常用詞”的候選對(duì)象。

在使用度較低的詞語單位表中，收入了使用度為5及小于5的詞22,446個(gè)，這些詞一般也都是低頻詞。在這種情況下，如果有的詞的使用度和頻率相匹配，則說明這些詞的分布還是比較均勻的，這些詞可以作為“通用詞”的候選對(duì)象。

4、按語體分類的高頻詞表，又可再分為4個(gè)表：

a.報(bào)刊政論語體的前4000詞的詞表：本表共統(tǒng)計(jì)34種語料，29萬詞次(44萬字)，有不同詞條數(shù)12,107個(gè)。前4000個(gè)詞累計(jì)頻率94.77%。其中一些政治詞語，如“唯心、黨派”等，在本表中出現(xiàn)頻率都比較高，反映了政論語體的特點(diǎn)。

b.科普語體的前4000詞的詞表：本表共統(tǒng)計(jì)21種語料，20萬詞次(29萬字)，有不同詞條12,364個(gè)。前4000個(gè)詞累計(jì)頻率92.27%。其中一些科技用語，如“纖維、合成”等，在本表中出現(xiàn)頻率都比較高，反映了科普語體的特點(diǎn)。

c.生活口語中前4000詞的詞表：本表共統(tǒng)計(jì)18種語料，16萬詞次(20萬字)，有不同詞條8263個(gè)。前4000個(gè)詞的累計(jì)頻率為 96.65%。從統(tǒng)計(jì)數(shù)字可以看出，口語語體的用詞量比前兩種語體要少三分之一，但高頻詞出現(xiàn)的詞次卻相當(dāng)多，前1000個(gè)高頻詞的出現(xiàn)頻率比a表高出 6%，比b表高出12%。這意味著，口語語體的用詞量雖然不大，但是它們的出現(xiàn)次數(shù)對(duì)語料的覆蓋面卻相當(dāng)大。

d.文學(xué)作品類前4000高頻詞的詞表：本表共統(tǒng)計(jì)106種語料，66萬詞次(89萬字)，有不同詞條23,622個(gè)。前4000個(gè)高頻詞累計(jì)頻率為90.63%。這說明文學(xué)作品的用詞量大，但是為了追求用詞的多樣化，即使是高頻詞的出現(xiàn)頻率也比較低，這反映了文學(xué)作品詞匯豐富多采的特點(diǎn)。

早期的這些語料庫的具有如下特點(diǎn)：

①多數(shù)是采用手工鍵入的方式建立的，耗時(shí)耗力，缺乏規(guī)范，規(guī)模較小，重用性差。為了建設(shè)這樣的語料庫，需要付出艱辛的勞動(dòng)，著名專家劉源教授（北京航空航天大學(xué)計(jì)算機(jī)系教授）在2000萬字的語料庫建設(shè)中積勞成疾，健康受到嚴(yán)重的損害。我國語料庫的早期建設(shè)者的敬業(yè)精神是值得我們尊敬的。

②發(fā)現(xiàn)了漢語文本切分歧義的兩種類型：北航和北語的語料庫進(jìn)行了詞頻統(tǒng)計(jì)，北航還進(jìn)行了自動(dòng)分詞研究，發(fā)現(xiàn)了兩種不同的分詞歧義字段（Ambiguous Segmentation Strings, ASSs）：交集型歧義字段和多義組合型歧義字段。

交集型歧義切分字段：例如：“地面積”可能切為“地面”或“面積”，“面”成為交段，從而產(chǎn)生歧義。

多義組合型歧義切分字段：例如：“馬上”本身是一個(gè)詞，但也可以切為“馬”+“上”兩個(gè)單詞，而“馬上”與“馬”+“上”的含義不同。

梁南元（1987）對(duì)一個(gè)48092字的自然科學(xué)、社會(huì)科學(xué)樣本進(jìn)行了統(tǒng)計(jì)：交集型切分歧義518個(gè), 多義組合型切分歧義42個(gè)。據(jù)此推斷，中文文本中切分歧義的出現(xiàn)頻度約為1.2次/100字，交集型切分歧義與多義組合型切分歧義的出現(xiàn)比例約為12:1。

③建立了初步的分詞規(guī)范：1990年10月，在計(jì)算機(jī)界和語言學(xué)界的共同努力下，我國制定了國家標(biāo)準(zhǔn)GB-13715《信息處理用現(xiàn)代漢語分詞規(guī)范》，這個(gè)國家標(biāo)準(zhǔn)提出了確定漢語單詞切分的原則，是漢語書面語自動(dòng)切詞的重要依據(jù)。

（二）國家級(jí)語料庫的建設(shè)

1991年，國家語言文字工作委員會(huì)開始建立國家級(jí)的大型漢語語料庫，以推進(jìn)漢語的詞法、句法、語義和語用的研究，同時(shí)也為中文信息處理的研究提供語言資源，計(jì)劃其規(guī)模將達(dá)7000萬漢字，當(dāng)時(shí)宣稱，這將成為世界上最大的漢語語料庫。這個(gè)語料庫是均衡語料庫。其語料要經(jīng)過精心的選材，語料的選材應(yīng)受到如下限制：

①時(shí)間的限制：語料描述具有歷時(shí)特征，著重描述共時(shí)特征。選取從1919年到當(dāng)代的語料（分為5個(gè)時(shí)期），以1977年以后的語料為主。

②文化的限制：主要選取受過中等文化教育的普通人能理解的語料。

③使用領(lǐng)域的限制：語料由人文與社會(huì)科學(xué)類、自然科學(xué)類和綜合類3大部分，人文和社會(huì)科學(xué)再分為8大類29小類，自然科學(xué)再分為6大類，綜合類再分為2大類。主要選取通用的語料，優(yōu)先選取社會(huì)科學(xué)和人文科學(xué)的語料。

這個(gè)語料庫現(xiàn)在只完成了2000萬字語料的輸入和校對(duì)工作，尚未進(jìn)行進(jìn)一步的加工，還是“生語料庫”，因而還不能提供社會(huì)使用。由于主要靠手工錄入，人工勞動(dòng)的成本很高，據(jù)說單是建立生語料庫，耗資約200萬人民幣。

為了加工這個(gè)國家級(jí)語料庫，國家社科基金設(shè)立了社科重大項(xiàng)目“信息處理用現(xiàn)代漢語詞匯研究”，希望利用該項(xiàng)目的成果來加工這個(gè)語料庫。該課題分10個(gè)子課題：

①信息處理用現(xiàn)代漢語分詞詞表

②歧義切分與專有名詞識(shí)別軟件

③詞的構(gòu)造研究

④現(xiàn)代漢語詞類及標(biāo)記集規(guī)范

⑤漢語詞類兼類研究

⑥現(xiàn)代漢語的語法屬性描述研究

⑦現(xiàn)代漢語述語動(dòng)詞機(jī)器詞典和槽關(guān)系研究

⑧漢語知識(shí)詞典建立及詞匯內(nèi)部語義網(wǎng)絡(luò)描述研究

⑨漢語文本短語結(jié)構(gòu)的人工標(biāo)注

⑩常用動(dòng)詞語義特征及詞義搭配研究

現(xiàn)在，該課題已經(jīng)結(jié)項(xiàng)，國家語委語言文字應(yīng)用研究所成立了“漢語語料庫深加工”的課題組，準(zhǔn)備對(duì)國家級(jí)語料庫的2000萬字的核心語料進(jìn)行深加工，逐步把這個(gè)生語料庫變?yōu)槭煺Z料庫。

（三）大規(guī)模真實(shí)文本語料庫

1992年以來，大量的語料庫在中國研究中文信息處理的單位建立起來，語料庫成為了研究中文信息處理的基本語言資源。沒有語料庫的支持，中文信息處理的研究將會(huì)寸步難行。建設(shè)大規(guī)模真實(shí)文本語料庫的單位有：《人民日?qǐng)?bào)》光盤數(shù)據(jù)庫，北京大學(xué)計(jì)算語言學(xué)研究所，北京語言文化大學(xué)，清華大學(xué)，山西大學(xué)，上海師范大學(xué)，北京郵電大學(xué)，香港城市理工大學(xué)，東北大學(xué)，哈爾濱工業(yè)大學(xué)，中國科學(xué)院軟件研究所，中國科學(xué)院自動(dòng)化所，北京外國語大學(xué)日本學(xué)研究中心，臺(tái)灣中央研究院語言研究所（籌備處）。下面分別加以介紹。

1、《人民日?qǐng)?bào)》光盤數(shù)據(jù)庫

收集該報(bào)48年的全部文字和圖像內(nèi)容，公開發(fā)行。

2、北京大學(xué)計(jì)算語言學(xué)研究所

該研究所建立了現(xiàn)代漢語標(biāo)注語料庫，與富士通公司（Fujitsu）合作，加工2700萬字的《人民日?qǐng)?bào)》語料庫，加工項(xiàng)目包括詞語切分、詞性標(biāo)注、專有名詞（專有名詞短語）標(biāo)注。還要對(duì)多音詞注音。

示例1：古城/n 雖/c 遭/v 破壞/v ，/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ，/w 特別/d 是/v 漢族/nz 勞動(dòng)/vn 人民/n 共同/d 開拓/v 祖國/n 北疆/s ，/w 創(chuàng)造/v 我國/r 歷史/n 文明/n 的[de5]/u 足跡/n 。/w

示例2：19970310-01-002-0020/m [全國/n 人大/j]nt 代表/n 、/w [陜西/ns 西安/ns 美術(shù)/n 學(xué)院/n]nt 名譽(yù)/n 院長/n 劉/nr 文西/nr 利用/v 會(huì)議/n 休息/vn 時(shí)間/n 創(chuàng)作/v 了/u 鄧/nr 小平/nr 畫像/n 《/w 與/p 人民/n 同/d 在/v 》/w 。/w 畫像/n 表現(xiàn)/v 了/u 鄧/nr 小平/nr 同志/n 祝愿/v 祖國/n 繁榮/a 、/w 人民/n 幸福/a 的/u 偉大/a 胸懷/n 。/w （/w 新華社/nt 記者/n 齊/nr 鐵硯/nr 攝/v ）/w

示例3：19970310-01-003-0020/m 世紀(jì)/n 之/u 交/Ng ，/w 中華/nz 民族/n 正/d 迎來/v 前所未有/i 的/u 發(fā)展/vn 機(jī)遇/n 。/w 十幾/m 年/q 來/f ，/w 改革/v 開放/v 的/u 不斷/d 深入/v ，/w 黨/n 的/u 民族/n 政策/n 的/u 貫徹/vn 落實(shí)/vn ，/w 全國/n 人民/n 的/u 大力/d 支援/v ，/w 使/v 我國/r 民族/n 地區(qū)/n 經(jīng)濟(jì)/n 和/c 社會(huì)/n 發(fā)展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍視/v 和/c 繼續(xù)/vd 發(fā)展/v 這種/r 好/a 的/u 局面/n ，/w 鞏固/v 發(fā)展/v 各/r 民族/n 大/a 團(tuán)結(jié)/an ，/w 成為/v 全國/n 各族/r 人民/n 的/u 共同/b 愿望/n ，/w 也是/v 在/p 京/j 參加/v “/w 兩會(huì)/j ”/w 的/u 代表/n 和/c 委員/n 的/u 一致/a 心愿/n 。/w

經(jīng)富士通公司檢驗(yàn)，標(biāo)注的正確率很高。

他們制訂《現(xiàn)代漢語語料庫加工手冊(cè)——詞語切分與詞性標(biāo)注》。切分規(guī)范中，主要規(guī)定現(xiàn)代漢語的切詞原則，即什么樣的漢字組合可以為一個(gè)切分單位。他們采用切分和標(biāo)注相結(jié)合的原則來建立規(guī)范，在漢語中，像“雙音節(jié)動(dòng)詞＋單音節(jié)名詞”通常構(gòu)成新的名詞，對(duì)于這個(gè)新的名詞，即使在詞典中沒有登錄，也應(yīng)該把它們處理為一個(gè)切分單位。因此，在該規(guī)范中，給出了一些基于詞性描述的構(gòu)詞規(guī)律，規(guī)定了什么樣的組合可以處理為一個(gè)切分單位，并給出了新組合的詞的詞性標(biāo)記。在標(biāo)注規(guī)范中，規(guī)定了一般詞性的標(biāo)注規(guī)范和專有名詞的規(guī)范。

此外，他們還建立了一個(gè)小型漢語樹庫：與新加坡國立大學(xué)計(jì)算機(jī)系合作，內(nèi)容為新加坡中學(xué)語文教材（1995年），所有的句子都分析為樹形圖。

示例：

[zj [dj 富士山/n [vp 是/v [np 日本/n 的/u [np [mp 一/m 座/q ] 活火山/n ]]]] 。/w ] [zj [fj [fj [dj 山峰/n [vp 終年/d 積雪/v ]] ，/w [dj 云霧/n 圍繞/v ]] ，/w [vp 只有/d [vp [pp 在/p [np [dj 空氣/n 干燥/a ] 的/u [np [np 秋/n 冬/n ] [np 兩/m 季/Ng ]]]] ，/w [vp 才/d [vp 能/v [vp [vbar 看/v 清/a ] [np 它/r 的/u 全貌/n ]]]]]]] 。/w ]

[zj [fj [dj [np [vbar 多/d 變/v ] 的/u 氣候/n ] ，/w [vp 更/d [vp [pp 為/p 它/r ] [vp [vbar 增添/v 了/u ] [np 神秘/a 的/u 色彩/n ]]]]] ，/w [vp 甚至/d [vp 使/v 它/r [vp [vbar 孕育/v 了/u ] [np 許多/m [np 美麗/a 的/u 神話/n ]]]]]] 。/w ]

[zj [dj [np 富士山/n 的/u 景色/n ] ，/w [dj 四季/t 不同/a ]] 。/w ]

[zj [fj [fj [fj [fj 春天/t ，/w [fj [dj 山頂/s [vp 還/d [vp [vbar 戴/v 著/u ] [np 雪/n 帽子/n ]]]] ，/w [fj [dj [dj [np 山腰/n 的/u 雪/n ] [vp 卻/d 溶化/v ]] 了/y ] ，/w [fj [dj [np 細(xì)碎/a 的/u [np 小/a 花/n ]] [vp 開遍/v 山坡/n ]] ，/w [vp [vbar 遠(yuǎn)/a 看/v ] [vp 象/v [np [mp 一/m 片/q ] [np 紫色/n 的/u 海洋/n ]]]]]]]] ，/w [fj 夏天/t ，/w [fj [dj [np [np 殘/Vg 雪/n ] 與/c [np 山/n 花/n ]] [vp 倒映/v [sp 湖/n 中/f ]]] ，/w [vp 充滿/v 詩情畫意/n ]]]] ，/w [fj 秋天/t ，/w [fj [dj [np [np [np 滿/a 山/n ] 紅葉/n ] 與/c [np 雪/n 影/Ng ]] 輝映/v ] ，/w [vp 象/v [np 個(gè)/q [np 嬌羞/a 的/u 姑娘/n ]]]]]] ，/w [fj [dj 冬天/t [dj 則/c [vp 是/v [np [ap 純/a 白/a ] 的/u [mp 一/m 片/q ]]]]] ，/w [ap 莊嚴(yán)/a 而/c 圣潔/a ]]] 。/w ]

北大語料庫研究的特色是：

①規(guī)模大：加工成的熟語料已經(jīng)達(dá)到2000萬字，不久將達(dá)到2700萬字，國內(nèi)尚無先例。

②加工深：不僅做了切分和詞性標(biāo)注，而且部分語料還進(jìn)行了短語結(jié)構(gòu)分析，建立了樹庫。在大規(guī)模的語料庫中，地名和專有名詞都進(jìn)行了短語結(jié)構(gòu)標(biāo)注。

③覆蓋面廣：人民日?qǐng)?bào)的語料不僅包括新聞，還包括各種題材、各種風(fēng)格、各種語體的文章，涉及社會(huì)科學(xué)和自然科學(xué)多種領(lǐng)域，有很廣泛的覆蓋面。

④正確率高：在自動(dòng)加工的基礎(chǔ)上進(jìn)行了大量的人工加工，采用人機(jī)結(jié)合的策略，是語料庫加工的正確率達(dá)到了國內(nèi)最高水平，在國際上也是罕見的。

⑤無著作權(quán)糾紛：與《人民日?qǐng)?bào)》達(dá)成協(xié)議，沒有著作權(quán)問題。

3、北京語言文化大學(xué)

該校計(jì)算機(jī)系宋柔在遠(yuǎn)景校對(duì)系統(tǒng)的研究、開發(fā)和測試過程中一直注重采用大規(guī)模真實(shí)語料進(jìn)行各種語言現(xiàn)象的統(tǒng)計(jì)、分析、檢索、歸納。為此，他們與一些報(bào)社、出版社合作，收集、整理了一批綜合性、規(guī)范性的電子文檔資料，建立了一個(gè)大型的中文語料庫（共約5億字）。在獲取語料后，又專門用工具軟件或人工加工清理了語料，分別建立了10個(gè)語料庫。各語料庫情況如下：

《當(dāng)代中國叢書》：150卷（約6千萬漢字）

《中華人民共和國年鑒》：1997年語料（約200萬漢字）

《新聞出版報(bào)》：1988年語料（約260萬漢字）

《輝煌五十年湖南卷》：1949-1999年語料（約70萬漢字）

《人民日?qǐng)?bào)》：1993-2000年七年語料（約2億字）

《人民日?qǐng)?bào) 市場報(bào)》：2000年語料（約1400萬漢字）

《人民日?qǐng)?bào) 華南新聞：2000年語料（約600萬漢字）

《人民日?qǐng)?bào) 華東新聞》：2000年語料（約500萬漢字）

《經(jīng)濟(jì)日?qǐng)?bào)》：1992年語料（約1820萬字）

《新華社》：1994-1996年三年語料（約3793萬字）

宋柔還建立了面向語言學(xué)研究的漢語語料庫檢索系統(tǒng)CCRL，可以讓用戶使用自己的生語料庫和詞典生成語料索引，進(jìn)行檢索。

此外，北京語言文化大學(xué)還建立了如下的語料庫：

當(dāng)代北京口語語料庫（1992年）

現(xiàn)代漢語語法研究語料庫（1995年）

現(xiàn)代漢語句型語料庫（1995年）

現(xiàn)代漢語語料庫（1998年，與香港理工大學(xué)中文及雙語學(xué)系聯(lián)合建立）

現(xiàn)代漢語語料庫（1998年，與清華大學(xué)聯(lián)合，為國家自然科學(xué)基金重點(diǎn)項(xiàng)目“語料庫語言學(xué)研究的理論、方法和工具”而建立）

4、清華大學(xué)

該大學(xué)也建立了現(xiàn)代漢語語料庫：1998年建立了1億漢字的語料庫，著重研究歧義切分問題?，F(xiàn)在生語料庫已達(dá)7-8億字。

他們還編制了信息處理用現(xiàn)代漢語分詞詞表，作為分詞最重要的語言資源。

中文系羅振聲建立了現(xiàn)代漢語句型研究語料庫，從中總結(jié)出209種漢語句型。

清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室與北京語言文化大學(xué)語言信息處理研究所聯(lián)合研發(fā)的人工標(biāo)注語料庫HuaYu。這個(gè)語料庫區(qū)別于其它類似語料庫的特點(diǎn):是：分布平衡, 不僅僅限于新聞報(bào)紙。

HuaYu的分布見表1：

分類篇數(shù) 漢字?jǐn)?shù) 比例標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù) 比例

文學(xué) 295 880,057 44% 148,453 760,337 48%

新聞 376 600,490 30% 86,163 438,095 28%

學(xué)術(shù) 29 402,623 20% 52,823 278,728 18%

應(yīng)用文 258 119,488 6% 28,727 91,929 6%

合計(jì) 958 2,002,658 100% 316,116 1,569,089 100%

表 1 Hua Yu語料庫的分布

其中文學(xué)語料的分布見表2：

分類篇數(shù) 漢字?jǐn)?shù) 百分比標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù)

小說 199 648,796 32.5% 112,749 566,730

散文 37 80,067 4% 10,347 65,453

回憶錄 29 50,401 2.5% 6,908 38,338

報(bào)告文學(xué) 13 50,019 2.5% 8,225 40,386

劇本 17 50,774 2.5% 10,224 49,430

合計(jì) 295 880,057 44% 148,453 760,337

表 2 文學(xué)語料的分布

他們對(duì)這個(gè)語料庫進(jìn)行了切分和標(biāo)注。

語料示例如下：

我|rn 認(rèn)識(shí)|vgn 王眉|npc 的|usd 時(shí)候|ng ，|，她|rn 十|mw 三|mx 歲|qnm ，|，我|rn 二|mx 十|mw 歲|qnm 。|。那時(shí)|t 我|rn 正|dr 在|pza 海軍|ng 服役|vgi ，|，是|vi 一|mx 條|qns 掃雷艦|ng 上|f 的|usd 三七|ng 炮手|ng 。|。她|rn 呢|y ，|，是|vi 個(gè)|qng 來|vgn 姥姥|ng 家|ng 度假|(zhì)vgi 的|usd 中學(xué)生|ng 。|。那|rn 年|qt 初夏|t ，|，我們|rn 載|vgn 著|utz 海軍|ng 學(xué)校|ng 的|usd 學(xué)員|ng 沿|pg 漫長|a 海岸線|ng 進(jìn)行|vf 了|utl 一|mx 次|qv 遠(yuǎn)航|vgx 。|。到達(dá)|vgn 了|utl 北方|s 著名|a 良港|ng 兼|vgn 避暑|vgp 勝地|ng ，|，在|pza 港|ng 外|f 和|pg 一|mx 條|qns 從|pg 南方|s 駛來|vgi 滿載|vgn 度假者|ng 的|usd 白色|ng 客輪|ng 并行|vgi 了|utl 一|mx 段|qns 時(shí)間|ng 。|。進(jìn)|vgn 港|ng 時(shí)|ng 我|rn 艦|ng 超越|vgn 了|utl 客輪|ng ，|，很|dd 親近|a 的|usd 擦|vgn 舷|ng 而|c 過|vgi 。|。興奮|a 的|usd 旅游者|ng 們|ki 紛紛|dr 從|pg 客艙|ng 出來|vgi ，|，擠|vgi 滿|a 邊舷|ng ，|，向|pg 我們|rn 揮|vgn 手|ng 呼喊|vgi ，|，我們|rn 也|dr 向|pg 他們|rn 揮|vgn 手|ng 致意|vgi 。|。

清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室最近對(duì)HuaYu完成了語塊庫人工標(biāo)注（200萬漢字左右），并根據(jù)句子中動(dòng)詞類型和句子長度等因素，從中隨機(jī)選取了20萬詞，進(jìn)行語塊標(biāo)注，并進(jìn)一步完成了完整的句法樹標(biāo)注。

語塊標(biāo)注示例如下：

[從/p [他/rN 的/u 身上/s ] ，/， [我們/rN [看/v 到/vB] 了/u ] [一/m 位/qN ] [跨越/v [中國/nS {CS 近代/t 和/c 現(xiàn)代/t } 的/u [共產(chǎn)主義/n 戰(zhàn)士/n ] [光彩照人/iV 的/u 楷模/n ] 。/。]

句法樹標(biāo)注示例如下：

[zj [dj [pp 從/p [sp 他/rN 的/u 身上/s ] ] ，/， [dj 我們/rN [vp [vp [vp 看/v 到/vB ] 了/u ] [np [np [mp 一/m 位/qN ] [np [vp 跨越/v [tp 中國/nS [tp 近代/t 和/c 現(xiàn)代/t ] ] ] 的/u [np 共產(chǎn)主義/n 戰(zhàn)士/n ] ] ] [np 光彩照人/iV 的/u 楷模/n ] ] ] ] ] 。/。

5、山西大學(xué)

他們根據(jù)不同的需要，建立如下不同的語料庫，主要有：

漢語新聞?wù)Z料庫（1988年），250萬字，山西大學(xué)，包括4部分：《人民日?qǐng)?bào)》：150萬字，《北京科技報(bào)》：20萬字；《電視新聞》（CCTV）：50萬字；《當(dāng)代》（雜志）：30萬字。

標(biāo)準(zhǔn)語料庫（2000年）：.以分詞規(guī)范和語委詞類標(biāo)記集為標(biāo)準(zhǔn)的綜合語料：70萬字，其中10萬字標(biāo)到了小類。

特定加工的語料：

-- 標(biāo)注中國地名：標(biāo)注了280萬字的語料庫（含不同地名1793個(gè)，共出現(xiàn)11590次），建立中國地名庫，共收88026個(gè)地名，同時(shí)建立中國地名用字庫（3685個(gè)）和中國地名用詞庫（3917個(gè)）。地名識(shí)別正確率為86.7%，召回率為93.8%。

-- 標(biāo)注中國人名：標(biāo)注了300萬字的語料庫，建立了姓氏人名庫，得出了姓氏用字頻率表（729個(gè)）和名字用字頻率表（3345個(gè)），中國人名識(shí)別的正確率為87.31%，召回率為95.23%。

-- 標(biāo)注西文譯名：標(biāo)注了250萬字的語料庫，西文譯名資源來自《英語姓名譯名手冊(cè)》和《新英漢詞典》的《常見英語姓名表》，正確率為63%，召回率為98%。。

-- 標(biāo)注中文組織機(jī)構(gòu)名：標(biāo)注了50萬字的語料庫，對(duì)組織機(jī)構(gòu)名的結(jié)構(gòu)進(jìn)行分析，使用基于規(guī)則的方法。

-- 標(biāo)注網(wǎng)上語料新詞語：標(biāo)注了150萬字的語料庫。

為了標(biāo)注交集型歧義字段，建立了7.8萬字的交集型歧義字段庫，已標(biāo)注510萬字語料，分詞正確率達(dá)97%以上，同時(shí)證實(shí)了交集型歧義字段只有惟一可能的正確切分結(jié)果的偽歧義，占歧義字段總數(shù)的94%。

他們還建立多義組合型歧義字段庫：收錄了133條多義組合型歧義字段，比較全面的反映了組合型歧義字段的實(shí)際情況。

6、上海師范大學(xué)

該校建立了3000萬字的生語料庫；根據(jù)北大的標(biāo)注規(guī)范建立了300萬字的標(biāo)注語料庫。他們還建立了100萬字《作家文摘》的標(biāo)注語料庫，選取1997年的《作家文摘》，題材包括傳記文學(xué)、歷史故事、記實(shí)文學(xué)、人物特寫、小說、散文、評(píng)論等，依靠手工進(jìn)行標(biāo)注，不僅完成了切詞和詞性標(biāo)注，還完成了短語結(jié)構(gòu)關(guān)系和結(jié)構(gòu)功能的標(biāo)注。加工層次深。

標(biāo)注示例：

[zw他/rp [db[zc期望/vz 著/ut]vp[db 打/vs [dz[sl一/mx 個(gè)/qi]mp[dz[zc 漂亮/ax 的/us]np[dz 大/ax 勝戰(zhàn)/ng]np]np]vp]vp]jp 。/w

其中的zw （主謂結(jié)構(gòu)）、db（動(dòng)賓結(jié)構(gòu)）、 dz（定中結(jié)構(gòu)）、sl（數(shù)量結(jié)構(gòu)）等都是結(jié)構(gòu)功能的標(biāo)記。

7、北京郵電大學(xué)的樹庫

他們?cè)诿绹鳯DC的漢語句法樹庫的基礎(chǔ)上進(jìn)行自動(dòng)獲取語法規(guī)則的研究。LDC的樹庫包含新華社1994到1998年的325篇文章，包含4185顆樹，10萬個(gè)詞。他們對(duì)LDC樹庫進(jìn)行了改造，語法規(guī)則和分析模型參數(shù)都是通過LDC樹庫統(tǒng)計(jì)和訓(xùn)練得到。在抽取規(guī)則之前，進(jìn)行了如下的預(yù)處理工作：

刪除所有空的單詞；

去掉所有的非終結(jié)符的功能標(biāo)記；

去掉哪些只有一個(gè)孩子結(jié)點(diǎn)，且此孩子結(jié)點(diǎn)是非終結(jié)符的結(jié)點(diǎn)。

在此基礎(chǔ)上進(jìn)行規(guī)則的自動(dòng)獲取，采用改進(jìn)的CYK算法自動(dòng)獲取了3690條規(guī)則，形式如下：

parent_symbol|current_symbol -> RHS1….RHSn log_probability

比如：NP|NP -> NN NN NN -0.879602

8、哈爾濱工業(yè)大學(xué)機(jī)器翻譯實(shí)驗(yàn)室(MT-Lab)的漢語語料庫

容量約1GB。

9、香港城市理工大學(xué)的對(duì)比語料庫

該大學(xué)語言資訊科學(xué)研究中心建立了LIVAC(Linguistic variety in Chinese communities)語料庫，其宗旨在于研究使用中文的各個(gè)地區(qū)使用語言的異同。這個(gè)語料庫從1993年開始策劃，在香港、澳門、上海、新加坡和臺(tái)灣五個(gè)不同的地區(qū)，每日選定一天的報(bào)紙摘錄其部分資料入庫，資料的內(nèi)容包括社論、第一版的全部新聞和文章、國際版、地方版、特寫、評(píng)論等。每天收集的份量約兩萬字，如果已經(jīng)達(dá)到兩萬字，不太重要的資料就只好割愛。從1995年 7月到1997年6月的兩年內(nèi)，該語料庫所收集的資料總字?jǐn)?shù)為15,234,551字,經(jīng)過自動(dòng)切詞和人工校對(duì)之后總詞數(shù)約為8,869,900詞。

統(tǒng)計(jì)結(jié)果表明，中文各地區(qū)所使用的詞語，以雙音節(jié)為最多，其次是三音節(jié)，再其次是四音節(jié)，再再其次是單音節(jié)，但是，單音節(jié)詞語的使用頻度卻比較高，僅次于雙音節(jié)詞語的頻度，而且遠(yuǎn)遠(yuǎn)超出其他音節(jié)詞語頻度之總合。

統(tǒng)計(jì)結(jié)果還表明，香港和澳門的用詞相同率最高，香港與臺(tái)灣、香港與新加坡的用詞相同率居第二，香港與上海的用詞相同率最低。從歷史背景和社會(huì)情況來看，這個(gè)數(shù)字是可以接受的。因?yàn)橄愀叟c澳門距離很近，又都長期被歐洲國家管制，香港與臺(tái)灣和新加坡的商務(wù)情況和社會(huì)結(jié)構(gòu)之間的相同點(diǎn)都比香港與上海之間多，這種情況，在詞語中必定會(huì)反映出來。

統(tǒng)計(jì)結(jié)果還表明，新加坡所用詞語比較少，而上海的特有詞語比較多，這似乎可以從新加坡華語并非當(dāng)?shù)厣鐣?huì)生活的唯一語言，而上海在中國的特殊地位和經(jīng)濟(jì)活動(dòng)非?；钴S有關(guān)。

10、臺(tái)灣的語料庫

臺(tái)灣建立了平衡語料庫（Sinica Corpus，中央研究院）和樹圖語料庫（Sinica Treebank，中央研究院）。兩個(gè)都是標(biāo)記語料庫，有一定加工深度。語料庫規(guī)模約500萬字。

（四）口語語料庫

1、中國社會(huì)科學(xué)院語言所

他們建立了現(xiàn)代自然口語語料庫，包括一個(gè)旅館預(yù)定口語語料庫，搜集了2小時(shí)電話的對(duì)話，對(duì)話人數(shù)200人以上，進(jìn)行韻律切分和句法標(biāo)注，是wav文件，用SAMPA-C標(biāo)音，C-ToBI 2.0標(biāo)注韻律，并轉(zhuǎn)寫成漢字文本；還包括一個(gè)無限制的自然對(duì)話語料庫：14.2小時(shí)的對(duì)話，對(duì)話人數(shù)22人，進(jìn)行韻律切分和句法標(biāo)注，是wav文件，用 SAMPA-C標(biāo)音，C-ToBI 2.0標(biāo)注韻律，并轉(zhuǎn)寫成漢字文本。

語言所還正在建立現(xiàn)代漢語方言自然口語語料庫，設(shè)計(jì)了1500種引導(dǎo)話題和多種采集自然口語的交際環(huán)境，其中，采用話題引導(dǎo)的方式采集的話題語料占60%，在說話人不知道的情況下現(xiàn)場采集的口語語料占40%。

2、中國科學(xué)院自動(dòng)化所

該所建立了一個(gè)旅游咨詢口語對(duì)話語料庫和一個(gè)旅館預(yù)定口語對(duì)話語料庫，可以用于限定領(lǐng)域的口語理解模型、口語對(duì)話管理模型、基于統(tǒng)計(jì)的口語翻譯技術(shù)等研究。

（五）雙語語料庫的建設(shè)

1、英漢雙語語料庫

北大計(jì)算語言學(xué)研究所的雙語語料庫，英漢對(duì)齊的句子已有5萬多對(duì)，并開發(fā)了相應(yīng)的對(duì)齊工具和雙語語料庫管理軟件。正在此基礎(chǔ)上做漢英對(duì)照短語庫，預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條。

哈爾濱工業(yè)大學(xué)的英漢雙語語料庫：1998年有3萬句子對(duì)，已經(jīng)進(jìn)行了詞性標(biāo)注，正在擴(kuò)充為40-50萬句子對(duì)，在句子、短語、詞匯三級(jí)實(shí)現(xiàn)雙語對(duì)齊。

東北大學(xué)的英漢雙語語段庫：在雙語語料庫基礎(chǔ)上，建造雙語語段庫，1999年構(gòu)造了10萬雙語語段庫，進(jìn)行了基于語段的英漢機(jī)器翻譯實(shí)驗(yàn)，正在以“ 機(jī)獲人校”的辦法建造100萬雙語語段庫，擬擴(kuò)充到500萬雙語語段庫，進(jìn)一步建造具有1000萬語段的大容量網(wǎng)上英漢語段電子詞典，研究電子詞典中搭配短語獲取算法，建造大容量網(wǎng)上電子英漢搭配詞典。

外語教學(xué)與研究出版社：

-- 英漢文學(xué)作品語料庫

-- 馮友蘭《中國哲學(xué)史》漢英對(duì)照語料庫

-- 李約瑟(Joself Needham)《中國科學(xué)技術(shù)史》英漢對(duì)照語料庫

國家語言文字工作委員會(huì)語言文字應(yīng)用研究所建立了英漢雙語語料庫，其中包括一個(gè)計(jì)算機(jī)專業(yè)的雙語語料庫和一個(gè)柏拉圖(Plato)哲學(xué)名著《理想國》（Politeia）的雙語語料庫。在這些雙語語料庫上，他們進(jìn)行了漢字極限熵的測定和雙語對(duì)齊的研究。

中國科學(xué)院軟件研究所的英漢雙語語料庫：進(jìn)行雙語對(duì)齊算法研究?，F(xiàn)有15萬對(duì)英漢雙語對(duì)齊句子庫，已經(jīng)切分和標(biāo)注。

中國科學(xué)院自動(dòng)化研究所的英漢雙語語料庫：購買 LDC香港新聞?dòng)h雙語對(duì)齊語料36294段以及香港法律英漢雙語對(duì)齊語料31萬句子對(duì)，并從英漢雙解詞典中摘取例句25000個(gè)句子對(duì)。

2、日漢對(duì)譯語料庫

北京外國語大學(xué)的北京日本學(xué)研究中心建立漢語和日語并行語料庫，內(nèi)容以中日文學(xué)名著為主，兼收劇本、散文、政論文，原文和譯文全文收錄，部分名著收入多個(gè)譯本。2000萬字。進(jìn)行自動(dòng)切分和詞性標(biāo)注，部分文本進(jìn)行語法和語義標(biāo)注，采用SGML國際標(biāo)準(zhǔn)。

3、德漢雙語語料庫

山東海洋大學(xué)語言文學(xué)院研制的《蝴蝶》（王蒙小說）德漢對(duì)照語料庫，用于德漢翻譯對(duì)比研究，完全采用手工方式排比語料，主要比較了漢語的“了”與德語動(dòng)詞完成式的關(guān)系。規(guī)模很小。

4、漢日英分類熟語料庫

復(fù)旦大學(xué)計(jì)算機(jī)系建立了容量為1GB漢日英分類熟語料庫，包含數(shù)千個(gè)類別，數(shù)十萬篇文章。

（六）少數(shù)民族語言語料庫

1、維吾爾語語料庫

新疆師范大學(xué)建立了200萬詞的維吾爾語語料庫，擬發(fā)展到300萬詞。

2藏語語料庫

中國社會(huì)科學(xué)院民族研究所建立了500萬藏語字符的藏語語料庫，擬進(jìn)行切分和標(biāo)注的研究。

3、蒙古語語料庫

內(nèi)蒙古大學(xué)建立了蒙古語語料庫，進(jìn)行了初步的切分和標(biāo)注。

三、語料庫的加工技術(shù)

（一）自動(dòng)切分

在自動(dòng)切分方面，提出的切分歧義技術(shù)有：“松弛法”（Fan C.K., Tsai W.H. 1988），“擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)”（黃祥喜 1989），“短語結(jié)構(gòu)文法”（梁南元 1990；姚天順、張桂平等 1990；Yeh C.L., Lee H.J. 1991；韓世欣、王開鑄 1992），“專家系統(tǒng)”方法（徐輝、何克抗等 1991），“神經(jīng)網(wǎng)絡(luò)”方法（徐秉錚、詹劍等，1993），“有限狀態(tài)自動(dòng)機(jī)”方法（Sproat R., Shih C.L et al. 1996），“隱Markov模型”（Lai B.Y., Sun M.S. et al 1997；沈達(dá)陽、孫茂松等 1997a；孫茂松、左正平等1999），“Brill式轉(zhuǎn)換法”（Palmer D.D. 1997）等。

此外還研究了人名識(shí)別技術(shù)、地名識(shí)別技術(shù)、機(jī)構(gòu)名識(shí)別技術(shù)、新詞語識(shí)別技術(shù)。

（二）自動(dòng)標(biāo)注

在自動(dòng)標(biāo)注方面，基于規(guī)則的方法主要解決標(biāo)注中的兼類詞問題；基于統(tǒng)計(jì)的方法主要有CLAWS算法、VOLSUNGA算法、HMM（隱馬爾可夫模型）、TBED法（Transformation-Based Error-Driven，Eric Brill于1993年提出的方法）

（三）自動(dòng)短語結(jié)構(gòu)標(biāo)注

短語結(jié)構(gòu)標(biāo)注的結(jié)果，可以用短語結(jié)構(gòu)語法樹 (P-Tree)來表示，也可以用依存樹（D-Tree）來表示，有的系統(tǒng)采用了從P-Tree到D-Tree的轉(zhuǎn)換技術(shù)，有的系統(tǒng)采用CYK算法進(jìn)行短語結(jié)構(gòu)分析。

（四）雙語對(duì)齊技術(shù)

主要采用基于長度的方法、基于詞典的方法以及把這兩種方法結(jié)合起來的混合方法。

四、語料庫建設(shè)中的若干問題

（一）語料庫的規(guī)范與標(biāo)準(zhǔn)

我國中文信息界從1988年開始研制《信息處理用現(xiàn)代漢語分詞規(guī)范》的國家標(biāo)準(zhǔn)，根據(jù)科學(xué)性、嚴(yán)謹(jǐn)性、穩(wěn)定性、通用性、實(shí)用性和完整性（規(guī)范對(duì)現(xiàn)代漢語語言現(xiàn)象的覆蓋率應(yīng)該達(dá)到99%以上），經(jīng)過三年時(shí)間的研究，七易其稿，于1992年批準(zhǔn)為國家標(biāo)準(zhǔn)，標(biāo)準(zhǔn)號(hào)為GB/T13715-92。這個(gè)規(guī)范的主體結(jié)構(gòu)分為主題內(nèi)容與適用范圍、引用標(biāo)準(zhǔn)、術(shù)語、概述和具體說明五個(gè)部分。由于漢語中語素、單詞和詞組的界限不夠清晰，分詞規(guī)范中除了基本上采用了《暫擬漢語教學(xué)語法系統(tǒng)》中詞的定義，把詞定義為“最小的獨(dú)立運(yùn)用的語言單位”之外，還特別地提出了“分詞單位”的概念，把“分詞單位”定義為“漢語信息處理使用的具有確定的語義或語法功能的基本單位”，并且指出，分詞單位“包括本規(guī)范限定的詞和詞組”。“分詞單位”的提出，巧妙地避開了關(guān)于詞的定義的爭論，協(xié)調(diào)了當(dāng)時(shí)學(xué)術(shù)界的矛盾。

我國還研制了《信息處理用現(xiàn)代漢語常用詞表》。由于漢語語言現(xiàn)象的極端復(fù)雜性，幾乎每條規(guī)則都會(huì)出現(xiàn)例外，因此，分詞規(guī)范提出了“結(jié)合緊密，使用穩(wěn)定”的原則作為判定一個(gè)符號(hào)串是否可以作為分詞單位的準(zhǔn)則。但是，這個(gè)原則不夠具體，實(shí)行起來往往見仁見智，從而造成不同系統(tǒng)中分詞單位的不一致。所以，后來有的學(xué)者建議在規(guī)范之外，還應(yīng)該根據(jù)規(guī)范提出一個(gè)詞表來作進(jìn)一步具體的說明，以利規(guī)范的實(shí)施。采用“規(guī)范+詞表”的策略，這是很有遠(yuǎn)見的做法。 1994年，該規(guī)范的主要制定者劉源教授等人根據(jù)現(xiàn)代漢語詞頻統(tǒng)計(jì)的結(jié)果，公布了一個(gè)《信息處理用現(xiàn)代漢語常用詞表》，收詞43570條，可惜，這個(gè)詞表對(duì)于規(guī)范中的一些難點(diǎn)，仍然沒有作出很好的處理，權(quán)威性不夠。

臺(tái)灣研制了一個(gè)《資訊處理用中文分詞規(guī)范》。臺(tái)灣的計(jì)算語言學(xué)會(huì)在1995年提出了《資訊處理用中文分詞規(guī)范》，這個(gè)規(guī)范提出三條基本原則：1.分詞單位必須符合語言學(xué)理論的要求；2.在信息處理上確實(shí)可行；3.能確保真實(shí)文本處理的一致性。另外還制定了一些輔助原則（合并原則、切分原則），以決定合并還是切分。該規(guī)范按照分詞的難易程度，把分詞規(guī)范分為信、達(dá)、雅三個(gè)不同的等級(jí)。信級(jí)標(biāo)準(zhǔn)是基本資料交換的標(biāo)準(zhǔn)；達(dá)級(jí)標(biāo)準(zhǔn)是機(jī)器翻譯、情報(bào)檢索等自然語言處理的標(biāo)準(zhǔn)；雅級(jí)標(biāo)準(zhǔn)則是分詞的理想境界。這種分等級(jí)的做法有利于處理難易程度不同的分詞作業(yè)。

我國還研制了《信息處理用現(xiàn)代漢語規(guī)范詞表》。國家語言文字工作委員會(huì)在1995年提出研制《信息處理用現(xiàn)代漢語規(guī)范詞表》的任務(wù)，目的在于從政府的角度，研制規(guī)范的現(xiàn)代漢語通用詞表，以便作為大家遵循的、統(tǒng)一的通用詞表，詞表的規(guī)模大約6萬至8萬條，這項(xiàng)工作還未完成?，F(xiàn)代漢語的詞匯是一個(gè)復(fù)雜的體系，除了通用詞之外，還有術(shù)語、方言詞語、文言詞語、專名詞語（包括人名、地名、機(jī)構(gòu)名等）、各種熟語（包括成語、慣用語、歇后語、諺語、格言等）。詞語是不斷發(fā)展變化的，隨著社會(huì)的發(fā)展，還會(huì)出現(xiàn)大量的新詞新語。信息處理會(huì)涉及到上述各種詞語，因此，詞表的制定，除了制定通用詞表之外，還應(yīng)該制訂不同專業(yè)的術(shù)語詞表、方言詞表、文言詞表、專名詞表、熟語詞表、新詞語詞表等。這是一項(xiàng)龐大的工程。這些詞表的制訂和規(guī)范化，對(duì)于我國計(jì)算語言學(xué)的進(jìn)一步發(fā)展有著深遠(yuǎn)的影響。

我國還研制了《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》：該規(guī)范由教育部語言文字應(yīng)用研究所計(jì)算語言學(xué)研究室研制，包括 18 個(gè)大類。信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范制訂的主要原則有三個(gè)：① 語法功能原則。語法功能是詞類劃分的主要依據(jù)。詞的意義不作為劃分詞類的主要依據(jù)，但有時(shí)也起某些參考作用。② 允許有兼類。根據(jù)各種統(tǒng)計(jì)研究，現(xiàn)代漢語的某些詞具有多種語法功能，但這多種功能的分布概率不同。在信息處理用現(xiàn)代漢語詞類體系中，各詞類的確立要根據(jù)詞的主要語法功能。 ③詞類標(biāo)記集中的大類應(yīng)能覆蓋現(xiàn)代漢語的全部詞。這個(gè)規(guī)范正在考慮提升為國家標(biāo)準(zhǔn)。

我國某些學(xué)者關(guān)注到國際上關(guān)于通用置標(biāo)語言的進(jìn)展。由計(jì)算機(jī)和人文科學(xué)學(xué)會(huì)（ACH）、計(jì)算語言學(xué)學(xué)會(huì)(ACL)和文學(xué)與語言計(jì)算學(xué)會(huì)(ALLC) 聯(lián)合提出了TEI（Text Encoding Initiative，文本編碼倡議，1998年），其目標(biāo)是為電子文本制訂一套統(tǒng)一的編碼規(guī)范，以推動(dòng)語料存儲(chǔ)格式的標(biāo)準(zhǔn)化，實(shí)現(xiàn)語料的交換和共享。

由歐洲MULTEXT、EAGLES和VASSAR/CNRS collaboration聯(lián)合提出CES（Corpus Encoding Standard，語料庫編碼標(biāo)準(zhǔn)），可廣泛應(yīng)用于語料庫的研制與開發(fā)。

1986年ISO正式發(fā)布了國際標(biāo)準(zhǔn)SGML(Standard Generalized Markup Language，標(biāo)準(zhǔn)通用置標(biāo)語言)，標(biāo)準(zhǔn)號(hào)是ISO8879-1986.我國于1995年也把SGML語言作為國家標(biāo)準(zhǔn)，標(biāo)準(zhǔn)號(hào)為GB 14814。馮志偉在《當(dāng)代語言學(xué)》(1998年，第4期)的《標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用》一文詳細(xì)介紹過SGML語言。

XML(eXtensible Markup Language，可擴(kuò)充置標(biāo)語言)是SGML的一個(gè)子集，被廣泛地用做語料庫標(biāo)注的元語言，通過 DTD(Document Type Definition，文件類型定義)和Schema來規(guī)范XML文件，從而使表現(xiàn)與內(nèi)容分離，規(guī)范與實(shí)現(xiàn)分離，具有良好的擴(kuò)縮性。

我國語料庫的建設(shè)將一定會(huì)采用通用置標(biāo)語言作為描述語料庫的元語言。

（二）語料庫的資源共享

語料庫的資源共享的方式有如下幾種：作為產(chǎn)品出售；實(shí)行會(huì)員制；授予使用許可權(quán)；給非贏利目的的學(xué)術(shù)結(jié)構(gòu)提供無償使用。

（三）語料庫的知識(shí)產(chǎn)權(quán)

隨著語料庫的廣泛使用，語料庫的知識(shí)產(chǎn)權(quán)問題越來越尖銳，以正式出版物為資源的語料庫面臨版權(quán)的問題。建議政府有關(guān)部門建立關(guān)于語料庫資源的版權(quán)法規(guī)，建議中國中文信息學(xué)會(huì)出面協(xié)調(diào)。

（四）語料庫加工中的統(tǒng)計(jì)垃圾

由于電子文本的普遍使用，語料資源的獲取變得越來越容易，我國大規(guī)模的真實(shí)文本語料庫其規(guī)模已經(jīng)達(dá)到5億字。美國計(jì)算語言學(xué)會(huì)的ACL/DCI 數(shù)據(jù)采集計(jì)劃指出，如果以文本形式存儲(chǔ)語料，語料庫的容量一般可以為1億詞次以上，將來可以達(dá)到萬億詞次的數(shù)量級(jí)。隨著語料庫容量的不斷增大，語料統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象會(huì)越來越嚴(yán)重。宋柔在統(tǒng)計(jì)語料庫中的詞語接續(xù)對(duì)時(shí)發(fā)現(xiàn)：“隨著語料庫規(guī)模的增大，新增加的接續(xù)對(duì)中的垃圾逐漸會(huì)占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計(jì)到的低頻度接續(xù)對(duì)中，主要來源是分詞中專名識(shí)別錯(cuò)誤。”應(yīng)該看到，在統(tǒng)計(jì)垃圾中蘊(yùn)藏著許多正在萌芽的新的語言現(xiàn)象，如“噴塑、蒜農(nóng)、危改、市話、高檢”等低頻度的新詞語，由于在詞典中沒有存儲(chǔ)，都可以在統(tǒng)計(jì)垃圾中找到。如何真確地對(duì)待統(tǒng)計(jì)垃圾，避免統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象，變垃圾為有用的語言資源，是大規(guī)模真實(shí)文本處理的一個(gè)新課題。

參考文獻(xiàn)：

1、J. Sinclair, Reflections on computer corpora in English language research [M], 1982.

2、北京語言學(xué)院語言教學(xué)研究所，漢語詞匯的統(tǒng)計(jì)與分析[M]，外語教學(xué)與研究出版社，1985年。

3、馮志偉，計(jì)算語言學(xué)基礎(chǔ)[M]，商務(wù)印書館，2001年。

4、馮志偉，語料庫語言學(xué)與機(jī)器翻譯[M]，《信息網(wǎng)絡(luò)時(shí)代與日本研究》，山東大學(xué)出版社，1999年。

5、劉開瑛，中文文本自動(dòng)分詞和標(biāo)注[M]，商務(wù)印書館，2000年。

6、孫茂松等，高頻最大交集型歧義切分字段在漢語自動(dòng)切分中的作用[J]，中文信息學(xué)報(bào)，第13卷，第1期，1999年。

7、俞士汶、朱學(xué)鋒、段慧明，大規(guī)?，F(xiàn)代漢語標(biāo)注語料庫的加工規(guī)范[J]，中文信息學(xué)報(bào)，第14卷，第6期，2000年。

不卡AV在线|网页在线观看无码高清|亚洲国产亚洲国产|国产伦精品一区二区三区免费视频

中國語料庫研究的歷史與現(xiàn)狀

相關(guān)文章

熱門文章