語篇結(jié)構(gòu)標(biāo)注研究的綜述
時(shí)間:
若木1由 分享
論文關(guān)鍵詞:修辭結(jié)構(gòu)理論 篇章結(jié)構(gòu) 標(biāo)注
論文摘要:語篇結(jié)構(gòu)標(biāo)注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標(biāo)注最近取得了令人矚目的成績。目前,已經(jīng)建成并公布的篇章結(jié)構(gòu)標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。語料庫建設(shè)的主要成就為:確立了如何將語篇切分為基本語篇單位的理論,擴(kuò)展了修辭關(guān)系集,為RST理論的運(yùn)用提供了廣闊的前景。本文綜述該語料庫建設(shè)的研究成果。
0.概述
隨著計(jì)算機(jī)技術(shù)的普及和發(fā)展,語料為機(jī)器可讀成為語料庫建設(shè)的最基本的要求之一。要達(dá)到語料機(jī)讀化這一目的,關(guān)鍵在于語料的標(biāo)注。所謂標(biāo)注,就是對語料庫中的原始語料進(jìn)行加工,把各種表示語言特征的附碼標(biāo)注在相應(yīng)的語言成分上,以便計(jì)算機(jī)的識(shí)讀。
語料標(biāo)注的類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇結(jié)構(gòu)等。從當(dāng)前的研究現(xiàn)狀來看,雖然語篇結(jié)構(gòu)標(biāo)注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標(biāo)注最近取得了令人矚目的成績。目前,已經(jīng)建成并已公布的篇章結(jié)構(gòu)標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。在這基礎(chǔ)上研究小組還進(jìn)行了自動(dòng)篇章標(biāo)注算法、自動(dòng)文摘、機(jī)器翻譯等具體應(yīng)用工程方面的研究。
該參照篇章語料庫的建成不但為篇章結(jié)構(gòu)標(biāo)注建立了理論體系,而且為語篇結(jié)構(gòu)的應(yīng)用研究開辟了新的領(lǐng)域。本文將綜述該參照篇章語料庫建設(shè)的研究成果。
1.理論支撐的建立
根據(jù)Carlson(2001)的介紹,用于話語分析的理論有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個(gè)的文本分析,往往著眼于語篇的某一個(gè)方面,如指代關(guān)系、語篇的風(fēng)格、語篇的多維性以及某一理論在語篇中的體現(xiàn)等,很少被用于大規(guī)模的語料分析或語料標(biāo)注。在建立參照語料庫時(shí),Carlson(2001)等研究者將Mann和 Thompson (1987)提出的修辭結(jié)構(gòu)理論(RST)用于大批量的語篇標(biāo)注和語篇分析。他們認(rèn)為用修辭結(jié)構(gòu)理論(RST)對語篇進(jìn)行標(biāo)注有三點(diǎn)優(yōu)勢:可以同時(shí)捕捉到特定文本的交際意圖、語義信息和文本本身的特征;先前的研究表明該理論可以使不同的標(biāo)注者在標(biāo)注不同的文本時(shí)達(dá)到一定的統(tǒng)一;用該理論標(biāo)注的語篇樹形圖對構(gòu)建自然語篇生成系統(tǒng)、自動(dòng)文摘系統(tǒng)、文本測評(píng)系統(tǒng)起著關(guān)鍵的作用,也可以用來增強(qiáng)機(jī)器翻譯的自然性。參照篇章語料庫的建成確立了篇章結(jié)構(gòu)標(biāo)注的理論基礎(chǔ)。
2.基本語篇單位的確定
語篇結(jié)構(gòu)標(biāo)注的另一成就是確定了英語基本語篇單位。在確定基本語篇單位時(shí),不同的研究者往往運(yùn)用不同的理論。Givon(1983)認(rèn)為從句應(yīng)該成為語篇的基本單位,Sacks(1974)認(rèn)為談話的話輪應(yīng)該成為語篇的基本單位,Polanyi(1988)堅(jiān)持語篇應(yīng)該以自然句為切分單位,Grosz 和Sindner(1986)認(rèn)為語篇的基本單位應(yīng)該從語篇的上下文中獲取,它是由一定的符號(hào)所反映的信息載體,能反映事物的單個(gè)狀態(tài)或部分狀態(tài),最有影響的修辭結(jié)構(gòu)理論認(rèn)為從句應(yīng)該是語篇的基本單位,不管從句有沒有語法標(biāo)記或詞匯標(biāo)記。
然而,在具體標(biāo)注時(shí),Marcu等研究者對基本語篇單位有了新的規(guī)定:所有有詞匯或句法標(biāo)記的起狀語作用的從句都屬于基本語篇單位,包括起狀語作用的非謂語動(dòng)詞詞組;充當(dāng)主語、賓語、補(bǔ)語的從句不屬于基本語篇單位;定語從句、后置的名詞修飾短語或?qū)⑵渌菊Z篇單位割裂開的從句或非謂語動(dòng)詞短語為內(nèi)置語篇單位;除此而外,還有一定數(shù)量的有明顯語篇標(biāo)記的短語作為基本語篇單位,如 由in spite of(盡管),according to(根據(jù))等引導(dǎo)的短語。
Marcu的切分方法綜合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理論,在確定基本語篇單位時(shí)考慮到詞匯、句法、語義和在句中的位置等因素。
3.修辭關(guān)系的擴(kuò)展
當(dāng)初,Mann和Thompson(1987)提出修辭結(jié)構(gòu)理論時(shí)只給出20多種修辭關(guān)系,但他們明確指出這是一個(gè)開放關(guān)系集,既然是開放性的,就意味著讀者在給定話語的內(nèi)部可以定義出其他的關(guān)系類型。Marcu(2000)根據(jù)標(biāo)注的語料庫總結(jié)出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個(gè)組別,每組都具有相同的修辭功能。
就如同當(dāng)初的定義關(guān)系集一樣,這些關(guān)系覆蓋了基本語篇單位、語段乃至整個(gè)語篇。通過這些關(guān)系,不同層級(jí)的語言片段被連接起來,構(gòu)成一定的抽象形式。
4.標(biāo)注標(biāo)準(zhǔn)和方法的制定
為了建立高質(zhì)量的前后一致的標(biāo)注標(biāo)準(zhǔn)和方法,Carlson(2001)等研究者采用人工標(biāo)注的方法。他們所選用的標(biāo)注者都是有過標(biāo)注經(jīng)歷的、從事語篇分析和新聞報(bào)道的專業(yè)人員。在正式標(biāo)注之前,他們都接受專門的語篇結(jié)構(gòu)標(biāo)注培訓(xùn),培訓(xùn)包括3個(gè)階段。
在第一階段,向標(biāo)注者介紹修辭結(jié)構(gòu)理論和語篇分析工具。在培訓(xùn)的第二階段,標(biāo)注者開始探索語篇結(jié)構(gòu)的特征。在培訓(xùn)的最后一個(gè)階段,標(biāo)注小組謀求在構(gòu)建語篇總結(jié)構(gòu)圖時(shí)保持一致,盡量減少分歧。
最終,標(biāo)注小組研制出兩個(gè)基本策略用于文獻(xiàn)分析并建立相關(guān)的語篇結(jié)構(gòu)圖。策略之一是對文本的直接分析,可以在頁邊空白處標(biāo)出記號(hào),也可以將文獻(xiàn)切分成一定的語段并標(biāo)出記號(hào),根據(jù)這些標(biāo)注建立語篇結(jié)構(gòu)圖。以這種方式建立樹型結(jié)構(gòu)圖,標(biāo)注者必須預(yù)測到隨后的語篇結(jié)構(gòu)。然而,其后語段的修辭關(guān)系,尤其是較大的語段,可能不是太明顯,這就是為什么這一標(biāo)注策略更適用于短篇文獻(xiàn)的標(biāo)注。
另一策略是將文本分析與建立語篇結(jié)構(gòu)兩項(xiàng)任務(wù)同時(shí)進(jìn)行,很可能是成塊地標(biāo)注而不是循序漸進(jìn)地一步一步地增加。以這種策略進(jìn)行標(biāo)注,標(biāo)注者一次可以切分很多語篇單位,并為每個(gè)自然句建立結(jié)構(gòu)圖,然后將相鄰的自然句連接起來,構(gòu)成較大的語段結(jié)構(gòu)樹。最終的語篇結(jié)構(gòu)樹是通過連接語篇結(jié)構(gòu)中主要語塊而建成的。
5.標(biāo)注質(zhì)量的檢驗(yàn)
標(biāo)注質(zhì)量的控制是通過標(biāo)注者對標(biāo)注結(jié)果的反復(fù)修改和局部隨機(jī)的自動(dòng)交叉核實(shí)來實(shí)現(xiàn)的。為了確保標(biāo)注語料庫的質(zhì)量,研究小組采取了很多措施,這些措施主要涉及到兩個(gè)方面,即檢驗(yàn)語篇結(jié)構(gòu)樹的效度和保持標(biāo)注者內(nèi)部的一致性。
5.1 效度檢驗(yàn)
效度檢驗(yàn)從兩個(gè)方面進(jìn)行,即句法和語義。句法檢驗(yàn)確保每棵樹只有一個(gè)根結(jié),并將樹與文獻(xiàn)進(jìn)行對比以防句子或語段被遺漏。語義檢驗(yàn)主要是關(guān)系到核心語段的指派、修辭關(guān)系的選擇以及語篇結(jié)構(gòu)樹的層次。為了保證檢驗(yàn)質(zhì)量,研究小組研制出語篇分析器以及圖形掃描儀。所謂圖形掃描儀,就是指,在圖形環(huán)境下,自左而右漸進(jìn)地為各個(gè)篇章單元給出一種最有可能的修辭關(guān)系和篇章結(jié)構(gòu)地位。分析器和圖形掃描儀經(jīng)??梢源_認(rèn)出人工檢驗(yàn)無法覺察的錯(cuò)誤,都可以成功地作用于所有語篇結(jié)構(gòu)樹。
5.2 標(biāo)注一致性
在整個(gè)語料庫的建設(shè)過程中,研究者一直設(shè)法保證標(biāo)注者之間內(nèi)部的一致性。首先,他們研制出一種算法,該算法可以計(jì)算出語篇層級(jí)結(jié)構(gòu)的Kappa數(shù)據(jù)。(Kappa算法曾被廣泛地運(yùn)用于語篇實(shí)證研究中,該算法可以測算出研究者在作出分類決策、預(yù)測可能性方面的一致性。)如果Kappa數(shù)據(jù)大于0.8,就意味著具有較高的一致性;如果數(shù)據(jù)值在0.6和0.8之間,就意味著較好的一致性。
6.標(biāo)注語料庫的挖掘
借助于以RST理論為支撐的語篇標(biāo)注語料庫,研究者可以對語篇進(jìn)行三個(gè)層次的分析,即語篇標(biāo)記詞功能的分析、不同類型的語篇結(jié)構(gòu)圖的描述和比較、語篇中從句間修辭關(guān)系的描述和比較。
6.1 篇章連詞的研究
篇章連詞功能研究一直是理論語言學(xué)和計(jì)算機(jī)語言學(xué)研究的主題,而且網(wǎng)絡(luò)語料庫方便了研究者對關(guān)聯(lián)詞語的研究,但利用豐富的標(biāo)注語料庫資源進(jìn)行分析的研究不多。語篇結(jié)構(gòu)標(biāo)注語料庫可以使研究者在多種語境中對關(guān)聯(lián)詞進(jìn)行元語言分析,使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、所發(fā)揮的篇章修辭作用、核心性、輔助性等方面信息。
例如,研究小組總結(jié)了since 和 as在語篇中的功能。經(jīng)研究發(fā)現(xiàn),就這兩個(gè)詞在語篇中出現(xiàn)的頻率而言,在語篇中起連接兩個(gè)基本語篇單位修辭作用的情況只有1/3,因?yàn)樗鼈兺诿}層面上發(fā)揮作用而不是在語篇層面上。就它們在語篇中發(fā)揮的修辭作用而言,as涉及到的關(guān)系類型遠(yuǎn)遠(yuǎn)地多于since,但兩者所引導(dǎo)的語篇單位往往都處于輔助位置而非核心位置。
6.2 語篇結(jié)構(gòu)圖的描述和比較
除了Lancaster大學(xué)的OBC語料庫(Garside等,1987;Biber等,1998,轉(zhuǎn)自Carlson,2001)提供的語體或語域研究,以及TDT語料庫(Wayne,2000,轉(zhuǎn)自Carlson,2001)提供的話題確認(rèn)研究之外,能幫助研究者對語篇進(jìn)行全面分析的語言資源不多。然而,以RST理論為支撐的語篇結(jié)構(gòu)標(biāo)注語料庫,勾畫出每一份文獻(xiàn)的多層次的語篇修辭結(jié)構(gòu)圖,據(jù)此可以對結(jié)構(gòu)樹的各個(gè)層次進(jìn)行分析。例如,結(jié)構(gòu)樹的抽象層面,對修辭關(guān)系和文獻(xiàn)的內(nèi)容進(jìn)行非詞匯化的概括,為研究交際意圖帶來很多方便。
又如,語篇研究結(jié)果表明在文本的總體框架上新聞?lì)愓Z篇不同于故事類,因?yàn)樾侣勵(lì)愓Z篇的結(jié)構(gòu)多呈倒三角形,但這些研究很難解釋產(chǎn)生差異的根本性原因。語篇結(jié)構(gòu)樹可以彌補(bǔ)這一缺陷,這些樹使研究者清楚地看到在實(shí)現(xiàn)作者的交際意圖時(shí)、在體現(xiàn)篇章的互文性時(shí),同樣的句式在不同的文本中發(fā)揮的作用是不同的,在有的文獻(xiàn)中起核心作用,而在有的文獻(xiàn)中起輔助作用。事實(shí)上,這些結(jié)構(gòu)樹很清楚地反映出,即使是同一類型的語篇,隨著語境的改變、主題的變化,文本的結(jié)構(gòu)也會(huì)發(fā)生相應(yīng)的變化。
6.3 語篇內(nèi)修辭關(guān)系的研究
通過對標(biāo)注語料庫的分析和挖掘,研究者發(fā)現(xiàn)從句間的修辭關(guān)系在文本中發(fā)揮作用的頻率是很不一樣的。例如,研究者發(fā)現(xiàn)“詳述-補(bǔ)充”修辭關(guān)系使用的頻率最高,因?yàn)樽髡咴诒磉_(dá)過程中往往要借助于前面的背景,通過對前面的背景補(bǔ)充說明來闡發(fā)新的觀點(diǎn)。與此類似的還有列舉關(guān)系和解析關(guān)系。修辭關(guān)系的元語言分析使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、核心性、輔助性等方面信息。除此之外,語篇結(jié)構(gòu)樹還勾畫了修辭關(guān)系如何發(fā)揮語篇銜接與連貫的功能。例如,研究者通過對篇章標(biāo)注語料庫的分析發(fā)現(xiàn),“列舉”關(guān)系不但起到舉例的作用,而且在連接平行語篇單位、平行語段和平行語篇時(shí)發(fā)揮巨大的作用。事實(shí)上,這一研究結(jié)果驗(yàn)證了Halliday 和Hasan(1976)的觀點(diǎn),即平行結(jié)構(gòu)是一種語篇銜接手段。
6.4 應(yīng)用性研究
語篇結(jié)構(gòu)標(biāo)注語料庫為文獻(xiàn)檢索、自動(dòng)剖析、自動(dòng)文摘、自動(dòng)翻譯等提供相關(guān)數(shù)據(jù),例如,研究小組所設(shè)計(jì)的在線文件剪接系統(tǒng)。借助于篇章結(jié)構(gòu)標(biāo)注語料庫,研究者發(fā)現(xiàn)并非所有的句子都是基本語篇單位,也不是所有的語篇單位都具有相同的作用,有的屬于核心的,有的屬于輔助的,有的在實(shí)現(xiàn)作者的交際意圖時(shí)、在體現(xiàn)篇章的互文性時(shí)發(fā)揮關(guān)鍵作用,有的并沒有。以此類推,篇章中的詞匯、短語也有核心與輔助之別。篇章結(jié)構(gòu)標(biāo)注語料庫可以幫助創(chuàng)建一個(gè)以篇章結(jié)構(gòu)為指導(dǎo)、以詞匯短語有界和無界合并為手段的文件剪接系統(tǒng)。同時(shí),篇章結(jié)構(gòu)標(biāo)注語料庫幫助創(chuàng)建了一個(gè)以篇章結(jié)構(gòu)為指導(dǎo)、以機(jī)械文摘為基本手段、再配合消除冗余、可讀性加工的綜合自動(dòng)文摘系統(tǒng)。
7.結(jié)論
2001年,由Daniel Marcu博士主持的研究小組以RST理論為支撐創(chuàng)立了語篇標(biāo)注語料庫。研究小組所標(biāo)注的385篇華爾街報(bào)文章皆取自賓州樹庫,篇幅長度不等,從31個(gè)詞到2,124個(gè)詞,總詞數(shù)達(dá)到176,000,平均每篇文章458個(gè)詞。文章的內(nèi)容涉及到各種話題,如財(cái)政報(bào)道、商業(yè)新聞、文化點(diǎn)評(píng)、編者按、讀者來信等。語料庫建設(shè)的主要成就為:確立了如何將語篇切分為基本語篇單位的理論、擴(kuò)展了修辭關(guān)系集、為RST理論的運(yùn)用提供了廣闊的前景。
參考文獻(xiàn):
[1] [ZK(#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.
[2] Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].?Computational Linguistics?,12(3):175-204.Talmy Givon,1983/1986.
[3] Halliday,M.A.K.& R.Hasan.?Cohesion in English?[M].London:Longman,1976.
[4] Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I (SI/ RS-87-190),1987.
[5] Marcu,D.?The Theory and Practice of Discourse Parsing and Summarization?[M].Cambridge,Massachusetts:MIT Press,2000.
論文摘要:語篇結(jié)構(gòu)標(biāo)注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標(biāo)注最近取得了令人矚目的成績。目前,已經(jīng)建成并公布的篇章結(jié)構(gòu)標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。語料庫建設(shè)的主要成就為:確立了如何將語篇切分為基本語篇單位的理論,擴(kuò)展了修辭關(guān)系集,為RST理論的運(yùn)用提供了廣闊的前景。本文綜述該語料庫建設(shè)的研究成果。
0.概述
隨著計(jì)算機(jī)技術(shù)的普及和發(fā)展,語料為機(jī)器可讀成為語料庫建設(shè)的最基本的要求之一。要達(dá)到語料機(jī)讀化這一目的,關(guān)鍵在于語料的標(biāo)注。所謂標(biāo)注,就是對語料庫中的原始語料進(jìn)行加工,把各種表示語言特征的附碼標(biāo)注在相應(yīng)的語言成分上,以便計(jì)算機(jī)的識(shí)讀。
語料標(biāo)注的類型主要包括語篇背景信息、詞性、詞形、句法分析、語義、語篇結(jié)構(gòu)等。從當(dāng)前的研究現(xiàn)狀來看,雖然語篇結(jié)構(gòu)標(biāo)注起步較晚,但以修辭結(jié)構(gòu)理論(RST)為指導(dǎo)的篇章修辭結(jié)構(gòu)標(biāo)注最近取得了令人矚目的成績。目前,已經(jīng)建成并已公布的篇章結(jié)構(gòu)標(biāo)注語料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規(guī)模、高質(zhì)量、高一致性的帶多層語言學(xué)標(biāo)注信息的參照篇章語料庫。在這基礎(chǔ)上研究小組還進(jìn)行了自動(dòng)篇章標(biāo)注算法、自動(dòng)文摘、機(jī)器翻譯等具體應(yīng)用工程方面的研究。
該參照篇章語料庫的建成不但為篇章結(jié)構(gòu)標(biāo)注建立了理論體系,而且為語篇結(jié)構(gòu)的應(yīng)用研究開辟了新的領(lǐng)域。本文將綜述該參照篇章語料庫建設(shè)的研究成果。
1.理論支撐的建立
根據(jù)Carlson(2001)的介紹,用于話語分析的理論有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個(gè)的文本分析,往往著眼于語篇的某一個(gè)方面,如指代關(guān)系、語篇的風(fēng)格、語篇的多維性以及某一理論在語篇中的體現(xiàn)等,很少被用于大規(guī)模的語料分析或語料標(biāo)注。在建立參照語料庫時(shí),Carlson(2001)等研究者將Mann和 Thompson (1987)提出的修辭結(jié)構(gòu)理論(RST)用于大批量的語篇標(biāo)注和語篇分析。他們認(rèn)為用修辭結(jié)構(gòu)理論(RST)對語篇進(jìn)行標(biāo)注有三點(diǎn)優(yōu)勢:可以同時(shí)捕捉到特定文本的交際意圖、語義信息和文本本身的特征;先前的研究表明該理論可以使不同的標(biāo)注者在標(biāo)注不同的文本時(shí)達(dá)到一定的統(tǒng)一;用該理論標(biāo)注的語篇樹形圖對構(gòu)建自然語篇生成系統(tǒng)、自動(dòng)文摘系統(tǒng)、文本測評(píng)系統(tǒng)起著關(guān)鍵的作用,也可以用來增強(qiáng)機(jī)器翻譯的自然性。參照篇章語料庫的建成確立了篇章結(jié)構(gòu)標(biāo)注的理論基礎(chǔ)。
2.基本語篇單位的確定
語篇結(jié)構(gòu)標(biāo)注的另一成就是確定了英語基本語篇單位。在確定基本語篇單位時(shí),不同的研究者往往運(yùn)用不同的理論。Givon(1983)認(rèn)為從句應(yīng)該成為語篇的基本單位,Sacks(1974)認(rèn)為談話的話輪應(yīng)該成為語篇的基本單位,Polanyi(1988)堅(jiān)持語篇應(yīng)該以自然句為切分單位,Grosz 和Sindner(1986)認(rèn)為語篇的基本單位應(yīng)該從語篇的上下文中獲取,它是由一定的符號(hào)所反映的信息載體,能反映事物的單個(gè)狀態(tài)或部分狀態(tài),最有影響的修辭結(jié)構(gòu)理論認(rèn)為從句應(yīng)該是語篇的基本單位,不管從句有沒有語法標(biāo)記或詞匯標(biāo)記。
然而,在具體標(biāo)注時(shí),Marcu等研究者對基本語篇單位有了新的規(guī)定:所有有詞匯或句法標(biāo)記的起狀語作用的從句都屬于基本語篇單位,包括起狀語作用的非謂語動(dòng)詞詞組;充當(dāng)主語、賓語、補(bǔ)語的從句不屬于基本語篇單位;定語從句、后置的名詞修飾短語或?qū)⑵渌菊Z篇單位割裂開的從句或非謂語動(dòng)詞短語為內(nèi)置語篇單位;除此而外,還有一定數(shù)量的有明顯語篇標(biāo)記的短語作為基本語篇單位,如 由in spite of(盡管),according to(根據(jù))等引導(dǎo)的短語。
Marcu的切分方法綜合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理論,在確定基本語篇單位時(shí)考慮到詞匯、句法、語義和在句中的位置等因素。
3.修辭關(guān)系的擴(kuò)展
當(dāng)初,Mann和Thompson(1987)提出修辭結(jié)構(gòu)理論時(shí)只給出20多種修辭關(guān)系,但他們明確指出這是一個(gè)開放關(guān)系集,既然是開放性的,就意味著讀者在給定話語的內(nèi)部可以定義出其他的關(guān)系類型。Marcu(2000)根據(jù)標(biāo)注的語料庫總結(jié)出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個(gè)組別,每組都具有相同的修辭功能。
就如同當(dāng)初的定義關(guān)系集一樣,這些關(guān)系覆蓋了基本語篇單位、語段乃至整個(gè)語篇。通過這些關(guān)系,不同層級(jí)的語言片段被連接起來,構(gòu)成一定的抽象形式。
4.標(biāo)注標(biāo)準(zhǔn)和方法的制定
為了建立高質(zhì)量的前后一致的標(biāo)注標(biāo)準(zhǔn)和方法,Carlson(2001)等研究者采用人工標(biāo)注的方法。他們所選用的標(biāo)注者都是有過標(biāo)注經(jīng)歷的、從事語篇分析和新聞報(bào)道的專業(yè)人員。在正式標(biāo)注之前,他們都接受專門的語篇結(jié)構(gòu)標(biāo)注培訓(xùn),培訓(xùn)包括3個(gè)階段。
在第一階段,向標(biāo)注者介紹修辭結(jié)構(gòu)理論和語篇分析工具。在培訓(xùn)的第二階段,標(biāo)注者開始探索語篇結(jié)構(gòu)的特征。在培訓(xùn)的最后一個(gè)階段,標(biāo)注小組謀求在構(gòu)建語篇總結(jié)構(gòu)圖時(shí)保持一致,盡量減少分歧。
最終,標(biāo)注小組研制出兩個(gè)基本策略用于文獻(xiàn)分析并建立相關(guān)的語篇結(jié)構(gòu)圖。策略之一是對文本的直接分析,可以在頁邊空白處標(biāo)出記號(hào),也可以將文獻(xiàn)切分成一定的語段并標(biāo)出記號(hào),根據(jù)這些標(biāo)注建立語篇結(jié)構(gòu)圖。以這種方式建立樹型結(jié)構(gòu)圖,標(biāo)注者必須預(yù)測到隨后的語篇結(jié)構(gòu)。然而,其后語段的修辭關(guān)系,尤其是較大的語段,可能不是太明顯,這就是為什么這一標(biāo)注策略更適用于短篇文獻(xiàn)的標(biāo)注。
另一策略是將文本分析與建立語篇結(jié)構(gòu)兩項(xiàng)任務(wù)同時(shí)進(jìn)行,很可能是成塊地標(biāo)注而不是循序漸進(jìn)地一步一步地增加。以這種策略進(jìn)行標(biāo)注,標(biāo)注者一次可以切分很多語篇單位,并為每個(gè)自然句建立結(jié)構(gòu)圖,然后將相鄰的自然句連接起來,構(gòu)成較大的語段結(jié)構(gòu)樹。最終的語篇結(jié)構(gòu)樹是通過連接語篇結(jié)構(gòu)中主要語塊而建成的。
5.標(biāo)注質(zhì)量的檢驗(yàn)
標(biāo)注質(zhì)量的控制是通過標(biāo)注者對標(biāo)注結(jié)果的反復(fù)修改和局部隨機(jī)的自動(dòng)交叉核實(shí)來實(shí)現(xiàn)的。為了確保標(biāo)注語料庫的質(zhì)量,研究小組采取了很多措施,這些措施主要涉及到兩個(gè)方面,即檢驗(yàn)語篇結(jié)構(gòu)樹的效度和保持標(biāo)注者內(nèi)部的一致性。
5.1 效度檢驗(yàn)
效度檢驗(yàn)從兩個(gè)方面進(jìn)行,即句法和語義。句法檢驗(yàn)確保每棵樹只有一個(gè)根結(jié),并將樹與文獻(xiàn)進(jìn)行對比以防句子或語段被遺漏。語義檢驗(yàn)主要是關(guān)系到核心語段的指派、修辭關(guān)系的選擇以及語篇結(jié)構(gòu)樹的層次。為了保證檢驗(yàn)質(zhì)量,研究小組研制出語篇分析器以及圖形掃描儀。所謂圖形掃描儀,就是指,在圖形環(huán)境下,自左而右漸進(jìn)地為各個(gè)篇章單元給出一種最有可能的修辭關(guān)系和篇章結(jié)構(gòu)地位。分析器和圖形掃描儀經(jīng)??梢源_認(rèn)出人工檢驗(yàn)無法覺察的錯(cuò)誤,都可以成功地作用于所有語篇結(jié)構(gòu)樹。
5.2 標(biāo)注一致性
在整個(gè)語料庫的建設(shè)過程中,研究者一直設(shè)法保證標(biāo)注者之間內(nèi)部的一致性。首先,他們研制出一種算法,該算法可以計(jì)算出語篇層級(jí)結(jié)構(gòu)的Kappa數(shù)據(jù)。(Kappa算法曾被廣泛地運(yùn)用于語篇實(shí)證研究中,該算法可以測算出研究者在作出分類決策、預(yù)測可能性方面的一致性。)如果Kappa數(shù)據(jù)大于0.8,就意味著具有較高的一致性;如果數(shù)據(jù)值在0.6和0.8之間,就意味著較好的一致性。
6.標(biāo)注語料庫的挖掘
借助于以RST理論為支撐的語篇標(biāo)注語料庫,研究者可以對語篇進(jìn)行三個(gè)層次的分析,即語篇標(biāo)記詞功能的分析、不同類型的語篇結(jié)構(gòu)圖的描述和比較、語篇中從句間修辭關(guān)系的描述和比較。
6.1 篇章連詞的研究
篇章連詞功能研究一直是理論語言學(xué)和計(jì)算機(jī)語言學(xué)研究的主題,而且網(wǎng)絡(luò)語料庫方便了研究者對關(guān)聯(lián)詞語的研究,但利用豐富的標(biāo)注語料庫資源進(jìn)行分析的研究不多。語篇結(jié)構(gòu)標(biāo)注語料庫可以使研究者在多種語境中對關(guān)聯(lián)詞進(jìn)行元語言分析,使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、所發(fā)揮的篇章修辭作用、核心性、輔助性等方面信息。
例如,研究小組總結(jié)了since 和 as在語篇中的功能。經(jīng)研究發(fā)現(xiàn),就這兩個(gè)詞在語篇中出現(xiàn)的頻率而言,在語篇中起連接兩個(gè)基本語篇單位修辭作用的情況只有1/3,因?yàn)樗鼈兺诿}層面上發(fā)揮作用而不是在語篇層面上。就它們在語篇中發(fā)揮的修辭作用而言,as涉及到的關(guān)系類型遠(yuǎn)遠(yuǎn)地多于since,但兩者所引導(dǎo)的語篇單位往往都處于輔助位置而非核心位置。
6.2 語篇結(jié)構(gòu)圖的描述和比較
除了Lancaster大學(xué)的OBC語料庫(Garside等,1987;Biber等,1998,轉(zhuǎn)自Carlson,2001)提供的語體或語域研究,以及TDT語料庫(Wayne,2000,轉(zhuǎn)自Carlson,2001)提供的話題確認(rèn)研究之外,能幫助研究者對語篇進(jìn)行全面分析的語言資源不多。然而,以RST理論為支撐的語篇結(jié)構(gòu)標(biāo)注語料庫,勾畫出每一份文獻(xiàn)的多層次的語篇修辭結(jié)構(gòu)圖,據(jù)此可以對結(jié)構(gòu)樹的各個(gè)層次進(jìn)行分析。例如,結(jié)構(gòu)樹的抽象層面,對修辭關(guān)系和文獻(xiàn)的內(nèi)容進(jìn)行非詞匯化的概括,為研究交際意圖帶來很多方便。
又如,語篇研究結(jié)果表明在文本的總體框架上新聞?lì)愓Z篇不同于故事類,因?yàn)樾侣勵(lì)愓Z篇的結(jié)構(gòu)多呈倒三角形,但這些研究很難解釋產(chǎn)生差異的根本性原因。語篇結(jié)構(gòu)樹可以彌補(bǔ)這一缺陷,這些樹使研究者清楚地看到在實(shí)現(xiàn)作者的交際意圖時(shí)、在體現(xiàn)篇章的互文性時(shí),同樣的句式在不同的文本中發(fā)揮的作用是不同的,在有的文獻(xiàn)中起核心作用,而在有的文獻(xiàn)中起輔助作用。事實(shí)上,這些結(jié)構(gòu)樹很清楚地反映出,即使是同一類型的語篇,隨著語境的改變、主題的變化,文本的結(jié)構(gòu)也會(huì)發(fā)生相應(yīng)的變化。
6.3 語篇內(nèi)修辭關(guān)系的研究
通過對標(biāo)注語料庫的分析和挖掘,研究者發(fā)現(xiàn)從句間的修辭關(guān)系在文本中發(fā)揮作用的頻率是很不一樣的。例如,研究者發(fā)現(xiàn)“詳述-補(bǔ)充”修辭關(guān)系使用的頻率最高,因?yàn)樽髡咴诒磉_(dá)過程中往往要借助于前面的背景,通過對前面的背景補(bǔ)充說明來闡發(fā)新的觀點(diǎn)。與此類似的還有列舉關(guān)系和解析關(guān)系。修辭關(guān)系的元語言分析使人們能了解到它們在語篇中出現(xiàn)的頻數(shù)、在句中的位置、核心性、輔助性等方面信息。除此之外,語篇結(jié)構(gòu)樹還勾畫了修辭關(guān)系如何發(fā)揮語篇銜接與連貫的功能。例如,研究者通過對篇章標(biāo)注語料庫的分析發(fā)現(xiàn),“列舉”關(guān)系不但起到舉例的作用,而且在連接平行語篇單位、平行語段和平行語篇時(shí)發(fā)揮巨大的作用。事實(shí)上,這一研究結(jié)果驗(yàn)證了Halliday 和Hasan(1976)的觀點(diǎn),即平行結(jié)構(gòu)是一種語篇銜接手段。
6.4 應(yīng)用性研究
語篇結(jié)構(gòu)標(biāo)注語料庫為文獻(xiàn)檢索、自動(dòng)剖析、自動(dòng)文摘、自動(dòng)翻譯等提供相關(guān)數(shù)據(jù),例如,研究小組所設(shè)計(jì)的在線文件剪接系統(tǒng)。借助于篇章結(jié)構(gòu)標(biāo)注語料庫,研究者發(fā)現(xiàn)并非所有的句子都是基本語篇單位,也不是所有的語篇單位都具有相同的作用,有的屬于核心的,有的屬于輔助的,有的在實(shí)現(xiàn)作者的交際意圖時(shí)、在體現(xiàn)篇章的互文性時(shí)發(fā)揮關(guān)鍵作用,有的并沒有。以此類推,篇章中的詞匯、短語也有核心與輔助之別。篇章結(jié)構(gòu)標(biāo)注語料庫可以幫助創(chuàng)建一個(gè)以篇章結(jié)構(gòu)為指導(dǎo)、以詞匯短語有界和無界合并為手段的文件剪接系統(tǒng)。同時(shí),篇章結(jié)構(gòu)標(biāo)注語料庫幫助創(chuàng)建了一個(gè)以篇章結(jié)構(gòu)為指導(dǎo)、以機(jī)械文摘為基本手段、再配合消除冗余、可讀性加工的綜合自動(dòng)文摘系統(tǒng)。
7.結(jié)論
2001年,由Daniel Marcu博士主持的研究小組以RST理論為支撐創(chuàng)立了語篇標(biāo)注語料庫。研究小組所標(biāo)注的385篇華爾街報(bào)文章皆取自賓州樹庫,篇幅長度不等,從31個(gè)詞到2,124個(gè)詞,總詞數(shù)達(dá)到176,000,平均每篇文章458個(gè)詞。文章的內(nèi)容涉及到各種話題,如財(cái)政報(bào)道、商業(yè)新聞、文化點(diǎn)評(píng)、編者按、讀者來信等。語料庫建設(shè)的主要成就為:確立了如何將語篇切分為基本語篇單位的理論、擴(kuò)展了修辭關(guān)系集、為RST理論的運(yùn)用提供了廣闊的前景。
參考文獻(xiàn):
[1] [ZK(#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.
[2] Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].?Computational Linguistics?,12(3):175-204.Talmy Givon,1983/1986.
[3] Halliday,M.A.K.& R.Hasan.?Cohesion in English?[M].London:Longman,1976.
[4] Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I (SI/ RS-87-190),1987.
[5] Marcu,D.?The Theory and Practice of Discourse Parsing and Summarization?[M].Cambridge,Massachusetts:MIT Press,2000.