免费a一毛片,有码毛片,好爽又高潮了毛片免费下载16禁,黄色一级免费网站,毛片二区,一级毛片视频免费,性a视频

語(yǔ)篇結構標注研究的綜述論文

時(shí)間:2021-04-12 14:45:32 論文 我要投稿

語(yǔ)篇結構標注研究的綜述論文

  論文關(guān)鍵詞:修辭結構理論 篇章結構 標注

語(yǔ)篇結構標注研究的綜述論文

  論文摘要:語(yǔ)篇結構標注起步較晚,但以修辭結構理論(RST)為指導的篇章修辭結構標注最近取得了令人矚目的成績(jì)。目前,已經(jīng)建成并公布的篇章結構標注語(yǔ)料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規模、高質(zhì)量、高一致性的帶多層語(yǔ)言學(xué)標注信息的參照篇章語(yǔ)料庫。語(yǔ)料庫建設的主要成就為:確立了如何將語(yǔ)篇切分為基本語(yǔ)篇單位的理論,擴展了修辭關(guān)系集,為RST理論的運用提供了廣闊的前景。本文綜述該語(yǔ)料庫建設的研究成果。

  0.概述

  隨著(zhù)計算機技術(shù)的普及和發(fā)展,語(yǔ)料為機器可讀成為語(yǔ)料庫建設的最基本的要求之一。要達到語(yǔ)料機讀化這一目的,關(guān)鍵在于語(yǔ)料的標注。所謂標注,就是對語(yǔ)料庫中的原始語(yǔ)料進(jìn)行加工,把各種表示語(yǔ)言特征的附碼標注在相應的語(yǔ)言成分上,以便計算機的識讀。

  語(yǔ)料標注的類(lèi)型主要包括語(yǔ)篇背景信息、詞性、詞形、句法分析、語(yǔ)義、語(yǔ)篇結構等。從當前的研究現狀來(lái)看,雖然語(yǔ)篇結構標注起步較晚,但以修辭結構理論(RST)為指導的篇章修辭結構標注最近取得了令人矚目的成績(jì)。目前,已經(jīng)建成并已公布的篇章結構標注語(yǔ)料庫是由美國南加州大學(xué)信息科學(xué)學(xué)院的一個(gè)課題小組完成的,由385篇文章組成,是一個(gè)大規模、高質(zhì)量、高一致性的帶多層語(yǔ)言學(xué)標注信息的參照篇章語(yǔ)料庫。在這基礎上研究小組還進(jìn)行了自動(dòng)篇章標注算法、自動(dòng)文摘、機器翻譯等具體應用工程方面的研究。

  該參照篇章語(yǔ)料庫的建成不但為篇章結構標注建立了理論體系,而且為語(yǔ)篇結構的應用研究開(kāi)辟了新的領(lǐng)域。本文將綜述該參照篇章語(yǔ)料庫建設的研究成果。

  1.理論支撐的建立

  根據Carlson(2001)的介紹,用于話(huà)語(yǔ)分析的理論有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理論,但這些理論主要用于單個(gè)的文本分析,往往著(zhù)眼于語(yǔ)篇的某一個(gè)方面,如指代關(guān)系、語(yǔ)篇的風(fēng)格、語(yǔ)篇的多維性以及某一理論在語(yǔ)篇中的體現等,很少被用于大規模的語(yǔ)料分析或語(yǔ)料標注。在建立參照語(yǔ)料庫時(shí),Carlson(2001)等研究者將Mann和 Thompson (1987)提出的修辭結構理論(RST)用于大批量的語(yǔ)篇標注和語(yǔ)篇分析。他們認為用修辭結構理論(RST)對語(yǔ)篇進(jìn)行標注有三點(diǎn)優(yōu)勢:可以同時(shí)捕捉到特定文本的交際意圖、語(yǔ)義信息和文本本身的特征;先前的研究表明該理論可以使不同的標注者在標注不同的文本時(shí)達到一定的統一;用該理論標注的語(yǔ)篇樹(shù)形圖對構建自然語(yǔ)篇生成系統、自動(dòng)文摘系統、文本測評系統起著(zhù)關(guān)鍵的作用,也可以用來(lái)增強機器翻譯的自然性。參照篇章語(yǔ)料庫的建成確立了篇章結構標注的理論基礎。

  2.基本語(yǔ)篇單位的確定

  語(yǔ)篇結構標注的另一成就是確定了英語(yǔ)基本語(yǔ)篇單位。在確定基本語(yǔ)篇單位時(shí),不同的研究者往往運用不同的理論。Givon(1983)認為從句應該成為語(yǔ)篇的基本單位,Sacks(1974)認為談話(huà)的話(huà)輪應該成為語(yǔ)篇的基本單位,Polanyi(1988)堅持語(yǔ)篇應該以自然句為切分單位,Grosz 和Sindner(1986)認為語(yǔ)篇的基本單位應該從語(yǔ)篇的上下文中獲取,它是由一定的符號所反映的信息載體,能反映事物的單個(gè)狀態(tài)或部分狀態(tài),最有影響的修辭結構理論認為從句應該是語(yǔ)篇的基本單位,不管從句有沒(méi)有語(yǔ)法標記或詞匯標記。

  然而,在具體標注時(shí),Marcu等研究者對基本語(yǔ)篇單位有了新的規定:所有有詞匯或句法標記的起狀語(yǔ)作用的從句都屬于基本語(yǔ)篇單位,包括起狀語(yǔ)作用的非謂語(yǔ)動(dòng)詞詞組;充當主語(yǔ)、賓語(yǔ)、補語(yǔ)的從句不屬于基本語(yǔ)篇單位;定語(yǔ)從句、后置的名詞修飾短語(yǔ)或將其他基本語(yǔ)篇單位割裂開(kāi)的從句或非謂語(yǔ)動(dòng)詞短語(yǔ)為內置語(yǔ)篇單位;除此而外,還有一定數量的有明顯語(yǔ)篇標記的短語(yǔ)作為基本語(yǔ)篇單位,如 由in spite of(盡管),according to(根據)等引導的短語(yǔ)。

  Marcu的切分方法綜合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理論,在確定基本語(yǔ)篇單位時(shí)考慮到詞匯、句法、語(yǔ)義和在句中的位置等因素。

  3.修辭關(guān)系的擴展

  當初,Mann和Thompson(1987)提出修辭結構理論時(shí)只給出20多種修辭關(guān)系,但他們明確指出這是一個(gè)開(kāi)放關(guān)系集,既然是開(kāi)放性的,就意味著(zhù)讀者在給定話(huà)語(yǔ)的內部可以定義出其他的關(guān)系類(lèi)型。Marcu(2000)根據標注的語(yǔ)料庫總結出53種單層核心關(guān)系和25種多層核心關(guān)系,78種定義關(guān)系又分成16個(gè)組別,每組都具有相同的修辭功能。

  就如同當初的定義關(guān)系集一樣,這些關(guān)系覆蓋了基本語(yǔ)篇單位、語(yǔ)段乃至整個(gè)語(yǔ)篇。通過(guò)這些關(guān)系,不同層級的語(yǔ)言片段被連接起來(lái),構成一定的抽象形式。

  4.標注標準和方法的制定

  為了建立高質(zhì)量的前后一致的標注標準和方法,Carlson(2001)等研究者采用人工標注的方法。他們所選用的標注者都是有過(guò)標注經(jīng)歷的、從事語(yǔ)篇分析和新聞報道的專(zhuān)業(yè)人員。在正式標注之前,他們都接受專(zhuān)門(mén)的語(yǔ)篇結構標注培訓,培訓包括3個(gè)階段。

  在第一階段,向標注者介紹修辭結構理論和語(yǔ)篇分析工具。在培訓的第二階段,標注者開(kāi)始探索語(yǔ)篇結構的特征。在培訓的最后一個(gè)階段,標注小組謀求在構建語(yǔ)篇總結構圖時(shí)保持一致,盡量減少分歧。

  最終,標注小組研制出兩個(gè)基本策略用于文獻分析并建立相關(guān)的語(yǔ)篇結構圖。策略之一是對文本的直接分析,可以在頁(yè)邊空白處標出記號,也可以將文獻切分成一定的語(yǔ)段并標出記號,根據這些標注建立語(yǔ)篇結構圖。以這種方式建立樹(shù)型結構圖,標注者必須預測到隨后的語(yǔ)篇結構。然而,其后語(yǔ)段的修辭關(guān)系,尤其是較大的語(yǔ)段,可能不是太明顯,這就是為什么這一標注策略更適用于短篇文獻的標注。

  另一策略是將文本分析與建立語(yǔ)篇結構兩項任務(wù)同時(shí)進(jìn)行,很可能是成塊地標注而不是循序漸進(jìn)地一步一步地增加。以這種策略進(jìn)行標注,標注者一次可以切分很多語(yǔ)篇單位,并為每個(gè)自然句建立結構圖,然后將相鄰的自然句連接起來(lái),構成較大的語(yǔ)段結構樹(shù)。最終的語(yǔ)篇結構樹(shù)是通過(guò)連接語(yǔ)篇結構中主要語(yǔ)塊而建成的。

  5.標注質(zhì)量的檢驗

  標注質(zhì)量的控制是通過(guò)標注者對標注結果的反復修改和局部隨機的自動(dòng)交叉核實(shí)來(lái)實(shí)現的。為了確保標注語(yǔ)料庫的質(zhì)量,研究小組采取了很多措施,這些措施主要涉及到兩個(gè)方面,即檢驗語(yǔ)篇結構樹(shù)的效度和保持標注者內部的一致性。

  5.1 效度檢驗

  效度檢驗從兩個(gè)方面進(jìn)行,即句法和語(yǔ)義。句法檢驗確保每棵樹(shù)只有一個(gè)根結,并將樹(shù)與文獻進(jìn)行對比以防句子或語(yǔ)段被遺漏。語(yǔ)義檢驗主要是關(guān)系到核心語(yǔ)段的指派、修辭關(guān)系的選擇以及語(yǔ)篇結構樹(shù)的層次。為了保證檢驗質(zhì)量,研究小組研制出語(yǔ)篇分析器以及圖形掃描儀。所謂圖形掃描儀,就是指,在圖形環(huán)境下,自左而右漸進(jìn)地為各個(gè)篇章單元給出一種最有可能的修辭關(guān)系和篇章結構地位。分析器和圖形掃描儀經(jīng)常可以確認出人工檢驗無(wú)法覺(jué)察的錯誤,都可以成功地作用于所有語(yǔ)篇結構樹(shù)。

  5.2 標注一致性

  在整個(gè)語(yǔ)料庫的建設過(guò)程中,研究者一直設法保證標注者之間內部的一致性。首先,他們研制出一種算法,該算法可以計算出語(yǔ)篇層級結構的Kappa數據。(Kappa算法曾被廣泛地運用于語(yǔ)篇實(shí)證研究中,該算法可以測算出研究者在作出分類(lèi)決策、預測可能性方面的`一致性。)如果Kappa數據大于0.8,就意味著(zhù)具有較高的一致性;如果數據值在0.6和0.8之間,就意味著(zhù)較好的一致性。

  6.標注語(yǔ)料庫的挖掘

  借助于以RST理論為支撐的語(yǔ)篇標注語(yǔ)料庫,研究者可以對語(yǔ)篇進(jìn)行三個(gè)層次的分析,即語(yǔ)篇標記詞功能的分析、不同類(lèi)型的語(yǔ)篇結構圖的描述和比較、語(yǔ)篇中從句間修辭關(guān)系的描述和比較。

  6.1 篇章連詞的研究

  篇章連詞功能研究一直是理論語(yǔ)言學(xué)和計算機語(yǔ)言學(xué)研究的主題,而且網(wǎng)絡(luò )語(yǔ)料庫方便了研究者對關(guān)聯(lián)詞語(yǔ)的研究,但利用豐富的標注語(yǔ)料庫資源進(jìn)行分析的研究不多。語(yǔ)篇結構標注語(yǔ)料庫可以使研究者在多種語(yǔ)境中對關(guān)聯(lián)詞進(jìn)行元語(yǔ)言分析,使人們能了解到它們在語(yǔ)篇中出現的頻數、在句中的位置、所發(fā)揮的篇章修辭作用、核心性、輔助性等方面信息。

  例如,研究小組總結了since 和 as在語(yǔ)篇中的功能。經(jīng)研究發(fā)現,就這兩個(gè)詞在語(yǔ)篇中出現的頻率而言,在語(yǔ)篇中起連接兩個(gè)基本語(yǔ)篇單位修辭作用的情況只有1/3,因為它們往往在命題層面上發(fā)揮作用而不是在語(yǔ)篇層面上。就它們在語(yǔ)篇中發(fā)揮的修辭作用而言,as涉及到的關(guān)系類(lèi)型遠遠地多于since,但兩者所引導的語(yǔ)篇單位往往都處于輔助位置而非核心位置。

  6.2 語(yǔ)篇結構圖的描述和比較

  除了Lancaster大學(xué)的OBC語(yǔ)料庫(Garside等,1987;Biber等,1998,轉自Carlson,2001)提供的語(yǔ)體或語(yǔ)域研究,以及TDT語(yǔ)料庫(Wayne,2000,轉自Carlson,2001)提供的話(huà)題確認研究之外,能幫助研究者對語(yǔ)篇進(jìn)行全面分析的語(yǔ)言資源不多。然而,以RST理論為支撐的語(yǔ)篇結構標注語(yǔ)料庫,勾畫(huà)出每一份文獻的多層次的語(yǔ)篇修辭結構圖,據此可以對結構樹(shù)的各個(gè)層次進(jìn)行分析。例如,結構樹(shù)的抽象層面,對修辭關(guān)系和文獻的內容進(jìn)行非詞匯化的概括,為研究交際意圖帶來(lái)很多方便。

  又如,語(yǔ)篇研究結果表明在文本的總體框架上新聞類(lèi)語(yǔ)篇不同于故事類(lèi),因為新聞類(lèi)語(yǔ)篇的結構多呈倒三角形,但這些研究很難解釋產(chǎn)生差異的根本性原因。語(yǔ)篇結構樹(shù)可以彌補這一缺陷,這些樹(shù)使研究者清楚地看到在實(shí)現作者的交際意圖時(shí)、在體現篇章的互文性時(shí),同樣的句式在不同的文本中發(fā)揮的作用是不同的,在有的文獻中起核心作用,而在有的文獻中起輔助作用。事實(shí)上,這些結構樹(shù)很清楚地反映出,即使是同一類(lèi)型的語(yǔ)篇,隨著(zhù)語(yǔ)境的改變、主題的變化,文本的結構也會(huì )發(fā)生相應的變化。

  6.3 語(yǔ)篇內修辭關(guān)系的研究

  通過(guò)對標注語(yǔ)料庫的分析和挖掘,研究者發(fā)現從句間的修辭關(guān)系在文本中發(fā)揮作用的頻率是很不一樣的。例如,研究者發(fā)現“詳述-補充”修辭關(guān)系使用的頻率最高,因為作者在表達過(guò)程中往往要借助于前面的背景,通過(guò)對前面的背景補充說(shuō)明來(lái)闡發(fā)新的觀(guān)點(diǎn)。與此類(lèi)似的還有列舉關(guān)系和解析關(guān)系。修辭關(guān)系的元語(yǔ)言分析使人們能了解到它們在語(yǔ)篇中出現的頻數、在句中的位置、核心性、輔助性等方面信息。除此之外,語(yǔ)篇結構樹(shù)還勾畫(huà)了修辭關(guān)系如何發(fā)揮語(yǔ)篇銜接與連貫的功能。例如,研究者通過(guò)對篇章標注語(yǔ)料庫的分析發(fā)現,“列舉”關(guān)系不但起到舉例的作用,而且在連接平行語(yǔ)篇單位、平行語(yǔ)段和平行語(yǔ)篇時(shí)發(fā)揮巨大的作用。事實(shí)上,這一研究結果驗證了Halliday 和Hasan(1976)的觀(guān)點(diǎn),即平行結構是一種語(yǔ)篇銜接手段。

  6.4 應用性研究

  語(yǔ)篇結構標注語(yǔ)料庫為文獻檢索、自動(dòng)剖析、自動(dòng)文摘、自動(dòng)翻譯等提供相關(guān)數據,例如,研究小組所設計的在線(xiàn)文件剪接系統。借助于篇章結構標注語(yǔ)料庫,研究者發(fā)現并非所有的句子都是基本語(yǔ)篇單位,也不是所有的語(yǔ)篇單位都具有相同的作用,有的屬于核心的,有的屬于輔助的,有的在實(shí)現作者的交際意圖時(shí)、在體現篇章的互文性時(shí)發(fā)揮關(guān)鍵作用,有的并沒(méi)有。以此類(lèi)推,篇章中的詞匯、短語(yǔ)也有核心與輔助之別。篇章結構標注語(yǔ)料庫可以幫助創(chuàng )建一個(gè)以篇章結構為指導、以詞匯短語(yǔ)有界和無(wú)界合并為手段的文件剪接系統。同時(shí),篇章結構標注語(yǔ)料庫幫助創(chuàng )建了一個(gè)以篇章結構為指導、以機械文摘為基本手段、再配合消除冗余、可讀性加工的綜合自動(dòng)文摘系統。

  7.結論

  2001年,由Daniel Marcu博士主持的研究小組以RST理論為支撐創(chuàng )立了語(yǔ)篇標注語(yǔ)料庫。研究小組所標注的385篇華爾街報文章皆取自賓州樹(shù)庫,篇幅長(cháng)度不等,從31個(gè)詞到2,124個(gè)詞,總詞數達到176,000,平均每篇文章458個(gè)詞。文章的內容涉及到各種話(huà)題,如財政報道、商業(yè)新聞、文化點(diǎn)評、編者按、讀者來(lái)信等。語(yǔ)料庫建設的主要成就為:確立了如何將語(yǔ)篇切分為基本語(yǔ)篇單位的理論、擴展了修辭關(guān)系集、為RST理論的運用提供了廣闊的前景。

  參考文獻:

  [1] [ZK(#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.

  [2] Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].獵omputational Linguistics,12(3):175-204.Talmy Givon,1983/1986.

  [3] Halliday,M.A.K.& R.Hasan.獵ohesion in English玔M].London:Longman,1976.

  [4] Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I (SI/ RS-87-190),1987.

  [5] Marcu,D.玊he Theory and Practice of Discourse Parsing and Summarization玔M].Cambridge,Massachusetts:MIT Press,2000.

【語(yǔ)篇結構標注研究的綜述論文】相關(guān)文章:

網(wǎng)絡(luò )道德研究綜述的論文10-21

姜夔研究綜述的論文10-21

科技倫理研究綜述論文04-11

關(guān)于靈商研究綜述的論文10-26

周邦彥的研究綜述論文10-21

姜夔的研究綜述論文10-21

周邦彥研究綜述論文10-21

姜夔研究綜述論文10-21

窮達以時(shí)研究綜述論文10-29

繁昌县| 沂源县| 辽宁省| 比如县| 景德镇市| 武鸣县| 喀什市| 资源县| 大悟县| 肥西县| 平定县| 太白县| 江阴市| 葵青区| 余干县| 平凉市| 长寿区| 茌平县| 曲阜市| 邹城市| 昭平县| 汽车| 凤冈县| 陇南市| 潍坊市| 绵阳市| 龙江县| 北碚区| 额济纳旗| 巴青县| 夏河县| 沂源县| 汤阴县| 灵山县| 溧阳市| 上虞市| 综艺| 清新县| 华宁县| 盐亭县| 新河县|