您好,欢迎来到年旅网。
搜索
您的当前位置:首页语料库_语料库语言学及其应用

语料库_语料库语言学及其应用

来源:年旅网
第24卷第4期           佛山科学技术学院学报(社会科学版)            No.4Vol.24

2006年7月

JournalofFoshanUniversity(SocialScienceEdition)

Jul.2006

语料库、语料库语言学及其应用

陈 潇

(暨南大学外国语学院,广东广州510632)

摘 要:语料库的发展随着计算机科学的发展经历了三个阶段;语料库语言学是基于借助计算机大规模对语料库的语料进行分析和标注的语言科学。语料库语言学在语言教学和研究中所能发挥的作用越来越大,从语言研究,语言教学、语言测试、词典编撰到人工智能等领域都开始应用语料库语言学。语料库语言学给以学生为中心的交际法语言教学提供理论和实践平台。关键词:语料库;语料库语言学;语言研究中图分类号:H0     文献标识码:A          文章编号:10082018X(2006)0420014206

  随着计算机科学的迅猛发展,人类语言学的发展不断加速,特别是过去语言学家在语言研究方面认为十分困难或几乎不可能的研究工作,今天凭借语料库和语料库语言学可以顺利进行。本文拟就语料库发展、语料库语言学理论基础、研究方法及其应用进行研究。

世纪60年代的BrownCorpus和LOBCorpus为代

表。这是语料库发展的初期,规模都比较小,如BrownCorpus和LOB都只有100万词左右。这种

小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌;第二代以20世纪80年代的BirminghamCollectionofEnglishText和theLongman󰃗LancasterEnglishLanguageCorpus为代表。第二代语料库在规模上大大超过了第一代,同时在标注方面增加了词的语法属性标注(如,词性等),直到现在,人们越来越重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次;到了20世纪90年代,语料库进入了第三代的商业化时代,这类语料库的特点首先在规模上一般都超过几亿甚至数十亿词,在建设过程中使用先进的计算机文字处理等技术。如规模庞大的CollinsCobuildBankofEnglishCorpus。

CollinsCobuildBankofEnglish,即英语语料

一、语料库

语料库,即所收集的全套语言材料,它是某种语言中自然出现的,可以是书面的,也可以是口头的,许多语言学家都把这种材料作为研究语言的素材。过去,语料库中的材料由人工收集和整理;现在,由于使用计算机的先进技术建设语料库,效率和规模都有了很大提高。语料库是由从有代表性的语言材料中随机抽样输入计算机并可由计算机处

理的大量文本组成的。语料库收入的文本(或词次)越多,其所覆盖的面越宽,则语料库提供的信息就越可靠。

语料库的发展经历了三代更替。第一代以20

收稿日期:2006204216

库,建立在英国的伯明翰大学。该语料库系通用英语语料库,所收文本覆盖面很广,不仅有各种体裁

作者简介:陈 潇(19662),女,湖南长沙人,暨南大学讲师,文学硕士。

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第4期           陈 潇:语料库、语料库语言学及其应用的书面语料,而且还有相当数量的口语语料,是当今最大和最具权威性的英语语料库。

由于Cobuild的BankofEnglishCorpus的词频统计是根据拥有一亿多词次的语料库进行统计的,而这一数字又大大超过了过去靠人工进行统计的一些词频表,如MichaelWest的AGeneralSer2viceListofEnglishWords和TheCambridgeEng2lishLexicon,故其可靠性要大得多。根据CobuildBankofEnglishCorpus的词频统计选出的头700个词,有不少只是在CambridgeEnglishLexicon的3级至7级词表中才出现,例如,仅字母A一项就有accord(5级),act(3级),actually(3级),aid(4级),allow(3),announce(5级),area(3级),arms作武器解(5级),army(3级),around(5级),art(3级),15

二、语料库语言学的理论基础

语料库语言学是基于以计算机为基础的语言

科学。Leech曾简述语料库语言学的发展历史,利用语料库研究语言是从Bloomfield之后的美国一些结构主义语言学家开始的。这些语言学家受实证主义和行为主义观点的影响,认为语料库中的材料是语言学研究的主要素材。在他们看来,用收集到的某种语言中自然出现的语言材料建立起足够大的语料库,对这种语言是必要的。首先,有人认为语料库语言学是一种理论架构。但完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday指出,语料库语言学作为一种理论架构,将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现。而语言系统,或者说语法体系是一种统计概率上的自然结果。这一思想与所谓语言学规则是浮现特征的说法颇为暗合。也就是说,因为严格设计并创建的语料库所包含的应该是真实文本和真实话语,其中语言实例在出现频率上的优势即是对其背后语法体系的概率体现。另外,我们知道Halliday功能主义思想中的一个重要概念就是“意义的选择”。这种意义的选择反映了语言运作的内在机制。语料库辅之以计算工具,便可以将这些机制进行抽象概括从而形成语法。其次,另一种观点则认为语料库语言学是一种基于语料库的研究方法。然而,尽管众多语言学家承认语料库对语言研究的巨大贡献,他们并不认为语料库语言学像语言学其他分支一样成为独立的学科领域。Tognini2Bonelli对语料库语言学的性质进行了重新思考。她指出语料库语言学并不是一个真正意义上的科学研究领域,只不过是为语言研究提供了一种方法论基础,同时它又给语言学的研究提供了新的哲学思路。所以它是介于理论和方法论之间的一种东西。应该说她的这一观点代表了相当多语言学家的看法。比如,Leech说过,“……语料库语言学倒是更应该被看做是从事语言研究的一种方法论基础。理论上(而且常常在实践当中)语料库语言学

其attack(3级),authority(4级)和available(4级)。中accordingto和attempt连前7级也未收入。语料库的建设包括原始材料的收集工作,构成原始语料库,然后对语料进行标注,生成标注语料库。我们可以应用语料分析软件,对标注的语料库进行各种不同的统计分析,从而揭示目标语言的各种特征。

语料语言学在其发展的初期并没有引起太大的共鸣,随着语料库的标注内容不断地扩大,并向深度发展,计算机的发展促进语料库建设手段不断向现代化和自动化过程发展,语料库在语言教学和研究中所能发挥的作用越来越大,从语言研究,语言教学、语言测试、词典编撰到人工智能等领域都开始应用语料库。现代语料库语言学开始得到越来越多人的重视,我国知名的语言学家桂诗春教授2001年10月份在全国第8届当代语言学研讨会上,作了“基于语料库的中国学生英语分析”的主题发言,引起与会代表的极大兴趣,有些代表甚至很惊叹地说,“原来,语料库有这么强大的功能!”

由于语料库收集了大量的人们实际使用的语言,而且可根据各种研究需要通过计算机快速加以处理,故语料库为语言研究开辟了广阔的新研究领域。目前,语料库可用于以下几个方面的研究:(1)为建立语言模式提供依据;(2)为进行文体研究提供定性和定量分析的基础;(3)为进行语义学和语用学研究提供可靠的基础;(4)为对英语语法和词汇进行定性和定量研究提供基础。

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

16

佛山科学技术学院学报(社会科学版)            第24卷

究成果的真实性和可信性。又由于在采集和处理语料(尤其是口语语料)的过程中发展了比过去采访调查对象(informants)更为细致和系统的方法,从而使调查和记录语言材料的技术出现很大的革新。此外,语料库具有资源再利用的特点,即同一语料可以为各种不同的研究目的和学科服务。同时,因为语料库能够不断地增加新的语料,更新内容,语料库因此具有开放性的特点。

语料库语言学要想真正揭示语言在实际使用中的情况,首先需要有前文所提到的理想的语料库以及相应的工具软件和一整套适合语料库语言学的语言研究理论。这一重任就落到了语料库语言学家们的身上。他们应该是怎样的一种身份或者具备怎样的素质才算比较理想呢?(1)语言学家+计算机科学家;(2)具备语言学理论知识的计算机科学家;(3)具备计算机知识的语言学家。一般看来,应该是第一种组合,而事实上我们认为第三种才是一种比较切合实际的要求。首先,语料库语言学的研究对象是语言;其次,研究中对计算机知识的要求并不是很高,具备计算机知识的语言学家只需要知道哪些功能在技术上能实现就可以了,编程的工作可交由专门的技术人员去完成。对语言的本质的研究应该是语言学家的终极目标,语料库语言学家自然也不例外。他们应该在前人近百年的研究基础上更进一步,完成很多语言学家因为技术手段上的制约想完成却无法完成的任务。

自1961年最早的Brown计算机化语料库的诞生,至今,它对语言学的发展到底产生了怎样的影响呢?虽然如前文所述,语料库语言学为语言学的研究提供了新的哲学思路,但我们认为它在语言研究方法论上的意义更加深远。它使我们有办法利用语料库提供的数据将我们对语言规律的朴素的认识,上升为语言学理论或者用这些数据来纠正我们常识中对于语言规律理解的种种谬误。这种通过定量定性相结合的方法得出的结果更加有说服力。从目前语料库语言学的发展来看,它还无法获得与其他经典语言学的领域相当的地位。至于将来随着计算机技术和语料库研究方法上的发展,语料库语言学能否为传统语言学带来一些重大变革还将有待时间的检验。

与其他语言学分支轻松结合:我们能够借助语料库研究语音学,句法……。”Leech明确指出了语料库语言学的工具性和方法论价值。但同时他又表示:“语料库语言学不仅界定了一种研究语言的方法论,……而且事实上界定了该项研究课题的一些哲学󰃗理论视角。”

换言之,借助于语料库语言学所提供的方法,语言学家既可以验证由内省得到的语言规则,也可以基于语料库提供的数据推演出语法、语用规则。由于不同类型的语料库和丰富的标注手段的出现,语料库语言学使我们的研究视野更加开阔,研究手段也愈加强大了。因此认为语料库语言学是语料库的一种研究方法倒是更能准确地反映语料库语言学的性质和定位。

三、语料库语言学的目的语料库的建设和应用对语言学理论正在产生影响,有可能引起语言学理论和方法的重要变革。早期对语言结构的研究都是以实际语料为基础的,萨丕尔、布龙菲尔德等语言学家都采集和研究了英语及一些少数民族的语言,才提出他们的语言学理论,对语言的结构做出了描写和解释。后来,结构主义语言学越来越转向内省和形式化研究,专门探索人的大脑中生成语言的机制,因而与语言的实际使用距离越来越远。现在,使用计算机为工具建立语料库,就使几代人以前不可能进行的大规模的语料分析成为现实。许多语言现象因此可以进行更充分的描写和解释,这可能对以内省为方法的语言学理论产生冲击和影响。例如,新出版的《朗文英语口语与笔语语法》就说明,“根据口语语料库建立起来的语法是一种全新的语法”。语料库语言学无疑会广泛地丰富语言学的理论和方法。从目前的态势看来,它不仅发展了对实际语料的研究方法,而且也并不排除内省的方法。例如,实际语料常被用来验证关于语言的一些假设,这些假设可以是从大量语料中归纳出来的,也可以是研究者内省的结果,或者二者兼而有之。可以说,语料库语言学有助于形成兼有早期美国结构主义语言学语料归纳法的优点和乔姆斯基学派内省法长处的综合的研究方法。语料库语言学注重实证性的研究方法,重视实际使用中的语言,注重用数据来说话,这样就提高了研

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第4期           陈 潇:语料库、语料库语言学及其应用17

四、语料库和语料库语言学的应用

语言研究 语料库就是为了一定的目的,根据一定的原则搜集或取样并按照一定的方法分类集合起来的一批语言材料。由于语料库具有语言样本大、语域广等特征,其收集的语言材料具有很强的代表性,利用语料库研究语言的特征,已成为语料库最重要的应用之一,比如,语料库可用来研究特定语域的词频、语言结构、意义表达以及语用等特征。语料库的检索功能和统计手段给句法研究、语篇分析、会话分析和语音研究提供了方便。互联网上现代英语国际电脑文档(ICAME)介绍了许多近年来以语料库为基础的语言研究项目,说明语料库对于语言研究的重大意义。在内省法毫无用处的历史语言学中,语料库是最有效的研究手段,因为语料库语言学可以处理一定范围内的语料,揭示语言在某一历史阶段中的情况。朗文出版社1999年出版的LongmanGrammarofSpokenandWrittenEnglish(朗文英语口语和笔语语法)就是一部完全建立在语料库基础上的语法书,它系统地揭示了英语口语和笔语的语法特点。这本语法书依据的语料库由37244个文本,共计4000多万词的文本语料组成。语料主要选自四个语域:会话、小说、新闻和学术文章。有了这样一个规模宏大、语域相对齐全的语料库,编者就可以做到:(1)所有例句都取自语料库,真实可信;(2)对各种语法现象的分布和频率进行全面而可靠的统计,让使用者清楚地知道哪些是常见的语法现象、哪些是一般现象、哪些属于例外情况。

语言和外语教学 利用语料库对语言的特征以及学习者的语言使用特征等方面作出分析,其分析结果可应用于指导语言教学的实践,比如,语言现象的分布和频率等信息可以用来指导教师确定哪些是教学的重点和难点等;学习者语言应用和使用失误等信息可以帮助教师诊断学生在语言学习过程中可能存在的问题是什么,并为学生进行富有针对性的训练。Jones把语料库用于语言学习的方法叫做“语料驱动学习”。这一学习方式的关键是学生通过分析语料库提供的语言使用模式对语法规则及词汇进行推理习得。这种方法有三个主要优势:(1)它对语言学习过程有相当大的影响;鼓励学

生思考质疑;帮助学习者培养观察目标语的语言模式并归纳总结此模式的用法。(2)它促使教师变换角色,在以学生为中心的研究中充当指导者、协调者。同时也可以丰富教师的语言知识,更好地解答学生在学习中提出的问题。(3)对在语言教学与学习中的语法地位进行重新评估,把学习者自己对语法现象的发现作为语言学习的焦点,这就提出了一种新型的“语法意识培养”模式。学习者在学习中的角色不再是被动的,他们成了主动的研究者。

如果把外语教学建立在以语料库所提供的信息为基础的,以词汇为中心的教学模式上,我想至少有以下几方面的好处:(1)它为学生提供了可供学习的典型的语料,这些语料既包括了最常用的词汇,又包括了最常用的语法现象,使学生在学完这些有限的语料后对英语有一个较为全面的举一反三的基础。(2)使学生能在自然的语境中,学到在真正交际中使用的语言。(3)摆脱已证明是收效不大的以语法为中心的教学方法。语料库和语料库语言学对外语教学在理论、内容和方法上具有十分重要的促进和指导作用。

词典编撰 大型语料库对于词典编撰无疑极有用处。如《美语传统词典》参考了美国中学生阅读语料库。《科林斯—科贝尔特英语词典》有自己的大型语料库。广东外语外贸大学词典研究中心的黄建华教授目前承担《现代法汉大词典》的编撰工作,此项工作也是寻求在编写词典的过程中建立双语语料库,探索大型词典出版之后原始语料的再利用以及相关词典(半)自动化生成的路子。《朗文英语词典》所依据的朗文语料库网包含3个子语料库:一是朗文󰃗兰卡斯特语料库,含英美语各种类型的书面语3000万字;二是朗文学生语料库,含世界上惟一的各国英语学习者书面英语语料库;三是英语口语语料库,含第一个日常英语会话语料库。词典正文中的词义解释、例句和词语使用频率标记等都得益于朗文语料库网。

语言测试 语料库在语言测试中的应用主要体现在命题、试卷分析和基于语料的语言测试模式设计等方面。在命题方面,语料库首先可以为命题者提供合适的素材,查找合适的材料是命题者普遍感到比较困难而且费时的一个过程。更为重要的是,语料库可以为命题者提供考点分析,如果已经

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

18

佛山科学技术学院学报(社会科学版)            第24卷

大大方便了文本的对译;但由于没有完善的句法分析器,因此,整句翻译或段落互译尚不太成功,常常生成语句不甚通顺的字符串,文本需要大量的人工编辑。

话语辨认与话语合成 研究者用电脑处理口语语料库中经过语音韵律和语法标记赋码的语料,用概率统计的方法推导出必要的规则,从而把文字材料变为具有声音的话语,这就是话语的合成。这方面已经获得了初步的成功,但用电脑辨认和识别复杂的话语还不太成功。当然,在给语料赋码时使用的概率手段也可用于辨别由简短停顿明确隔开的语音材料,也就是说可以识别和区分与一个语音信号最有可能相应的词项。计算机从而能算出由两三个词项组成的字符串的概率,不断更新推算的准确性和范围,逐步改进机器辨认话语的能力。这方面任何微小的进步都很快会在通讯、交通管理及法学等领域得到应用。

参考文献:

[1] ALDERSONC.Docorporahavearoleinlanguage

建设一个规模较大的而且具有语言使用失误标注

的学习者语料库(如CLEC),根据错误的分布和频率等信息,命题者就很容易确定哪些词、哪些语言结构应该作为考试的重点。根据语料库提供的信息进行命题,可以十分有效地提高考试的效度,同时保证考试的科学性和针对性。在试卷分析方面,我们可通过创建一个专门的试卷语料库,收集某种考试的历年试卷,并对试卷语料库进行必要的标注(如:词汇和考点内容等)。利用标注的语料库,我们就可以对词频和考点分布的频率等作出科学的分析,这对于分析试题内容效度十分有用,同时还可利用语料库编写富有针对性的应试辅导资料。随着科学技术的不断发展,计算机化考试正在逐渐地成为语言测试的一种发展潮流。语料库在设计计算机化考试方面能够发挥出重要作用。此外,语料库语言学有力地推动了计算机语言学的发展,主要表现在语料处理工具的研究、机器翻译及话语识别和话语合成等方面。

语料处理工具的研制 语料库语言学推动了许多软件工具的研制,如词汇赋码器和句法分析器。赋码就是对文本中的每个字的词类特征及其他特征加上电脑能识别的符号。这项工作极其劳工费时,因此必须设计机器赋码的软件,才能大规模处理语料。概率的方法在这里获得了成功。研究者使用马科夫模型可以定出如何在一个字符串中对每个字符赋予一组可能标记的规则,也就是说,根据概率可以相当准确地估计出字符串中的字符最可能有的标记顺序,列出概率矩阵。无论用短语结构分析的方法,还是用字符串处理的方法,总有一些语法结构或因缺乏理论上的共识,或因缺乏可靠的频率资料,不能进行自动分析,因而句法分析器还未达到令人满意的程度。

机器翻译 单语种的语料库可以间接为机器翻译服务,并行语料库可直接为机器翻译服务,特别是科技资料的翻译。从1990年代初以来,研究者试验在双语并行语料库的基础上使用统计手段和对应的词表,无须进行语言的结构分析,直接进行对译。例如,在加拿大议会文档英法双语语料库的基础上他们研制了英法语机器翻译系统。在我国也出现了不少英汉对译的优秀电脑软件。这些软件基本上都是在大型双语词库的基础上研制的翻译器,

󰃗assessment?[C]󰃗ThomasJ,ShortM.UsingCor2

poraforLanguageResearch:StudiesinHonourofGeoffreyLeech.LondonandNewYork:Longman.1996.

[2] BI.Long2BERD,JOHANSSONS,LEECHG,etal

manGrammarofSpokenandWrittenEnglish[M].London:PearsonEducationLimited.1999.

[3] HALLIDAYMAK.Corpusstudiesandprobabi2lis2

󰃗ticgrammar[C]󰃗AijmerK,AltenbergB.English

CorpusLinguistics:

StudiesinHonourofJan

Svartvik.LondonandNewYork:Longman.1991.[4] LEECHG.TheStateoftheArtinCorpusLingui2

󰃗stics[C]󰃗AijmerK,AltenbergB.EnglishCorpus

Linguistics:StudiesinHonourofJanSvartvik.LondonandNewYork:Longman.1991.

[5] SINCLAIRJ.Basiccomputerprocessingoflong

texts[A].LeechGCandlinCN.ComputersinEng2lishLanguageTeachingandResearch[C].London:Longman.1986.

[6] WILSONE.TheAutomaticGenerationofCALL

󰃗WICH2ExercisesfromGeneralCorpora[C]󰃗

.MANNA,FLIGELSTONES,McEneryT,etalTeachingandLanguageCorpora.LondonandNew

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第4期           陈 潇:语料库、语料库语言学及其应用

York:Longman.1997.

[7] BIBERDouglas,SUSANConrad,RANDIReppen.

CorpusLinguistics:Investigatinglanguagestructureanduse[M].Cambridge:CambridgeUniversityPress,1988.

19

[11] OAKESMichaelP.StatisticsforCorpusLingui2

stics[M]Edinburgh:EdinburghUniversityPress,1998.

[12] SVARTVIKJ.TheLondonLundCorpusofSpo2

δ[8] JOHANSSONS,AStenstrEm.EnglishComputer

Corpora:SelectedPapersandBibliography[M].Berlin:MoutondeGruyter,1991.

[9] KENNEDYGraeme.AnIntroductiontoCorpusLin2

guistics[M].AddisonWesleyLongman,1998.[10] LAWLERJohnM,HELENAristarDry.Using

ComputersinLinguistics:APracticalGuide[M].London:Routledge,1998.

󰃗kenEnglish:DescriptionandResearch[C]󰃗Lund

StudiesinEnglish82.Lund:LundUniversityPress,1990.

[13] 许葵花,张卫平.论语料库语言学在外语教学中的应

用[J].外语与外语教学,2003,(4).

[14] 潘永木梁.语料库语言学的目的和方法[J].解放军

外国语学报,2001,(2).

(责任编辑:梁念琼)

ApplicationofCorpusand

CorpusLinguistics

CHENXiao

(CollegeofForeignStudies,JinanUniversity,Guangzhou510632,China)

Abstract:Withthedevelopmentofcomputertechnologyinrecentyears,corpuslinguisticshasexperi2encedthreesteps.Basedonhistoricalbackgroundofcorpuslinguistics,thispaperfocusesontheappli2cationsofcorpuslinguisticsinlanguagestudies,boththeoreticallyandmethodologically.Keywords:corpus;corpuslinguistics;languagestudy

© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务