什么是语料库?

参差不齐的读音2023-02-04  31

语料库中存放的是在语言的实际使用中真实出现过的语言材料。

1、语料库

是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

2、语料库分类

异质的、同质的、系统的、专用的。

3、语料库特征

语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工(分析和处理),才能成为有用的资源。

1、语料库与纸质词典、电子词典、搜索引擎相比,兼具准入条件高、存储容量大、更新换代快、搜索便捷的特点。

2、语料库能够丰富商务翻译教学材料.由模拟语料或人工语料构成的教学材料说服力不强,与商务翻译实践连接不够紧密,导致教学效果不理想。

3、基于语料库的教学改革有利于使商务翻译实践与教学紧密结合,改善教学效果.商务活动由于与各方经济利益紧密相关。

4、优点:研究方便,可重用,功能多样,分析清晰。

5、缺点:语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差),标注不一致,准确率低。

平行/对应语料库(parallel corpora)是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库(uni-directional parallel corpora)、双向平行语料库(bi-directional parallel corpora) 和多向平行语料库(multidirectional parallel corpora)等三种形式。\x0d\x0a对比/类比语料库(comparable corpora)是由不同语言的文本或同一种语言不同变体的文本所构成的两个或两个以上的语料库。 类比语料库也可再细分出单语类比库和双语/多语类比库。前者收集一种语言类似环境下的类似内容的文本,如Loviosa构建的ECC(English Comparable Corpus, TEC的姊妹项目)属于此种。而后者收集的是在内容、语域、交际环境等方面相近的不同语言文本,多用于对比语言学。\x0d\x0a各种双语语料库之异同\x0d\x0a语料库类型有无翻译关系文本间是否对齐\x0d\x0a对应/平行语料库有 是\x0d\x0a翻译语料库有 否\x0d\x0a对比语料库无 否


转载请注明原文地址:https://juke.outofmemory.cn/read/2889656.html

最新回复(0)