什么叫平行语料库

什么叫平行语料库,第1张

平行/对应语料(parallel

corpora)是由原文文本及其平行对应的译语文本构成的双语/多语语料库,其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库(uni-directional

parallel

corpora)、双向平行语料库(bi-directional

parallel

corpora)

和多向平行语料库(multidirectional

parallel

corpora)等三种形式。

1英国国家语料库(BNC)

网站地址:

>

小型语料库有1800万中文字。根据查询相关公开信息,语料库是语料库语言学研究的基础资源,是经验主义语言研究方法的主要资源,应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

所有考过的题目答案合集。把托福考试的时候考过的题目、答案以及由该题目引申出来的话题整理在一起的合集,形成一个语料库。托福是申请美国大学必须要通过的英语学术水平考试,语料库是指存放语言材料的仓库(数据库),语料库中存放的是在语言的实际使用中真实出现过的语言材料。

语料库指的是一个大型的文本数据集,通常用于语言学研究、自然语言处理和机器学习等领域。根据查询中国科普网显示,这些数据集通常由特定主题、领域或语言的文本组成,例如新闻报道、小说、博客文章、社交媒体帖子等等,研究人员和技术人员可以使用语料库来训练和测试语言模型、机器翻译系统、情感分析工具等等。

虚拟语料库是指使用人工智能技术模拟实际语料库的一种数据库,它可以模拟真实语料库中的语言环境,并用于支持自然语言处理系统的开发和调试。虚拟语料库中的数据可以是真实语料库中未经处理过的原始数据,也可以是人工生成的模拟数据。虚拟语料库中的数据可以是文本数据,也可以是语音数据,或者其他形式的数据。虚拟语料库可以为自然语言处理系统提供训练数据,可以帮助开发者更好地开发和调试自然语言处理系统,有助于提高处理系统的准确性和稳定性。

从事笔译工作越久,越意识到语料库的重要。最近想梳理并更新一下自己的语料库知识、技能和资源,清理一下自己的库存,希望直接或间接地有助于提高自己的翻译工作效率和质量。相应地,在这个过程中,会把涉及到的有用的东西拿出来晒一晒,以供分享和交流。

语料库是啥? 基本概念请自已查一下,就不搬来这里了。

语料库对于笔译的用处,简要地说,主要在于词法句法,译者能以语料库中的语料为参考,判断自己写出的字词句是否有毛病,也就是印证的作用。语料库还有其他用处,在下面几个高手写的文章中都有具体示例,看完这几篇差不多就能感觉出语料库的魅力所在了 (点击蓝字可跳转到相关文章) :

1 如何用“语料库”提高你的英语表达? (2018-01-21)

2 比“native speaker更懂英语”的语料库学习工具 (2018-06-28)

3 怎样利用COCA语料库提升英语用词水平? (2018-02-26)

4 COCA:翻译必知| 最好用的英语语料库,没有之一! (2017-10-16)

现在有很多在线的语料库,有单语语料库,如现代汉语、古代汉语、英语语料库,也有中英双语语料库,即平行语料库。优点是资源庞大,词条、句例很多,缺点是有的需要注册、甚至收费而且有查询次数限制,也有的搜索语法复杂。

也有人提出自己创建语料库,下面是别人的两个思路:

1 建立自己的专属英语语料库,当作电子词典、工具书、例句库用 (原文标题:建立你自己的专属英语语料库,妈妈再也不担心你的写作啦2017-01-15)

一言以蔽之:自己准备好语料,然后用AntConc,文内介绍了一点AntConc的用法。 不想付费用在线语料库,不嫌自建语料库麻烦的,可以试试这个方法。另:AntConc的开发者也有关于语料库的软件,但我还没研究,这里就只提一下,感兴趣的可以按图索骥。

2 建立自己的翻译参考用语料库,制作出的文件用于trados等CAT工具 (原文标题:如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?2017-09-20)

请注意 :文中有一步是“双语对齐”,介绍的工具是tmxmall。本人用过tmxmall的在线对齐,确实非常强大,操作很方便,只是我比较小家子气,把自己的文件提交到别人的云上,还是有点担心隐私,虽然并没有什么根据。如果处理的语料不需要注意隐私,用tmxmall还是很便利的。

其实双语对齐的工具有很多,比如SDL Trados自带的就有对齐工具,还有本人常用的Abby Aligner,根据我的经验,Abby比Trados的对齐功能好用,操作起来要方便很多很多,虽然两个工具手上都有,我一般还是用Abby Aligner。总之,在收集利器时,大家可以多尝试一下或者多了解一点别人的使用经验,不要以为工具只有某一款。

上面这些文章主要是提供思路,读者可以自己再发挥一下,比如自己去找建语料库用的其他工具、其他方法,或者自己研究出更好用的方法(这也是我对自己的期待~)。搜索资源的过程中,用英语搜很有用哦。

之前搜集了一些语料库资源,但是有段时间没去用,不了解近况,将来深入研究后,再来详细分享吧。

以上就是关于什么叫平行语料库全部的内容,包括:什么叫平行语料库、国外语料库现状、小型语料库要有多少字等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:聚客百科

原文地址: http://juke.outofmemory.cn/life/3818915.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存