beat365体育登陆网址

CCL语料库

CCL语料库

提供者:崔欣、邢丹、韦国睿

网址:http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp

一、简介CCL语料库即北京大学现代汉语语料库,由北京大学中国语言学研究中心(Center for Chinese Linguistics PKU)开发,期间得到了北京大学计算语言学研究所、中科院计算技术研究所等单位的大力支持和帮助。

CCL语料库及其检索系统为纯学术非盈利性质,语料库中的中文文本未经分词处理,检索系统以汉字为基本单位。CCL汉语语料库总字符数为783463175,其中现代汉语语料库总字符数为581794456,古代汉语语料201,668,719字。语料库中所包含的语料涉及的文献时间从公元前11世纪-当代,所涉及的文献也种类颇丰。

该语料库多用于对现代汉语中的语言现象进行分析、与国外语料库做对比研究等。在使用时,使用者应自行核对语料的准确性,再根据语料进行研究。

CCL的语料库有部分口语(北京话调查)语料,包含部分影视作品(如百家讲坛、周星驰电影等)语料,网络语料,书面语语料。其中,报纸语料占绝对大比例。CCL最新一次更新,增加了许多学术论文语料;此外CCL还有古代汉语和中英双语语料库,其中双语语料库不对外。 CCL是生语料库(除了分类、题目、作者等元信息外),正文部分未经过任何加工处理。支持复杂检索表达式(比如不相邻关键字查询,指定距离 查询,等等);支持对标点符号的查询(比如查询“?”可以检索语料库 中所有疑问句);支持在“结果集”中继续检索;用户可定制查询结果的显示方式(如左右长度,排序 等);用户可从网页上下载查询结果(text文件); CCL提供了丰富的,针对字符串的检索功能,尤其是模式匹配,让生语料库也可以满足多样性的研究需求;可以下载所有检索结果,这一点非常开放(结合左右最多显示字数,可以下载完整的检索结果)

二、使用教程ACCL语料库的查询分为普通查询、批量查询和模式查询。对于查询内容也可以进行选择,分为现代汉语和古代汉语,在“选择范围”中还可以具体到朝代和时期。

1、普通查询:

我们可以输入三种形式的关键词,分别是:纯文本、文本+符号、文本+符号+数字

·纯文本:即不包括任何特殊符号和空格的文字。

·文本+符号:这一类中可以使用的符号有【空格】(文本【空格】文本…)和|(文本|文本|文本…)。

·文本+符号+数字:这一类型有两种的格式。文本+“$/#/+/-/~”+数字+文本、 文本+“$/#/+/-/~”+数字+“!”+文本。

在普通查询中具有九种符号,分别是(空格)、 | 、$ 、# 、+ 、- 、~ 、! 、 :

·(空格) 相当于“并”,同时搜索被空格隔开的关键词,显示的结果是全部内容中同时包含所搜索的关键词的文章,显示分别包含关键词的句子。

·| 相当于“或”,显示的结果为包含关键词其中之一的文章中的句子。

·$ 表示按照所写关键词从左到右的顺序出现在同一句中,关键词之间相隔的字符数小于等于数字,如:我$10你,搜索出的句子中我、你间隔小于等于10。

·# 表示关键词同时出现在同一句的句子,不考虑前后次序,关键词之间的间隔小于等于数字。

·+ 表示按照关键词从左到右的顺序出现在同一句中,关键词之间的间隔正等于数字。

·- 表示按照关键词从左到右的顺序出现,且查询的关键词之间距离大于数字,如我-10你,搜索出的句子中,你出现在我的右侧,且距离大于10。

·~ 表示按照关键词从右到左的顺序出现,且查询的关键词之间距离大于数字,如我~10你,搜索出的句子中,你出现在我的左侧,且距离大于10。

·! 表示它后面的关键词是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

·: 使用方法author:作者名、name:篇名、type:类型、ch:中文句子、pattern:特殊模式(如叠词AABB等)、translator:译者、enname:英文篇名等关键字后面,用于分隔关键字和它们的取值。如:name:诗经

(注意:上述符号均要使用英语格式)

2、批量查询

可以上传要查询的文件,最多字数30字,要求文件里是全部符合普通查询表达式(但是在使用时没有出结果,暂没有找到原因)。

3、模式查询

如果我们想要查询“越…越…”,查询表达式为“越(A)越(B)”,如果前后想要查询一致的词语可以写为“越(A)越(A)”,A、B可用任何字母代替,大小写不限。

所查询的A和B都可以约束长度,表达方式为“(A,=3)”,表示要求A的长度为3;“(A,<5)”,表示要求A的长度不超过5;“(A,3-9)”,表示要求A的长度介于3-9之间。

例如:“越(A,<5)越(B,3-9)”,表示要求A的长度小于等于5,B的长度在3-9之间。

三、使用教程B1.打开页面进入北京大学中国语言文学研究中心选择古汉、现汉,可根据需要选择进入普通、批量、模式查询检索。

2.CCL语料库语料分类分布情况、语料库文件详细目录、语料库字符统计详细信息、汉英句对齐语料库规模及语料类型详见http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html

3.首先CCL可进行简单查询,查询表达式可以是以下形式的序列:(1)子句,(2)子句1 子句2 ...(子句和子句之间需要以空格隔开,表示逻辑“AND”关系),使用$+操作符的查询表达式, $ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。+ 符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。

4.其次批量查询,用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。文件格式为:每一行是个合法的查询表达式。返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。

5.模式查询,在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。

6.在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。 “在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

四、使用教程CCCL语料库有三种查询模式,可以依据不用的表达式查找相应的内容,也可以在结果中继续查询,还可以上传本地文件进行查询,以下是普通查询、批量查询和模式查询的使用介绍:一 普通查询1.1 查询表达式简介查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依 次介绍这些单元。1.1.1 操作符查询表达式中可以使用的特殊符号包括9个:SPACE | $ # + - ~ ! :这些符号分为四组:Operator1: SPACE |Operator2: $ # + - ~

Operaotr3: !Operator4: :符号的含义如下:(一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(1) SPACE(空格)相当于逻辑中的“并”关系。(2) | 相当于逻辑中的“或” 关系。(二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(3) $ 表示它两边的“简单项”按照左边 在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小 于或等于Number

(4) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

(5) + 表示它两边的“简单项”按 照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚 好等于Number(6) - 表示它左边的“简单项”出现于句子中,并且,在右边 相隔Number个字的范围内,-号右边的“简单项”不出现。(7) ~ 表示它左边的“简单项”出现于句子中,并且,在左边 相隔Number个字的范围内,~号右边的“简单项”不出现。除 $ 和 + 操作符外,Operator2不能连续多次使用,即只能用Operator2连接两项:A Operator2 B,形成查询表达式。Operator2中的 $ 和 + 可以连续多次使用,且可以混合使用。见1.2小节的说明。(三)Operator3:Operator3是一元操作符。(8) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来 进行定位。(四)Operator4:西文冒号 : 是分隔符(delimiter)(9) : 跟在 author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式称之为“过滤项”(见下面 1.1.5)1.1.2 基本项指不包含特殊符号和空格的连续字符串1.1.3 简单项简单项可以由以下三种形式的序列组成(1) 基本项(2) 基本项1 Operator1 基本项2 Operator1 …(3) (基本项1 Operator1 基本项2 Operator1 …)1.1.4 复杂项复杂项可以由以下三种形式的序列组成(1) 简单项(2) 简单项1 Operator2 Number 简单项2(3) 简单项1 Operator2 Number Operator3 简单项2其中第二种形式,等价于 Operator3 简单项1 Operator2 Number 简单项2,换句话说,如果以第一个简单项作为查询结果的显示中心,!可以省略。1.1.5 过滤项过滤项可以包含以下表达式:(1)author:简单项(2)name:简单项(3)type:简单项(4)pattern:简单项(5)ch:简单项(6)en:简单项(7)translator:简单项(8)enname:简单项说明: – “author:简单项”的含义是指“author”关键字后面跟的表达式是上面1.1.3“简单项”所定义的字符串,其余类推 。 – 通过指定过滤项中author(作者),name(篇名),type(文章类型),ch(中文句子),en(英文句子),用户可以缩小查询语料的范围。 – 过滤项pattern专门用于查询汉语中的各种模式,比如“AABB”这样的重叠形式,“AB不AB”这样的反复问形式,等等。 – 过滤项关键字(5)-(8),即ch,en,translator(译者) enname(英文篇名)等是汉英双语语料库检索系统专用的,其余关键字既可用于现代汉语、古代汉语语料库检索系统,也可以用于汉英双语语料库检索系统。举例:例1: 想查询“老舍”的语料,在查询表达式中输入“author:老舍”即可;

例2: 想查询“老舍”先生的文章中“A来A去”的用法,在查询表达式中输入“author:老舍 pattern:A来A去”即可。

例3: 查询 ch:以太网 en:Ethernet

意思是:查出汉语句子中包含“以太网”,英语句子中包含“Ethernet”的汉英对照句对 儿。(ch表示其后字符串查询范围为汉语句子;en表示其后字符串查询范围为英 语句子。)

1.1.6 子句子句可以是以下两类表达式:(1) 复杂项(2) 过滤项

1.1.7 查询表达式查询表达式可以是以下形式的序列:(1) 子句(2) 子句1 子句2 …

(子句和子句之间需要以空格隔开,表示逻辑“AND”关系)1.2 使用 $ + 操作符的查询表达式$ 符号表示间隔小于等于,如“把$10给”表示返回“把”与“给”之间少于10个字符的句子。

查询表达式支持多个“$”连用,如查询“被$10把$3给$2了”,表示 “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”前出现,二者之间间隔小于10个字符。

符号表示间隔等于,如“把+10给”表示返回“把”与“给”之间等于10个字符的结果。查询表达式支持多个“$”或“+”连用,如支持查询“我$10你$3他$2 了” “你+3他+2了”。此外系统也支持“$”与“+”的组合搜索,如“我$10你+3他$2了”, 该查询表示返回“我” 和“你”间隔小于等于10,“你”和“他”间隔等于3,“他”和“了”间隔小于等于2。

二 批量查询用户可以上传查询文件,文件中可以包含多个普通查询可接受的表达式,默认允 许的最大查询数为30。文件格式为:每一行是个合法的查询表达式。返回的查询结果是一个网页(html文件),其中列出每一个查询表达式命中 的结果的个数,每一个查询表达式后的结果个数上有一个超链接,点击后可进入该 查询表达式对应的具体查询结果。

三 模式查询在模式查询页面,用户可以检索特定的模式,比如“爱V 不 V” “有 X V X”;其中,模式“爱V 不 V”表示查询“爱”跟“不”之间间隔一个字(或词),用户可以指定V的字符个数(长度),两个V是相同的字符串。模式“有X V X”表示查询字符串中包括“有”,“有”后面紧跟的字符串“X”间隔字符串“V”后又重复出现一次,字符串“V”跟字符串“X”不相同。

3.1 模式查询表达式为了与文本中的字母进行区分,要求匹配的变量字符用括号括起来。比如查找模 式“爱V 不 V”,其对应的查询表达式为“爱(V)不(V)”。V的长度也可以指定,比如:查询表达式为“爱(V,=3)不(V)”,表示要求V的长度为3;查询表达式为“爱(V,<5)不(V)”,表示要求V的长度 不超过5;查询表达式为“爱(V,2-5)不(V)”,表示要求V的长度介于2-5之 间。注意:(1)模式查询针对的语料并未分词。因此,查询“爱(V)不(V)”,也可 以匹配上“恩爱得不得了”。(2)模式查询仅是形式意义上的匹配。不见得匹配上的实例在语义上也符合模 式的要求。比如查询“爱(V)不(V)”,也可以匹配上“他的全部的爱是不是在羞辱中消 失了”。这里的“爱是不是”不符合一般的“爱v不v”的语义模式。(3)上 面举例中,模式查询表达式“爱(V)不(V)”的V并不表示动词(Verb),而是代号,写作X,x等等其他符号也可以,指代任意字符。因此,查询“爱(V) 不(V)”,也可以匹配上“少年,认真的恋个爱 好不好”

3.2 模式查询结果页面的显示“模式查询”的默认结果页面跟“普通查询”的结果页面相同,参见下面第四节的说明。在“模式查询”的结果页面上,还增加了一个“统计”按钮。点击“统计”按钮,系统对“模式查询”表达式中的“变项(如x,v等)”进行 计数,并可以按照频次降序或频次升序输出。例如:查询“爱(x)不(x)”模式,返回的默认结果页面为:

共有236条结果

点击“统计”按钮后,返回结果为:共有43条结果爱动不动: 3 ; (x,动)爱去不去: 2 ; (x,去)爱打不打: 1 ; (x,打)爱念不念: 1 ; (x,念)爱怕不怕: 1 ; (x,怕)爱戒不戒: 1 ; (x,戒)爱懂不懂: 1 ; (x,懂)爱用不用: 1 ; (x,用)……根据这个统计结果可以知道,在CCL语料库中,“爱V不V”中的V有:

动,去,打,念,怕,戒,懂,用,……

四 选择查询范围在普通查询、批量查询、模式查询页面,系统都提供了“选择范围”按钮,点击 该按钮,系统弹出语料库目录结构的树状显示,用户可以通过鼠标点击选取框checkbox来指定查询范围。语料库文件目录的树状结构可以在网页上“展开-收缩”显示,每个节点前有一 个选取框(checkbox),如果选中一个节点,则默认情况下,该节点的所有子孙节点都被选中,反之。如果清除一个子节点,默认情况下,该节点的所有子 孙节点都被清除。

六 在结果中检索对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查找”功 能,逐次逼近检索目标。“在结果中检索”的功能是指在上一次检索基础上,用户输入新的查找条件,然后点击“在结果中检 索”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个 子集。比如:您想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这样 的否定词。您可以先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和 “也”,且二者相隔10字以内的句子,然后您再输入查询表达式“也-4不”,这样就可以把“也”后面4字范围内有“不”的句子剔除掉了。

五、相关文献[1]陈博聪. 基于现代汉语语料库的“纠结”义项分析[J]. 现代语文(语言研究版),2017(08)

[2]高文成 张丽芳. 英汉语双名词内向结构认知对比研究——基于BNC和CCL语料库[J]. 西安外国语大学学报,2013(02)

[3]李水. 认识立场标记“我认为”“我觉得”比较研究初探——基于现代汉语语料库的研究[J]. 沈阳工程学院学报(社会科学版),2016(01)

[4]李秀萍. 基于语料库的现代汉语教学方法研究[J]. 现代营销(学苑版),2011(10)

[5]孙东平 郑琳. CCL语料库视野下的“位”字研究[J]. 和田师范专科学校学报,2015(03)

[6]王超. 关于CCL和COCA在线语料库使用方法的研究[J].才智,2014(28)

[7]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报,2002(05)

[8]俞士汶 段慧明 朱学锋 孙斌. 北京大学现代汉语语料库基本加工规范(续)[J]. 中文信息学报,2002(06)

[9]朱晓敏. 基于COCA语料库和CCL语料库的翻译教学探索[J]. 外语教学理论与实践,2011(01)

[10]詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库(规模:7亿字;时间:公元前11世纪-当代),网址: http://ccl.pku.edu.cn:8080/ccl_corpus