现代粤语语料库加工规范 ——词语切分与词性标注

 

                                             
 人越有本事、文明水平越高,亲情就越纯粹

http://blog.csdn.net/sptoor/article/details/7725521

 

“大家这一代人,跟养父母兄弟的关联,与上一代人跟老人兄弟的关系有怎么着两样?”那真是个好玩的难点。恰好,那几天自个儿正在看一篇题为《再读<水浒>之发现武松》的稿子,里面涉及武松和交大郎的涉嫌,两者结合起来,会发现部分很有意思的下结论。

http://blog.sina.com.cn/s/blog\_8af106960102vbla.html

上一代人,以及以前的N代人,“常备不懈”的历史观很重。亦即,他们多生孩子,并不仅仅是因为爱儿女,还有局地好处的勘查。因为有实益的勘查,所以,他们对男女的爱并不纯粹,除了常见意义上的父爱母爱之外,还多了一层“希望他能回馈我”。那种对回馈的盼望,既有物质上的,也有精神上的——如“笔者儿是李刚”等样样“扬眉吐气”。大家这一代人,成长于后工业时期,社会保险日渐繁荣,而且,尽管是养老金不够用,半数以上人用本人的积蓄也够给协调的来供养了,由此,大家对儿女那份“保障”的须求度下落了,咱们生子女,就单单是因为本身喜欢子女。

 

因为上一代人及前N代人对儿女回报本人有期望,因而,他们渴望、望女成凤的心愿一定很显眼,那约等于为什么虎爸虎妈会常备了。这个望子成龙先生的双亲,更关爱的,不是子女能或不能幸福,而是,子女能或不能给他们友善带来幸福。相比较之下,咱们这一代人,更珍重的,是亲血肉的甜美;大家的甜美,要求团结去拼搏,而不是要靠孩子来回馈或维持。

 

两年前,曾有1位同事指出了2个很风趣的场所:“大家这一代人,好像一向不大家的父二姨那一代望子成龙(英文名:chéng lóng)心切了?”作者说:“那是因为,我们这一代,认为自个儿比大家的双亲要成功。”“你的意趣是,我们这一代中,那几个认为本人不成事的人,照旧在望子成龙先生?”“应该是那样的吗。我的感觉就是,父母越不成事,望子成龙(英文名:chéng lóng)之心越切。”7个月前,看到大象公会的篇章《为何红后代喜欢起名叫ABB》,印证了自作者以前的估算。那篇小说提到3个很风趣的情景:

当代国语语料库加工规范

红二代取名字,“A小B”结构的专门多,如X小鹏,X小琳,陈小达,李大寒,李小峰;红三代取名字,“ABB”结构的很多,如罗点点、X瓜瓜、毛东东等。但不论是哪个种类结构,都有一个贰头本性:并无中国人起名时郑重其事的依托期望或发布志向之意,显得极为随意。为何影响中国现当代政治走向的部落,反而在给男女起名时完全不沾政治色彩,而且完全不带有寄托美好期待和寄托的印痕?

——词语切分与词性标注

答案只怕很粗略。唯有普通人才会希望本人的男女能跨越自个儿,有远大前程,所以中国起名常用字多为发挥美好祝福的形容词和名词,如“伟”、“刚”、“强”、“丽”、“芳”等。而1946年后A小B的五叔们身居中国顶层社会,对男女的人生道路并无专门愿意,不会希望他们还能比本人更理想,对儿女的姿态更多是溺爱。她俩很简单被视为父辈小一号的仿制品,得名A小B是颇为自然的作业。

1999年3月版

约等于说,社会的上层,对子女的心境,没有普通家庭那么便宜。

 

另二个可以佐证的情景是:社会下层,更爱好用“不孝有叁 、无后为大”那种简陋的思想意识压榨子女,在她们看来,子女的紧索价值,就是多下多少个崽子,延续祖宗门户;在这一个家长的世界里,子女结婚、生儿女,并不是亲血肉的一生一世大事,而是老人家的“毕生大事”。比较之下,社会上层,则越发可以容纳甚至纵容子女去追求本人的人生,而不是独自地局限于他们的“动物性本能”。

东京(Tokyo)大学计算语言学探讨所

套用前边提到的“大家这一代人比我们的父丈母娘成功”的逻辑,二三十年后,当大家这一代人的子女到了“适婚年龄”的时候,大家中的大部分,必然不会像前N代的爹妈们那样“没有布署”。

1999年3月14日

前边的N代父母,在跟孩子的涉嫌中,主要以二种形象出现:领导;奴仆。(当然也有无数不比,但这种不相同,多产出在一些高级知识分子家庭里。如钱子泉、刘石庵、周国平等,跟自身的男女,如同哥俩朋友同样。)到了小编们这一代,越来越多地碰着了西方文明的“污染”,大家“终于受够了”前N代父母们的做法,因而,当我们有了子女的时候,大家会争得跟孩子像恋人同样相处。当然,在城池比农村更易于形成;在家长学历高的家中,也更便于做到。

 

咱俩的上一代人,在男女成年后,父子之间、兄弟之间,对资产的标题,看得比较重,很计较有些细节,但大家这一代人,无论是对老人家依旧弟兄,都更着重亲情,而对物质利益,要比上一代人看得淡。上一代人中,兄弟之间为了分产业而闹得鱼跃鸢飞的事,比比皆事,但在大家这一代人那里,那种事则要少得多。十年前,我妈在大家镇上买了440平米土地,后来建小产权房,签合同前,为了长久的便宜,小编指出,直接写成本人表哥的名字,而不写他的名字,这样,大家都轻松。八年前,作者刚结束学业的时候,没钱交房租,有一天夜里,一查,卡上唯有33元钱了,快速给本身兄弟发了条短信“我的卡上,有33块”,小编兄弟很干脆地说:“小编前几日打给你3000,不用还了。”其实,那1个时候,他各个月,薪酬也只有2100元。类似的事情,在自家的爱侣中也有过多。

⒈ 前言

自然,出现那种差异,绝非只有因为大家这一代人的“思想境界”比上一代人高。而是,社会进步了,以往,大家都没以前那么穷了,不会为了争夺一点尤其的物质利益而付出亲情的代价了。

北大统计语言学商量所从一九九四年起来开展普通话语料库的二种加工研商。第二步是对原始语料举行切分和词性标注。壹玖玖壹年制定了《现代国语文本切分与词性标注规范V1.0》。几年来已到位了约60万字语料的切分与标注,并在短语自动识别、树库创设等方向上拓展了商讨。在积累了长时间的实践经验之后,如今又开展了《人民早报》语料加工的尝试。为了保险广大语料加工这一项关键的言语工程的顺遂进行,南开计算语言学商量所于一九九七年四月制定了《现代国语文本切分与词性标注规范V2.0》(征求意见稿)。因本次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代中文语料库加工规范》。

中原知识中有句俗话,“在家靠家长,出门靠爱人”,其实,那里的家长,也得以拉开到兄弟、亲戚等“血缘共同体”;朋友,则越来越多地是靠“臭味相投”而走到1只的伙伴。很少外出的人、或然即便也时常外出,但搭建人际关系的能力比较差的人,碰着事情,紧借使靠父母兄弟亲朋好友等入手相助;而下方经历很丰盛的人,则重假诺靠爱人。事实上,一位的领域越广、能量越大,便越不可以“靠家长”——当然,父母是官一代、富一代或某种六臂五头的人选的,另当别论。

    制订《现代中文语料库加工规范》的基本思路如下:

在《水浒》中,北大郎跟武松兄弟俩的几段对话,很能证实这种不相同:

⑴      词语的切分规范尽或然同中国国家标准GB13715“消息处理用现代粤语分词规范”
(以下简称为“分词规范”)保持一致。由于前天词语切分与词性标注是整合起来举行的,而且又有了一部《现代中文语法消息词典》(以下有时简称“语法音信词典”或“语法词典”)可看作词语切分与词性标注的中央参照,那就有须求对“分词规范”作需求的调整和补充。

当武松成为打虎大侠并与三弟重逢之后,四弟讲了这样一段话:“小编怨你时,
当初您在清河县里,要便吃酒醉了,和人相打,时常吃官司,教小编要便随衙听候,不曾有3个月净办,常教作者受罪,那么些便是怨你处。想你时,小编近年取得三个家里人,清河县人不怯气,都来相欺负,没人做主;你在家时,什么人敢来放个屁;本人以后在那边安不得身,只得搬来此处赁房居住,因而便是想你处。”而武松后来进东京(Tokyo)工作临行时对二哥武大则有诸如此类一段嘱托:“你根本为人脆弱,作者不在家,或许被外人来欺负。假若你每一天卖十扇笼炊饼,你之前日为始,只做五扇笼出去卖;天天迟出早归,不要和人吃酒;归到家里,便下了帘子,早闭上门,省了多少是非口舌。倘使有人欺负你,不要和他冲突,待作者回来自和她辩解。”

⑵      小标记集。词性标注除了接纳《现代中文语法音信词典》中的二十六个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、不同词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,扩展了以下3类标记:①专出名词的归类标志,即人名nr,地名ns,团体活动单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具闻明词天性的动词),名形词an(具盛名词天性的形容词),副动词vd(具有副词个性的动词),副形词ad(具有副词特性的形容词)。合计约三十六个左右。

南开对武松的情绪中,既有嫌弃,又有“作者要求您来保安”;而武松对哈工大的真情实意,则纯粹是爱,是呵护欲。弱小者相比较本人强大的人的爱,平日夹杂着依赖感;而强者对气虚的爱,则越多地是纯粹的爱,或许“自小编达成的急需”。

⑶      规范的多元性。既要适应语言新闻处理与语料库语言学研究的急需,又要能为传统的言语商量提供充分的素材;既要适合计算机自动处理,又要便宜人工查对。

说到兄弟之情,小编还回想贰个很有趣的典故:几年前,八个同班的兄弟结业求职,因为跟自个儿专门领悟,由此,他通电话给自身,问我能无法帮她介绍一份工作。小编说:你哥财富那么广,你咋不让你哥介绍呢? 
结果,那位兄弟说:“不只怕让本身哥介绍。
假诺本身的率先份工作都是本人哥介绍的,今后,旁人会说,作者是站在作者哥的肩膀上打响的,没有成就感。”本身马上调笑,一定要把你那句话告诉你哥。

⑷      词组(短语)本位中文语法序列的点拨意义。汉语的词类与句法成分之间不设有简单的一一对应涉及。同一个句法成分可以由不相同词性的词来充当;而持有分明词性的同二个词又足以出任不一致的句法元素,形式上可以没有其余例外的符号。《现代汉语语法音信词典》是在词组本位语法连串的语法思想携水肿研制的,其最基本的结晶是对连串的词语依照其在实际语料中的语法作用分布,尤其是优势成效分布决定了它们的词性(即它们所属的词类)。在展开词性标注时,应当丰盛利用《现代中文语法音信词典》,承接那几个主题成果,防止仅依据词在所在的语句中出任的语句成分来控制其词性。同时考虑到语言学界对中文词类的细分存在不同视角,在标记集中增添了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这个标记并非只是缓冲不相同意见,重假诺为了给词的兼类探讨提供计量按照,也

就像是,越是有出息的人,越不指望自个儿的二老兄弟亲人能给协调的事业提供多少支持——要么是觉得没那一个须求,要么,是他俩的自尊心差别意她们这么做;对那个人来说,手无寸铁,保养由友好搭建起来的对象圈相助,才会更有形成感一些。相反,这些没有出息的人,尤其强调父母的“有用性”,他们喜欢“恨爹不成刚”,甚至,连大人无法出钱给协调买房娶媳妇,也变为了怨恨父母的说辞。

为中文词的可能率语法属性描述作准备。

与前N代人相比较,大家这一代人普遍可以一挥而就地形成“出门靠朋友”。大家跟家长兄弟姐妹之间平常接触的缩减,重假诺因为“互助的必要”下跌了。此时,大家跟父母兄弟的过往,反而更易于回归到纯粹的情丝上。事实上,那不只是这一代跟上时期的差异,也是都市跟农村的分别、是经贸文明跟农业文明的界别。

⑸  为了对新闻语料中大批量留存的专闻明词(地名、团体机构名称等)进行商讨(从命名规律到自动识别),在切分与标明的功底上对由若干个词组合而成的短语型专闻名词加上方括号和花色标记(紧假诺nt,nz,还有微量的ns)。

二零二零年,村里的片段长辈在进城后平时感慨说,城市里“人情淡薄”;再后来,日常在网上看看,一些出了国的人感慨不已说,发达国家里“人情淡薄”。但是,难道真的是都市人比农村人更不曾心理、发达国家的人比中国人更没有情绪吗?

⑹  不是孤立使用本专业。在行使本标准对语料库举办加工时,将与《现代国语语法音信词典》等项研讨成果密切合营。当未来的探讨和未来的应用(普通话新闻找寻、汉语消息领到、汉外机器翻译等)相连结时,就足以一本万利地选用词典中拉长的词语语法属性音讯。而经过切分和词性标注的语料库又有啥不可说明和添加词典中用语的品质,进而建立词的几率语法属性描述。经过切分和词性标注的语料库同《现代汉语语法消息词典》结合,形成一个立体的语言知识库。语料库的更为深加工(树库,注音,义项标注等)也有了牢靠的底子。

大概,真实的案由是如此的:与后者相比,前者是二个更看得起规则和秩序的场面,规则和秩序要严酷执行,“人情味”儿便会优惠扣。对有的还不可见适应文明社会的人的话,那本来是不可以忍受的,由此,他们以“人情淡薄”来表明友好的不适于。

⑺  人机互助的做事措施。以本标准为条件,继续壮大自动加工软件的意义并压实其精度。人工核查是不可或缺的。要求强调查对人士之间的切磋,要将对学术难点的不等观点统一到正式的制定与实施上。开发机器协助编辑和语料库管理软件,保险语料库加工的一致性。

在城池和发达国家等文明程度较高的地点,诚然“淡薄”的,并不是“人情”,而是“人情世故”。与风姿潇洒程度较低的地点相比较,在此地,好处较少披着“人情”的面具出现,人们较少拿好处来玷污人情,据此,人情,反而会来得更纯粹一些。

本标准分为多少个部分:

① 切分规范

切分规范重点规定现代中文的切词原则,即怎样的方块字组合可以为3个切分单位。第②章中详细介绍对“分词规范”的补给与调整。

② 切分和标注相结合的正规

在中文言中,像“双音节动词+单音节名词”平常构成新的名词,对于这么些新的名词,即使在词典中平素不登录,也理应把它们处理为三个切分单位。因而,在本标准中,给出了一些基于词性描述的构词规律,规定了怎么的结合可以处理为1个切分单位,并交给了新整合的词的词性标记。这一部分情节首要汇聚在第①章中。

③     标注规范

③-1 一般词性标注

    标注规范用以分明切分单位的标记。以1996年六月份语法词典小组提供的7万词表为主干参照,其意义包含:

a.     标记集以27个词类标记为条件,名动词、副动词、名形词、副形词和专盛名词的符号是在动词代码v、形容词代码a、名词代码n后增添三个小写字母,语素标记是在语素代码g前面增添一个大写字母。

b.     多个词若在语法词典中已属于某2个或若干个词类,人工标注(查对)时决不轻易增添词性。如“陶冶”、“强调”在语法词典中只属于动词,标注时切勿仅按照其在脚下句子的职能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。

c.     当语法词典给有个别词鲜明的词性不对或不完备时,当然也要修正或补充。那时应文告词典小组。

d.     即便语法词典中的简称实际上指的是协会、机构、社团名称或地名,标注时仍标以j,而不用改为nt或ns。

e.     “汉代”、“北魏”等历史朝代名称就算也是专名,因语法词典已当做时间词收入,标注时仍标以t,不改为nz。

第陆章集中论述标注规范。

 ③-2  专知名词标注

此地“专盛名词”的含义有了进行。短语型的地名、团体机构名称及任何专盛名称在词的切分基础上用ASCII码的方括号括起来,并在左侧括号之后标以相应的ns、nt、nz,方括号不嵌套。第3章与第壹章都涉嫌那有个别情节。

⒉ 切分规范

2.1 基本概念

⑴ 切分单位

    “分词单位”是中华国家标准“分词规范”中的二个基本概念。它是指音信处理中拔取的、具有鲜明的语义和语法功效的着力单位。为了同“分词规范”衔接,那里仍沿用“分词单位”这几个定义,可是术语改用“切分单位”,因为“分词”那些术语已在土耳其共和国语语法中长期使用,大家早就深谙,而用同三个术语表明相同或濒临学科的多少个概念简单滋生混乱。

依据“分词规范”对“切分单位”的定义和分解,本切分专业中的“切分单位”重假如词,也包涵了一片段构成紧凑、使用稳定的短语。在好几特殊情况下孤立的语素或非语素字也说不定出现在切分连串中,如在动词的离合情势

       出/v 了/u 一/m 次/q 差/Ng 。/w

中,“差/Ng”是名语素;又如在

            鹧鸪/n 的/u 鹧/x 有/v 什么/r 意思/n 吗/y ?/w

中,“鹧/x”是非语素字。

    从篇幅考虑,对七个字的构成较宽地作为是二个切分单位,多个字的较严,两个字以上的若不是成语、习惯用语一般不当作是3个切分单位。

⑵ 词典词条

“词典词条”(或“词条”)指《现代国语语法音信词典》中引用的那一个词语。1999年10月提需要本项工程拔取的词条的总数约7万,那个用语都已归了类,即含有词性标记。

⑶ 切分单位和词条的关系

    汉语中,词和词组的底限、成词语素和不成词语素的疆界是歪曲的。本标准规定,凡收入语法音信词典的词条(包含:词、词组、成语、习用语、简称乃至标点符号等)一般都以切分单位。由于语法词典中的词条多达7万,对真实文本的覆盖率很高,由此可以保险绝超过一半切分单位和语法词典的词条是同样的,但两者之间依旧有距离的。例如五个字以上的成语、习用语是切分单位,但未被收入将来的语法词典。像“一百二十八”、“百分之六十”、“百分之九”、“一九九六年”、“5月九日”那样的数词和时间词实际上是最最多的,语法词典不容许全收,只或许收少量的构成成分。反过来,像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位。语法词典中涵盖的前接成分、后接成分、语素、非语素字不是切分单位,即便当它们不大概与上下成分结合时也会孤立地面世在切分连串中。

当处理大规模真实文本时,不可幸免地会赶上未登录词。第1章给出了部分合成词的构造规则。依照那几个规则自动生成的或经查对者确认的切分单位,如果结合平安,使用频度较高,今后有恐怕补充到语法词典中。

 

 

2.2 对分词规范的补充和调动

    为举世瞩目起见,以下用符号“*”标识这几个补充的鲜明,用“Δ”标识这几个调整的规定。

⑴ 人名: nr

        ①
朝鲜族人及与乌孜福特族起超级模特式相同的非瑶族人的姓和名单独切分,并各自标注为nr。

               张/nr 仁伟/nr, 欧阳/nr 修/nr,  阮/nr 志雄/nr,  朴/nr
贞爱/nr

        ② 姓名后的岗位、职称或称呼要分开。

               江/nr 主席/n,  小平/nr 同志/n,   江/nr 总书记/n,

               张/nr 教授/n,  王/nr 部长/n,     陈/nr 老总/n,

               李/nr 大娘/n,  刘/nr 阿姨/n,     龙/nr 姑姑/n

        ③ 对人的简称、尊称等若为七个字,则合为1个切分单位,并标以nr。

               老张/nr, 大李/nr, 小郝/nr,  郭老/nr,  陈总/nr

        ④ 鲜明带排名的家里人称谓要切分开,分不清楚的则不切开。

               三/m 哥/n,  大婶/n,    大/a
女儿/n, 大哥/n,  小弟/n,   老爸/n

      * ⑤ 一些资深作者的或不易区分姓和名的笔名常常作为1个切分单位。

              鲁迅/nr, 茅盾/nr,  巴金/nr,
三毛/nr,  琼瑶/nr, 白桦/nr

        ⑥ 意大利人或少数民族的译名(包含印尼人的人名)不予切分,标注为nr。

              Clinton/nr, 叶利钦/nr, 才旦卓玛/nr,
小林多喜二/nr,北研二/nr,

              华盛顿/nr, 爱因Stan/nr

        Δ 有个别西方人的真名中有小圆点,也不分手。

              卡尔·马克思/nr   

⑵ 地名: ns

          湖南/ns,    卡萨布兰卡/ns,  波尔图/ns,  达州/ns,  多哥洛美/ns,  商丘/ns,

          火奴鲁鲁/ns, 刚果河/ns, 马尔马拉海/ns, 太平洋/ns,
齐云山/ns,  天柱山/ns,

          北美洲/ns,   新疆岛/ns,  洞庭湖/ns,
白洋淀/ns,  俄联邦/ns,哈萨克斯坦/ns,

          Peter堡/ns,  伏尔加格勒/ns

       ① 国名不论长短,作为1个切分单位。

          中国/ns, 中中原人民共和国/ns,日本国/ns, 美利哥/ns,
花旗国/ns

 Δ②
地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。

         青海省/ns, 卡尔加里市/ns,萍乡市/ns,沙市市/ns,
大庆市/ns,正定县/ns,海淀区/ns,  句容市/ns,东升乡/ns,  北蝉乡/ns  南化村/ns,华盛顿州/ns,北卡罗来纳州/ns,神奈川县/ns,
山口县/ns,长野县/ns, 冲绳县/ns,大同府/ns,眉山县/ns

    Δ③
地名后的行政区划有五个以上的方块字,则将地名同行政区划名称切开,但是要将地名同行政区划名称用方括号括起来,并标以ns。

         [芜湖/ns 专区/n]ns,[宣城/ns 地区/n]ns,[内蒙古/ns
自治区/n]ns,

         [宁夏/ns 回族/nz自治区/n]ns, [深圳/ns 特区/n]ns,

         [厦门/ns 经济/n 特区/n]ns,    [香港/ns
特别/a  行政区/n]ns,

         [香港/ns 特区/n]ns,           [华盛顿/ns  特区/n]ns,

         [广西/ns 环江/ns 毛南族/nz 自治县/n]ns,

         [青海/ns 果洛/ns 藏族/nz 自治州/n]ns

      ④
地名后有代表地形地势的二个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。

         绥芬河/ns,
亚马逊河/ns,   喜马拉雅山/ns,   珠穆朗玛峰/ns,安达曼海/ns,  印度洋/ns,   东湖/ns,  塞普路斯岛/ns

    Δ⑤
地名后接的意味地形地势的普通名词若有八个以上汉字,则应切开。也要将地名同该普通名词用方括号括起来,并标以ns。

         [台湾/ns 海峡/n]ns,  [华北/ns 平原/n]ns,   [帕米尔/ns
高原/n]ns,           [南沙/ns 群岛/n]ns,  [京东/ns 大/a
峡谷/n]ns  [横断/b 山脉/n]ns

      ⑥ 地名后有代表自然区划的一个字的常备名词,如“
街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。      

         中关村/ns,  长安街/ns,  学院路/ns, 景德镇/ns,   吴家堡/ns,

          庞各庄/ns, 伊利里/ns,  Peter堡/ns,   北菜市巷/ns,  

    Δ⑦ 地名后接的表示自然区划的常常名词若有三个以上汉字,则应切开。也要将地名同自然区划名词用方括号括起来,并标以ns。

          [米市/ns 大街/n]ns,   [蒋家/nz 胡同/n]ns,   [陶然亭/ns
公园/n]ns  

       ⑧ 大小地名相连时的标号方式为:

北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]ns [蒋家/nz 胡同/n]ns
24/m 号/q

Δ⑶ 团体、机构、社团的专盛名称: nt

① 团体、机构、协会的专有名称若作为名词登录在语法词典中,则直接标注为nt。                 

          联合国/nt,  中共中心/nt,   国务院/nt,  香江高校/nt

② 一大半团伙、机构、协会的专盛名称一般是短语型的,较长,且富含地名或姓名等专名,不会报到在语法词典中,本标准规定先切分,再组成,加方括号标注为nt。

           [中国/ns 计算机/n 学会/n]nt,  [香港/ns 钟表业/n
总会/n]nt, 

           [烟台/ns 大学/n]nt,            [合肥/ns 师范/n
学院/n]nt, 

           [北京/ns 图书馆/n]nt,          [富士通(FUJITSU)/nz 株式会社/n]nt,

           [香山/ns 植物园/n]nt,          [安娜/nz 美容院/n]nt,

           [上海/ns 手表/n 厂/n]nt,      [永和/nz 烧饼铺/n]nt,

[北京/ns 国安/nz 队/n]nt,     北京队/nt,    雷锋班/nt

注:“新加坡队”、“雷锋班”作为“词”,“厂”同“手表”切开,而“铺”同“烧饼”合在一起。那皆符合双音节名词同后边的单音节名词或语素结合的形似规则。见第陆章。 

③ 团体、机构、社团名称的专指性是必需的,孤立的“大学、大学、体育场馆、植物园”等只标为n,不标为nt。在一篇作品的起头,团体、机构、协会名称的专指性是醒目标,后文往往利用简称。当省略了专名,只剩余普通名词时,就不再标nt。如征集湖南省委秘书的电视揭橥,记者初步一定会写明“吉林省委”,那时加工成:

             [浙江/ns 省委/n]nt

后文引用省委书记的话时,纵然“省委”指的就是“云南省委”,但只标明为:

             省委/n

相当于说,本次加工只考虑部分的上下文,而不作远程相关的语义分析。同样,“北京高校校长办公室”应加工为:

             [香江大学/nt 校长/n 办公室/n]nt

若句子中唯有“校长办公室”,前边没有“巴黎大学”,则只加工成:

             校长/n 办公室/n

固然在给定的更大的上下文环境中,该“校长办公室”是专指的。

④ 即便有③的分明,对于在国际或中国范围内的资深的绝无仅有的社团、机构、协会的称呼固然前边没有专名,也标为nt。

           联合国/nt, [国际/n 贸易/n 组织/n]nt,   

           国务院/nt, 外交部/nt,  财政部/nt,  教育部/nt,  国防部/nt,

           [国家/n 教育/vn 委员会/n]nt,    [信息/n 产业/n 部/n]nt,

           [全国/n 信息/n 技术/n 标准化/vn 委员会/n]nt,

           [全国/n 总/b 工会/n]nt,     [全国/n 人民/n 代表/n
大会/n]nt     

美利坚联邦合众国的“国务院”,其余国家的“外交部、财政部、教育部”,必须在其所属国的国名之后出现时,才联合标注为nt。

           [美国/ns 国务院/n]nt,  [法国/ns 外交部/n]nt,   [美/j
国会/n]nt

东瀛多少政坛机构名称很特别,无论是不是出以后“日本”国名之后都标为nt。

           [日本/ns 外务省/nt]nt, [日/j 通产省/nt]nt, [日本国/ns
法务省/nt]nt,      

           通产省/nt      

⑤ 前后持续有上下位关系的团队机构社团名称的处理格局如下:

 [联合国/nt 教科文/j  组织/n]nt

 [中国/ns 银行/n  北京/ns  分行/n]nt 

 [吉林省/ns 正定县/ns  西平乐乡/ns  南化村/ns 党支部/n]nt

 [巴黎高校/nt 昌平/ns 分校/n]nt

 [安徽/ns 人大/j  常委会/j  办公室/n]nt

 [上海高校/nt 统计/vn  语言学/n  商讨所/n]nt

当下位名称包罗专名(如“香江/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns
分校/n”)时,也可脱离前边的上位名称单独标注为nt。

          [中国/ns 银行/n]nt     [北京/ns 分行/n]nt 

          西藏省/ns  正定县/ns  西平乐乡/ns [南化村/ns  党支部/n]nt

          上海大学/nt  [昌平/ns  分校/n]nt

一经下位名称不含有专名,则必须同上位名称捆绑在共同标注。

⑥ 团体、机构、社团名称中用圆括号加注简称时的拍卖方法言传身教。

           [宝山/ns  钢铁/n (/w 宝钢/j )/w  总/b 公司/n]nt

           [宝山/ns  钢铁/n  总/b 公司/n]nt (/w 宝钢/j )/w

Δ⑷ 除人名、国名、地名、团体、机构、社团以外的其它专盛名词都标以nz,具体规定如下。


专盛名称后接单音节的语素,如代表民族的“族”、表示语言的“语”,表示文字的“文”,则不切分,标注为nz。

达斡尔族/nz, 俄联邦族/nz,赫哲族/nz, 塞尔维亚(Република Србија)族/nz, 塔吉克族/nz,

维吾尔语/nz, 蒙古语/nz, 中文/nz,  开普敦莱切斯特语/nz, 匈牙利语/nz

中文/nz, 英文/nz,  西班牙文/nz,蒙文/nz,俄文/nz


专盛名称后接单音节的名词,如代表人种的“人”、表示奖项的“奖”,经常不切分,标以nz;也允许切分,分别标注。

满人/nz, 哈萨克人/nz,诺贝尔奖/nz, 沈德鸿奖/nz,

哈萨克/nz 人/n, 高山族/nz人/n,   安徽/ns 人/n

③ 包罗专有名称(或简称)的交通线,标以nz;短语型的,使用方括号。

津浦路/nz,  石太线/nz,   [京/j  九/j 铁路/n]nz,

[京/j 津/j 高速/b 公路/n]nz,  [北京/ns  -/w 西雅图/ns  航线/n]nz


历史上首要事件、运动等专盛名称一般是短语型的,按短语型专盛名称处理,标以nz。

[卢沟桥/ns 事件/n]nz, [西安/ns  事变/n]nz,  [五四/t 运动/n]nz

[明治/nz 维新/n]nz,   [甲午/t  战争/n]/nz


专出名称后接多音节的名词,如“语言”、“管农学”、“文化”、“格局”、“精神”等,失去专指性,则应切分。

欧洲/ns 语言/n,  法国/ns  文学/n, 西方/ns  文化/n,

贝多芬/nr 交响乐/n,  雷锋/nr  精神/n,

美国/ns 方式/n,  日本/ns  料理/n, 宋朝/t  古董/n

        也有人认为“主义”是后接成分,且其后常接另1个后接成分“者”,因此将“主义”同其面前的专闻明称合在一起作为1个切分单位(参见:3.2(2)③之d)。

马克思主义/n,     马克思列宁主义/n,    Truman主义/n,

马克思主义者/n,   列宁主义者/n,        社会主义者/n   


商标(包含专名及后接的“牌”、“型”等)是专指的,标以nz,但今后所接的货物仍标以平凡名词n。

康师傅/nr 方便面/n,  中华牌/nz 香烟/n,  牡丹III型/nz 电视机/n

联想/nz 电脑/n,      鳄鱼/nz  衬衣/n, 耐克/nz  鞋/n

⑦ 以序号命名的名号一般不觉得是专盛名称。

2/m 号/q  国道/n ,     十一/m 届/q  三中全会/j

假使前方有专名,合起来作为短语型专名也是足以的。

[中国/ns 101/m  国道/n]nz, [中共/j  十一/m 届/q  三中全会/j]nz


书、报、杂志、文档、报告、协议、合同等的称呼平常有书名号加以标识,不作为专有名词。由于这个名字往往较长,名字本身按常规处理。

《/w 宁波/ns  日报/n  》/w ,《/w 鲁迅/nr  全集/n  》/w,

中华/nz 读书/vn  报/n,       杜甫/nr 诗选/n,

《/w 大众/n  医学/n  》/w, 邓/nr  小平/nr 文选/n

少数收入词典的书名、报刊名等专出名称,则不切分。

红楼梦/nz,    人民晚报/nz,    儒林外史/nz 

⑨ 当有个别专名无法辨认它们是真名照旧地名或部门名时,暂标以nz。

[巴黎/ns 贝尔希/nz   体育馆/n]nt,

里头“Bell希”只能暂标为nz。

⑩ 一般的命名活动常用引号表示,也不看作专盛名称。

香港/ns 举行/v “/w 庆/Vg 回归/v 公益/n 千万/m 行/Vg ”/w  活动/vn

第三/m 次/q 横田/ns 基地/n 噪音/n 诉讼/vn

 食谱上的菜名等普通也是短语型的,若拆开了,意思差异吗远,则不切分,否则切分。尽管不切分,也不当作是专有名词。

宫保肉丁/n, 木樨肉/n,    松鼠鳜鱼/n,   水煮肉/n,

鸡蛋/n 汤/n, 芝麻/n 饼/n, 鸡丝/n 面/n

Δ⑸ 数词与数码词组

① 基数、序数、小数、分数、百分数一律不予切分,为三个切分单位,标注为 m

      一百二十三/m,     120万/m,       123.54/m, 壹个/m,

      第叁/m,   第1十五/m,   1/5/m, 57%/m,   千分之三十/m

“几”和“零”属于宗旨的全面词(或位数词),因而包罗“几”和“零”的基数、序数、小数、分数、百分数也不切分。

      几十/m 人/n,    几十万/m 元/q,    第叁百零一/m 个/q

② 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予切分。

      约/d 一百/m 多/m 万/m,    仅/d 一百/m 个/q,   四十/m 来/m 个/q,

      二十/m 余/m 只/q,         十几/m 个/q,        三十/m 左右/m,

      几十/m  人/n,        几十万/m 元/q,       近/a  20/m 年/q  来/f

三个数词相连的及“成百”、“上千”等则不敢苟同切分。

      五六/m 年/q,   七八/m 天/q,  十七八/m  岁/q,  成百/m 学生/n,

      上千/m  人/n,   无独有偶/i 的/u  群众/n

③ 数量词组应切分为数词和量词。

      三/m 个/q,    10/m  公斤/q,   一/m  盒/q  花/n

 *但个别数额词已是词典的记名单位,则不再切分。

      一个/m,      一些/m(“分词规范”中也将“一些”作为3个切分单位)

④ 表序关系的“数+名”结构,应予切分。

      如∶二/m  连/n , 三/m  部/n

Δ⑹ 时间词

 ① 年月日时分秒,按年、月、日、时、分、秒切分,标注为t 。

              1997年/t 3月/t  19日/t,      98年/t 10月/t  8日/t,

              3月/t 10日/t  下午/t  2时/t 18分/t

那边应小心时间词与数据词的不一样,例如:“78年”指“1976年”时应标注为“78年/t”,当指数量“七十八年”时应切分标注为“78/m
年/q”。再如 两/m 个/q 月/n,三/m 天/q 时间/n
。同样,当“十一日”指八个月当中的第肆日时为时间词,不予切分,标注为“三十日/t”;若表示8天时,则要分离,标注为“8/m
日/q”。

若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。

         中文/n  电脑/n  国际/n 会议/n  ’/w  96/m

         1998/m  中文/n  信息/n 处理/vn  国际/n  会议/n

*② 历史朝代的称呼纵然有专出名词的性质,仍标注为t。

             西周/t, 秦朝/t, 东汉/t,  南北朝/t,  清代/t

     “牛年、虎年”等一律不予切分,标注为:

             牛年/t、  虎年/t

     “辛卯年、辛卯、甲申”等也反对切分,标注为:

             甲午年/t, 甲午/t 战争/n,  庚子/t  赔款/n,  戊戌/t 变法/n

Δ⑺ 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应予切分。

             本报/r, 每人/r,  本社/r,   本/r 地区/n,    各/r 部门/n

△⑻ 区别词

① 一般为切分单位,并标以词性b。

               女/b 司机/n, 金/b 手镯/n,  慢性/b 胃炎/n, 古/b 钱币/n

               副/b 主任/n, 总/b 公司/n


单音节分歧词和单音节名词或名语素组合,作为1个切分单位,并标以名词词性n。  

               雄鸡/n, 雌象/n, 女魔/n, 古币/n

*③ 少数“单音节差异词+双音节词”的社团作为二个词收入了词典,则不再切分。

               总书记/n

△⑼ 动词加动词或动词加形容词构成的述补结构

       未入账词典的双音节述补结构,若拆开各是三个词,日常作为三个切分单位。

               走/v 到/v,  撞/v 上/v ,  调/v 好/a, 坐/v  稳/a

若拆开了,其中至少有3个是语素,寻常就不切分,作为多个切分单位。

               形成/v,  鼓动/v,  说明/v,  震动/v

双音节的述补结构中间插入“得”或“不”一般应予切分,

         走/v 得/u 到/v,  走/v 不/d 到/v, 安/v 得/u 上/v,安/v
不/d  上/v

不过一旦去掉“得”或“不”后,前后八个字不结合壹个词的,则作为三个分词单位。

        来得及/v,  来不及/v,   对得起/v,  对不起/v, 说得过去/l,
说然而去/l

一对去掉“得”或“不”后虽说是七个合成词,但里边至少有三个是语素,拆开了是麻烦精通的,仍作为1个切分单位。

             形得成/v,  形不成/v

*⑽ 八个字以上的短语,平日应切分。

             总结/v 经验/n,  贯彻/v 执行/v,   调查/v 研究/v,

             一/m 慢/a 二/m 看/v 三/m 通过/v

但像“生产资料/n ”、
“国民经济/n”、 “生产关系/n”等若作为1个词已入账词典的就不再切分。

*⑾ 两个字的成语或习惯用语为一个切分单位,并标以词性i或l。

             胸有成竹/i, 方兴未艾/i,    门到户说/i,   综上说述/l,
新春开首/l

⑿ 超越多少个字的习惯用语或成语,一般不予切分,标注为 l或i 。

近水楼台先得月/i,          一年之计在于春/i,

            不管三七二十一/i,         兵多将广/i,     铁公鸡一毛不拔/l

当中用标点符号分开的,则切分。

             挂羊头/i ,/w  卖狗肉/i             百废具兴/i ,/w  更进一步/i

             上不着天/i ,/w 下不着地/i

⒀ 表达三个完好无缺概念或集合的缩略语为3个切分单位,并标以j。

             三好/j,  爱委会/j,  教科文/j,   农工牧副渔业/j, 中西方/j

*在有顿号分开的情景下,则切分:

             德/j 、/w 意/j 、/w 日/j,     港/j 、/w  澳/j 、/w 台/j,

             港/j 、/w 澳/j 同胞/n,

             林/j 、/w 牧/j 、/w 副/j 、/w 渔/j 等/u 副业/n

终极2个简称如与背后一个字(语素)可合成2个词的,则不独立切分出来。

             农/j 、/w 林/j 、/w 牧/j 、/w 副/j 、/w 渔业/n

国名、地名的简称并列在共同时,固然中间没有顿号也应切分分开。

中/j 美/j  跨/v  国/n  公司/n

[京/j 津/j  唐/j  地区/n]/ns

中/j 日/j  联合/vn  公报/n

港/j 澳/j  台/j  同胞/n

*⒁ 语素和非语素字的处理

       除下列特殊意况外,语素和非语素字一般不作为切分单位。

       ① 某个双音节离合词分开使用,其中1个是语素,可将它标注为语素。

               出/v 过/u 两/m 天/q 差/Ng,     理/v 了/u 一/m 次/q 发/Ng,

               洗/v 了/u 多个/m 舒舒服服/z 的/u 澡/Vg

       ②
单字名词或名词性语素后接单纯方位词,经常应合成为一个处所词或时间词,但为了同“分词规范”保持一致,也为了汉外机器翻译处理的便民,这里运用以下的拍卖措施:

a. “单字名词 + 单字方位词”的结缘,切分为八个单位。

               饭/n 前/f,    树/n  上/f,      包/n  里/f,   床/n  下/f

b.    “单字名词性语素字+单字方位词”的协会,合为二个处所词或时                     间词。

           桌/Ng  上/f –> 桌上/s,          午/Ng 后/f –>
午后/t,

              身/Ng 上/f –>身上/s,            胸/Ng  前/f
–>胸前/s

c.     “省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、上”等方位词,仍有社团、机构的含义,作为一个切分单位,标为名词。

    如:  部里/n,    县里/n,   村里/n,    系里/n,   班上/n

       ③ 非语素字单独在文书中时,标注为x。

     “/w 鹌鹑/n ”/w 的/u  “/w 鹌/x ”/w 字/n 怎么/r 读/v ?/w

  1. 切分和标注相结合的标准

普通话中的语素是构词的中央单位。语素构成合成词的方式重点有三种:重叠、附加和复合。对那些情形的切分标注作如下规定。

3.1  重叠:

    汉语以重叠变化方法构词的状态,首要有AA,AAB,ABB,AABB,A里AB,A不AB,ABAB等花样(其中A,B分别表示1个中国字),若那种词形作为词条收入了语法信息词典,其词性是规定的。上边的座谈重如若针对词典中一直不应当词形的景观:

⑴ “AA”重叠形

       ① 单字动词重叠式AA作为二个切分单位,并标明为动词词性v。

           如:走走/v,听听/v

      ②
单字形容词重叠式AA,有的成词,有的不成词。如前面不紧跟“的”就成词,作为三个切分单位,经常为副词d。

               好好/d 干/v 吧/y,       久久/d  没/d 说话/v  

而是,即便只有紧跟着“的”或“地”才成词,则“AA的”或“AA地”合为3个切分单位,标注为状态词z。

               甜甜的/z 点心/n,     削/v 得/u 尖尖的/z,   慢慢地/z 跑/v

      ③ 单字名词重叠式AA,为三个切分单位,并标注为名词词性n。

          人人/n,   家家/n

      ④ 单字量词重叠形式AA,为二个切分单位,并标上量词词性q。

          张张/q,  个个/q

       ⑤ 单字副词重叠式AA,为2个切分单位,并标明为副词词性d。

          常常/d, 仅仅/d

⑵ “AAB”重叠形

① VO结构形式的双音节离合动词的“AAB”重叠格局为七个切分单位,并标为动词词性v。

       洗洗澡/v,      挥挥手/v,      理理发/v

② 单音节动词的重叠式AA加“看”合为2个切分单位,并标明为动词词性v

          试试看/v,   查查看/v,   念念看/v

⑶ “ABB”重叠形

       ① 双音节形容词的重合方式ABB, 为切分单位,并标明为状态词z。

               孤单单/z,     亮堂堂/z,      孤零零/z

      ②
数量结构的“ABB”形式,不予切分,并标上数词词性m(具有数据词的个性)。

           一个个/m,   一阵阵/m,    一团团/m

⑷ “AABB”重叠形

       ① 二字动词的交汇格局“AABB”为二个切分单位,并标注动词v。

               比比划划/v,   勾勾搭搭/v

       ②
二字形容词的重叠方式“AABB”为一个切分单位,加“的”或“地”也照旧一个切分单位,并标注为状态词z。

               高称心快意兴/z,   舒舒服服/z,   高笑容可掬兴的/z,    舒舒服服地/z

       ③ 二字名词的重合方式“AABB”为3个切分单位,并标明为名词n。

               山山水水/n,   方方面面/n

       ④ 二字数词的重叠格局“AABB”为一个切分单位,并标注为数词m。

               许许多多/m,    多多少少/m

       ⑤
有五个意思相反的字眼形容词并列而成的名词再重叠所取得的重合格局“AABB”为二个切分单位,并标注为状态词z。

               大大小小/z,   高高低低/z

       ⑥ 凡只好处于状语地方上的重叠方式“AABB” 标注为副词d。

          日日夜夜/d,   原原本本/d,   确确实实/d

⑸ “A里AB”和“A不AB”的词形

       ①
双音节形容词的重叠格局“A里AB”,为一个切分单位,并标注为状态词z。

               马里马虎/z,   糊里糊涂/z,   慌里慌张/z

       ② 用自然加否定的款式表示疑问的动词或形容词的短语,一般切分开。

       相信/v  不/d  相信/v,   容易/a 不/d 容易/a

 可是如形成“A不AB”的不完整方式,则不敢苟同切分,并各自标以词性v或z。

               相不倚重/v,    容不简单/z,    漂不完美/z

⑹ “ABAB”重叠形

       双音节词的重叠格局“ABAB”,都切分开,那首要总结:

       ① 动词的“ABAB”      如:研究/v  研究/v,   比划/v  比划/v

       ② 形容词的“ABAB”    如:笑容可掬/a  称心快意/a,   舒服/a  舒服/a

       ③ 数词的“ABAB”      如:很多/m  很多/m,   许多/m  许多/m

       ④ 状态词的“ABAB”    如:蓝灰/z  宝石红/z,   蓝灰/z  深青莲/z

⑤ 数量词的“ABAB”    如:一个/m  一个/m

⑺ 其余花样的重合情状

         由动词形成的“V一V,V了V,V了一V”重叠格局,
作为动词词组都切分开。

            谈/v 一/m  谈/v,     想/v 了/u  想/v,      读/v 了/u  一/m   读/v

3.2 附加

⑴  前接成分+语素或词

       由“前接元素+语素或词”构成的合成词,为二个切分单位。那又可细分为以下景况:

      ①
“阿”+单音节名词或名语素,组成名词,并标以n;若该名语素是指人的专名,则标为nr。

          如:阿哥/n,     阿华/nr

       ② “小”或“老”或“大”+单音节姓氏字,组成指人专有名词,标以nr。

           如:小王/nr, 老张/nr, 大杨/nr

       ③ “老”或“小”+单字基数词(二,三,……,九),组成名词并标以n。

           如:老二/n,老六/n,小三/n


其余前接成分(“非”,“超”,“无”,“过”,……)与词构成的新的合成词,大概保持原词的词性,也恐怕更改词性。

            如:非金属/n,超音速/b(音速/n),  超声波/n,  无公害/v(公害/n),

               无条件/d(条件/n),  过饱和/z (饱和/a)

若“非”等前接成分所管辖的限定当先八个词,则如故切分开。

            如:非/h 国家/n 工作/vn 人员/n,    非/h 本市/r 注册/vn
车辆/n

⑵  语素或词+后接成分

        由“语素或词+后接元素”组成的合成词,一律为一个切分单位。详述如下:

       ① #+“儿”(#表示任意语素或词,下同)

           儿化词一般为名词,如:花儿/n,画儿/n 

         也有差别: 一/m 堆儿/q,玩儿/v,颠儿/v,滚圆儿/z,好好儿/d,
好好儿的/z

       ②  #+“们”

         a. 表示名词复数的“们”单独切分,并标以k。如:

                 朋友/n  们/k ,孩子/n  们/k

        b. 二字词中的“们”或口语中的
“们”同前面的名词的组合(可儿化)拆开了无意义,就合起来作为八个切分单位,并标以n。如:

人们/n ,哥儿们/n ,爷儿们/n, 老少/n  爷儿们/n, 老少/n  爷们儿/n  

       ③  有类化效用的后接元素

        a.  由后接成分“家”,“员”,“生”,“长(zhang3)”,“性”,“机”等结合的合成词,一般为名词。如:艺术家/n
,办事员/n ,劳动者/n ,结业生/n ,院长/n ,革命性/n ,磁盘机/n

         b. 由后接成分“头(tou5)”,“子(zi5)”等整合的合成词,一般为名词,如:

                 对头/n ,码子/n

但也有极度景况,如:前头/f ,后头/f

应当专注的是,具有实际意义的“头(tou2)”、“子(zi3)”不看作后接成分,试比较:

                 对头/n(dui4tou5),     对头/a(dui4tou2)

                 砖头/n(zhuan1tou5),    子弹/n  头/n(tou2)

                 桌子/n(zhuo2zi5),      围棋子/n(wei2qi2zi3)

        c. # +“化”,
一般组成动词,如:标准化/v,  多元化/v;也有分裂:四化/j,理想化/a。

        d. #
+“者”,“者”前边为较短的词或短语时,它和后边的词一起合成一个切分单位,标注为
n;“者”前边为较长的短语或句未时,分开来,标注为 k 。

                钻探者/n,    探索者/n,    求知者/n,   死不悔改者/n

                经过/p 苦苦/d 追求/v 而/c 获得/v 幸福/a  者/k

                不/d  顾/v  劝告/v  而/c  执意/vd  闹事/v  者/k

④ 词加多少个后接成分,仍为二个切分单位。

      物农学/n,     数学家/n,   语言学/n,   语言学界/n

⑶ 前接成分+语素或词+后接成分,此种格局构成的合成词,也为一个切分单位。

                非党员/n,    无政坛主义者/n,     超大型/b

⑷ 注意:单音节分歧词与前接成分的处理格局分化,见2.2⑻。

3.3 复合词

“复合”格局可将八个构词成分结合成二个新词。构词成分平日认为是语素。由于复合词的重组艺术和短语的三结合艺术是同等的,包罗定中、状中、述宾、述补、主谓、联合、连动等。当语素是成词语素时,复合词与短语的界限是不明晰的。只有当构词成分中最少有二个是不成词语素时,才有把握判断新组成的结构是二个未登录词,否则存在一定的弹性。形式上,八个字的或多少个字的结合可以较宽地以为是3个词。以下使用的“名”目标注为n的名词或标注为Ng的名语素。“形”,“动”的意思与之接近。

 

⑴  二字名词

       ① “名+名”的定中结构, 一般为贰个切分单位。

                 牛肉/n,    铝锅/n,     敌营/n

       ②  “动+名”的定中结构,一般为二个切分单位。

                 炒菜/n,    烤肉/n,   绑腿/n,  来函/n,   恋人/n

       ③ “动+名”如为述宾结构,则是短语,应切分开。

              我/r 喜欢/v 吃/v  烤肉/n
。/w    我/r 来/v  烤/v  肉/n  吃/v 。/w

但多少结合紧凑或利用稳定的述宾结构已在词典中登录,则处理成2个切分单位(离合词),标注为动词v,如:吃饭/v,
跳舞/v, 唱歌/v。

④ “形+名”的定中结构,若中间不可以插“的”或插“的”后意义改变,则作为三个切分单位;否则,应予切分。

              花茶/n ,  苦瓜/n ,   红花/n(一种药材)

              小/a 床/n ,     白/a  花/n ,    红/a  花/n

⑵ 三字名词

① “动(双音)+名(单音)”的定中结构,一般为3个切分单位。

                消耗品/n,    证明信/n,    救济粮/n,   控制阀/n   

② “名(双音)+名(单音)”结构,常常为贰个切分单位,但弹性较大,若前方的双音节名词与背后的单音节名词组合后意义不变,也得以分离

                牛仔服/n,   电流表/n,   热带鱼/n,  河北/ns 人/n,
手表/n  厂/n

③ “名(单音)+名(双音)”结构,平常为1个切分单位,但弹性较大,若前方的单音节名词与背后的双音节名词组合后意义不变,也可以分别

                手指甲/n,    马尾巴/n,    电/n 暖壶/n

④ “形(单音)+名(双音)”的定中结构,处理规范同二字的“形+名”组合

                小媳妇/n,      老姑娘/n        

                白/a  砂糖/n,   香/a  橡皮/n,    甜/a  点心/n

⑤ “形(双音)+名(单)”的定中结构,处理原则同④

         美丽岛/n,  贫困/a  县/n,  富裕/a  村/n

⑶ 单纯方位词+名(单音)的定中结构,为一个切分单位。所构成的合成词一般是处所词,但在好几特殊情状下只怕是名词或时刻词。

              前院/s,    里屋/s,      后街/s

              左肩/n,    旁杈/n,      前天/t,    后天/t

⒋ 标注规范

4.1 词性标注与语法音讯词典的涉嫌

据悉《现代粤语语法音讯词典》,对于这么些没有兼类信息的词,在切分的还要就可以规定其词性。那样,标注规范重点描述那多个多类词的词性,即在特定的上下文环境下怎样抉择3个不易的词性标记。


由于机动标注的根据是语法消息词典,标注的新闻绝大部分源点词典,是相比保证的,但鉴于存在“多选一”和“揣测”未登录词词性这二种状态,由此词性的正确如故须要鉴其余。


由于上下文中音讯丰裕,文本中的词性标注相对于词的归类要便于,但在清华的语法种类内应持之以恒词类的多功用性,主要防备的同情是仅依据该词在时下句子中所已毕的法力来规定其词性,如将主宾语地方上的词一律定为名词是不合适的。


由于词典的空中范围,不仅设有未登录词难题,已报到的词也存在兼类不完备的题材。如有个别名词可兼量词(“一/m
船/q
水/n”的“船”就是量词),词典中或然只描述它能够一时作量词,而未鲜明规定它兼属量词类,那时仍应以文本中的实际意义决定其词性。又如“新”,词典中只鲜明它是形容词,也有人以为“新校友”中的“新”是分歧词,标成“新/b
同学/n”也是可以的。那样将尽量挖掘每一个词形或许装有的词性。至于新兼的词性现在是或不是受益词典则还要考虑任何因素。

4.2 常见多类词的词性采取

    由于文本数据的特色,机器不能区分同形异音词与同形同音词,那就招致了华语词类标注进程中词类歧义现象较多。可以笼统地把装有那种场所的词称为多类词。上面表达多类词的片段标明规范。

⑴ n-q多类境况。

    中文中的一些名词(主假如单音节名词)可以兼作量词,对于这一个词,依照上下文来分明句子中的词的词性。

        ① 数词+ n-q + n,取q。

                 一/m 车/q 煤/n,   三/m 桶/q 水/n             

别的,汉语中有部分名词权且作量词且只可在此之前接数词“一”,对于那种意况,也是相应把它标为量词q。

                做/v 了/u 一/m 桌子/q 菜/n,       生/v 了/u 一/m 肚子/q
气/n

        ② “那”,“那”,“每”等指示代词+ n-q+n, 取q。

                这/r 床/q 被子/n,                这/r 门/q 亲事/n

        ③ 其余情状,一般取n。

                上/v  车/n, 进/v  门/n,  买/v
车/n,  送/v  桶/n  去/v  工地/s

⑵ a-v多类意况

        ① 若该词在句子中带了真宾语,则标为v。

                他/r  跟/p  她/r  没/d  红/v  过/u  脸/n,

                繁荣/v  市场/n,               端正/v 态度/n

        ② 若该词受“很”一类程度副词修饰,则标为a。

                这/r  花/n  很/d  红/a,      市场/n  很/d  繁荣/a

        ③ 若该词修饰名词作定语,则一般应标为a。

                繁荣/a  的/u  景象/n,    红/a  颜料/n,    巩固/a  的/u  国防/n

        ④ 若该词作动词的补语,则应标为a。

                放/v  明白/a  一些/m

                涨/v  红/a  了/u  脸/n

⑶ v-n多类情状

        实际上指的是广义兼类现象。当该词表示一种动作时,前面带真宾语,则是v;当它指称人或物时,则是n。

                编辑/v  科技/n  文献/n

                她/r  是/v  责任/n  编辑/n

                要/v  锁/v 上/v  门/n

                忘/v  了/u 买/v  一/m 把/q 锁/n

                及时/ad  报告/v  首长/n

                一/m 份/q 重要/a 报告/n

⑷ p-v多类景况

那类词首要有“在”,“到”,“比”,“朝”,“跟”,“给”等,它们的界别主要基于以下方法:


从词的语法成效与遍布考虑,若该词(包含带“着、了、过”的意况)单说或独立做谓语,则为动词。

“你/r 爸爸/n  在/v  不/d 在/v  ?/w  ” “在/v 。/w”

            北京/ns 到/v 了/y
,              新加坡/ns  我/w  到/v  过/u

            别/d 老/d   跟/v 着/u,           咱们/r 比/v  一/m  比/v

② 对“p-v+其余成分”
的布局,若单说或独立作谓语,则其中的p-v为动词;若不是单说也不是独立作谓语,而是作状语或补语,则其中的p-v为介词。试比较:

动   词

介   词

 他/r  不/d 在/v  教室/n 

 他/r 在/p  教室/n  自习/v

 他/r 在/v 不/d 在/v 家/n ——在/v

 我们/r 走/v 在/p校园/n 的/u 小路/n 上/f

 列车/n  已/d 到/v  了/u  北京/ns

 老王/nr 到/p 北京/ns 出差/v 去/v 了/u

 到/v 没/d 到/v 站/n——到/v 了/u

 从/p 东/f 到/p 西/f 共/d 长/a 30/m 米/q

 狗/n  总/d 跟/v  着/u  主人/n

 我/r 常/d 跟/p 他/r 学/v 日语/n

葵花/n  向/v 太阳/n

 运动员/n 正/d  跑/v  向/p  终点/n

    房子/n 朝/v 南/f                     门/n 朝/p 南/f 开/v

⑸ p-c多类情形

常见的词有“和”,“跟”,“同”,“与”,这一个词的词类排歧首要依照下列原则:在句子中,如若那么些词的左右成分不可以互换地点依旧在这个词的前头能够加修饰元素,则这一个词为介词;倘若那些词的前后成分可以沟通地点即互换地点后句子的意味基本不变并且在这个词的面前不只怕有修饰成分,则那些词为连词。

            我/r 跟/c 他/r 都/d 是/v 大学生/n    

            你/r 别/d 跟/p 他/r 跑/v

            我/r 跟/p 他/r 请教/v 问题/n

瞩目:上面的句子是有歧义的(括号内音信为判断标准)。

            我/r (已经/d) 和/p 他/r 见面/v 了/y  。/w

            我/r 和/c 他/r (已经/d) 见面/v 了/y  。/w

故此,需结合前后上下文音信,才能鲜明科学的词类标记。

⑹ b-d多类情形

        ① 若此词作状语, 则为副词。

               我们/r 会/v共同/d 进步/v

               自动/d 取消/v 订单/n

        ② 若此词作定语, 或与“的”组成“的”字结构,则为不相同词。

               共同/b 目标/n 是/v 完成/v  这/r  项/q 任务/n

               这/r 个/q  玩具/n 是/v 自动/b 的/u

⑺ c-d多类意况

    那类多类词,紧要有“可是”、“就算”、“但”、“可”等。一般的话,若该词在句子中修饰谓语(形容词、动词)则为副词。若此词首要连接句子和子句,表示子句之间转化、让步等语义结合关系,则为连词。试比较:

① 不过

            我/r 受/v  了/u  点/q  伤/Ng  ,/w  不过/c  不/d  要紧/a

            他/r 不过/d  随便/ad  谈谈/v

② 但

            雨/n 停/v  了/y  ,/w  但/c  地上/s  还/d  很/d  湿/a  。/w

            但/d 见/v  门上/s  贴/v 着/u  一/m  副/q  对联/n  。/w

③ 可

            大家/r 虽然/c  累/a  ,/w 可/c  都/d  很/d  愉快/a  。/w

            她/r 待/v  我/r  可/d  好/a  了/y  。

④ 尽管

           尽管/c  天/n  下/v 着/u  雨/n  ,/w  他/r  还是/d  出发/v  了/y  。/w

            你/r 尽管/d  说/v  ,/w 别/d  怕/v  。/w

4.3 关于标记vn, vd, an, ad

那四个记号分别是动词v和形容词a的附类标记。当将文件中的八个词标为vn、vd或
an、
ad时,首先认为它们是动词或形容词,只不过它们另有异样的语法性质,在言辞中显现卓殊的语法功效。有时也予以那几个标记以普通话名称,如名动词等,只是为了便利。

⑴    有一对双音节动词,当它在句法结构中装有以下4种语法功能之近期,标为vn:

a. 作特别动词“有”的宾语。

b.     充当了花样动词或其他准谓宾动词的准谓词性宾语。

c.     直接担任体词性短语的核心语。

d.     不加助词“的”,间接充当体词性短语的修饰语。

领导/n 对/p 这/r 件/q 事/n 有/v 考虑/vn

进行/v 一/m 次/q 深入/a 的/u 考察/vn

予以/v 严肃/a 处理/vn

加以/v 整理/vn

语法/n 研究/vn  很/d  重要/a

必须/d 改进/v  训练/vn  方法/n

这个/r 研究/vn  思路/n  很/d 新颖/a

亟待专注,动词直接作主语或谓宾动词的宾语,仍标为v,不标作vn。

         考察/v 是/v 必要/a 的/u

         我们/n 来/v 的/u 目的/n 就是/v 考察/v 考察/v

         需要/v 考察/v

         需要/v  考察/v 实际/a 情况/n

一般说来只在该动词所在的短语结构的层系内决定将它标注为v如故vn。例如,

   ① 我们/r调查/v目的/n 是/v 了解/v 实际/a 情况/n 。/w

   ② 大规模/d 调查/v 语言/n 的/u 实际/a使用/vn 情况/n 是/v 一/m 项/q
重要/a

           的/u 基础/n 工作/vn 。/w

        ③ 通过/p 调查/v

        ④ 通过/p 调查/v 语言/n 的/u 实际/a使用/vn 情况/n

        ⑤ 进行/v 调查/vn

        ⑥ 进行/v 大规模/b 调查/vn

        ⑦ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/b 调查/vn

        ⑧ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/d 调查/v

上述几个例证中对“调查”的标号都以不错的。

在①中,“大家”和“调查”首先结合成主谓结构,然后再修饰“目标”。如若在“目标”从前加一个“的”,结构更清楚,读起来更通畅。不过在封面语中,那几个“的”常被省掉。假若以为“的”加在“大家”和“调查”之间,“调查”和“指标”先构成定中结构,则“调查”应标注为vn。那里有歧解。

在②中,“调查”可能先同“大规模”构成状中结构,或然先同“语言的实际利用状态”构成述宾结构,都要标成v。

在③中,“调查”本人作介词“通过”的宾语。在《规范》坚守的语法连串内,介词可以带谓词性宾语。“调查”是动词的说辞可在④中找到。

在④中,“调查”先同“语言的骨子里运用情状”构成谓词性的述宾结构,再作介词“通过”的宾语。

在⑤中,“调查”作格局动词“举办”的准谓词性宾语,当然标成vn。

    在⑥中,“进行”的准谓词性宾语“调查”可以带定语,“大规模”应该标成不相同词。

   在⑦和⑧中,对“大规模调查”的标号是不雷同的。为何前边说它们都对吧?首先,⑦是对的。因为从总体上看,“语言实际使用情形的广大调查”是体词性的,将里面心语“大规模调查”也标成体词性的定中结构,不会引起争议。而在⑧中,“大规模调查”却被标成了谓词性的状中结构。那样标算不算错?理论上有没有诸多不便?前面所说的“介词可以带谓词性宾语”是“词组本位”语法连串的3个爱抚论点,而那边认为“体词性短语的主干成分可以是谓词性成分”则是“词组本位”语法连串坚定不移的另三个更紧要的、更展现其理论特色的论点。对此,朱建德熙先生早有演说。坚贞不屈这些论点,可以比较便于地分析上面的句法结构。

     需要/v 支持/v

     需要/v 支持/v 有/v 创造性/n 的/u 探索/vn

     需要/v 群众/n 的/u 支持/vn

     需要/v 群众/n 的/u 大力/d 支持/v

“群众的协助”是体词性短语,其焦点语“援救”标成了vn。对vn
的共同体清楚应该是:

“扶助”首先是动词,但在这几个现实的句法位置上起名词的功力。“群众的不竭协理”也是体词性短语,其中央语“大力协理”是谓词性的,是状中社团。在那一个布局层次中“协助”是动词v,“大力”是副词d。由于“大力”唯有三个副词词性,这样分析就不会有不便。假诺主张“体词性短语的基本成分只好是体词性元素”,“帮忙”尽管可标注为vn,但“大力”作为副词是不只怕修饰体词性成分的。类似的,还有:

          钢/n 产量/n 的/u 逐步/d 增加/v

     那里的“逐步”也唯有2个副词词性。

     当上下文消息不丰盛时,标注可能现身歧解。如上边①中的“调查”标为v或vn都不或许算错。在⑦和⑧中,“大规模调查”也有三种都得以接受的标号结果。    

     在“现场观赛是第叁的”中的“现场观望”是有歧义的。有三种标法。

          现场/s 考察/v  是/v  重要/a 的/u

         (去/v 现场/s  考察/v  工艺/n 流程/n 是/v  重要/a  的/u)

         现场/s  考察/vn  是/v 重要/a  的/u

         (进行/v 一/m  次/q  现场/s 考察/vn  是/v  重要/a 的/u)

     假使缺乏越来越多的上下文,只对“现场察看是生死攸关的”举行标注,则以为那三种标注都以没错的。

注:“现场”的词性是处所词s,处所词可以作状语修饰动词,也得以作定语修饰名词。

⑵ 当动词直接作状语时,标注为 vd 。

           他/r 讽刺/vd 说/v

           他/r 介绍/vd 说/v

           主任/n 强调/vd 指出/v

     若动词后加“地”作状语,仍标为v。

           他/r 讽刺/v 地/u 说/v

           主任/n 强调/v 地/u 指出/v

⑶   同一部分动词具闻明词特点一样,当一些形容词在实质上语料中享有以下3种语法成效之暂时,也觉得它装盛名词特点,标注为an。

a.  作了“有”的宾语,

b.  担任了准谓宾动词的准谓词性宾语,

c. 直接充当体词性短语的骨干语。

                 他/r  有/v  很多/m  苦恼/an

                 这里/s 有/v  奥妙/an

维护/v 环境/n  的/u  整洁/an

交通/n 安全/an  是/v  第一/m 要/v  注意/v  的/u

     须求小心,形容词直接作主语或谓宾动词的宾语,仍标为a,不标作an 。

           需要/v  努力/a

           需要/v  进一步/d  努力/a

⑷ 形容词直接作状语时,标注为 ad 。

                 认真/ad  学习/v  邓先圣理论/n

            深入/ad  研究/v  语法/n  有利/a  于/p  自然/a  语言/n  处理/vn
技术/n 的/u  进步/vn

     形容词后接“地”作状语时,那形容词仍标注为 a 。

                 我们/r  应当/v  深入/a  地/u  研究/v  语法/n

  1. 后记

本专业由俞士汶教师提议并主办制订。陆俭明、朱学锋、段慧明、亢世勇、孙宏林、王惠、黄瀚、詹卫东等人加入了本标准的制订。俞士汶助教起草了本标准的征询意见稿,陆俭明教师对征求意见稿举办了千锤百炼的修改。随后,有了试用稿。在长达4个多月的创设、试用进度中,稿子几经修订,还接受了南开普通话系郭锐副助教的一部分观点,形成了今后的“一九九八年三月版”。除浙大人口外,富士通公司的大家和技术人员提议了关于专盛名词加工的着力须求并参预了本标准的成立。

欢迎对本专业提出批评和指正。经过越来越多的履行后,再考虑改动和互补。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图