开源:Sagit.Framework For IOS 开发框架

1:研究上:

A:工作几乎年过后,开发效益就非是题材,需要发硌新构思来突破受限的瓶颈。

关押明白框架代码不碍事,主要是学思考,多虑,并多训练好怎么形容。

B:对于在培养行业之园丁,可以在培训完前用框架的琢磨引导一下新人,再放开她们出去。

    标注规范用以确定切分单位的符。以1999年2月份语法词典小组提供的7万词表为中心参照,其意思包括:

总结:

1 :框架刚开源,预示着当未来之日子里,升级跟改是少不了的。

2:框架只是是单基础,完整的花色架构,还待根据不同的作业搭配不同之老三正类库。

3:后续会以IT连和IT恋两只App的源码,做为示范教程,和大伙儿分享。

4:最后,依然感谢大家关注本身正在开展的IT连创业项目!

             [浙江/ns 省委/n]nt

调用:

self.window.rootViewController = [LoginController new];

 [北京大学/nt 昌平/ns 分校/n]nt

Sagit 其它力量雷同:月下无限连的属性语法:

    UITextField *userName= [[[self addTextField:@"UserName" placeholder:@"手机号码"] width:372 height:68] onRight:mobileIcon x:30 y:-10];
    [[userName maxLength:11] keyboardType:UIKeyboardTypeNumberPad];

 不用再失这样描绘的憔碎了:

 mobileTF.keyboardType                = UIKeyboardTypeNumberPad;// UIKeyboardTypeNamePhonePad;
 mobileTF.MaxLength=11;//                    = (id)self.Controller;

中档用标点符号分开的,则切分。

次:关于框架起名:

打:CYQ.Data
框架这名叫大家吐槽后,后续的框架命名,就发的不行用心了。

每当研了行星、星座、水果、植物、动物、颜色、形状等英文名称之后。

好不容易生出矣:白羊(Areis.DevFramework For DotNet)、

还为发出矣:金牛(Taurus.MVC For DotNet)

从此以后没了:双子(Gemini.workflow For DotNet)
工作流引擎目前难产中(写了初步,后来并未空折腾)。

就此,凑一起黄金十二禁,召换雅典娜,就成为了自身来地球最隐秘的职责了!

这次越级选了:Sagittarius (射手)

一来是ST的前缀简写刚好对应的今日创业公司的名:随天。

二来取前半部做框架名,简写:Sagit(发音:射日,很和谐发现有木有)

图片 1

               许许多多/m,    多多少少/m

Sagit 创新同样:简洁的相对布局语法

       ③ 二许名词的重合形式“AABB”为一个切分单位,并标明为名词n。

Sagit 创新三:表单的机关提交和回显

倘若你用交给一个表单的多少,你偏偏待如此:

-(void)btnLoginClick
{
//    NSString* userName=[self uiValue:@"userName"];
//    [self.box prompt:userName];

    [self.http post:@"/Login" paras:self.formData success:^(STModel *result) {
        if(result.success)//如果:提交成功
        {
            [self.stView loadData:result.msg];//将返回的数据回显到控件
        }
    }];
}

解析:

self.formData可以自动收集UI表单的始末。

self.stView loadData 可以自行将字典的数量形容回UI中。

普就是是如此Easy,在这种健康的付中,批量来批量失去,不需要发出Model的在。

这边小就无提供Demo了,后续文章又跟进。

        c. # +“化”,
一般做动词,如:标准化/v,  多元化/v;也来两样:四化/j,理想化/a。

解析:

LoginView和LoginController两单公文代码里,并不曾互相引用的地方。

但是UI和波也上神奇之涉嫌起来了,这是怎好的也?

隐秘就是当STView和STController文件的源码中。

                繁荣/v  市场/n,               端正/v 态度/n

Sagit 其它力量…

1:网络的伸手单生三只:

[self.http get ...]
[self.http post ...]
[self.http upload ...]

2:消息提示框:

[self.box prompt...]
[self.box alert..]
[self.box confirm...]

另等。。。就未以这边介绍了,后续会逐渐写文介绍。

国名、地名的简称并列在并时,即使中间没有顿号也承诺切分分开。

老三:框架的适用场景:

           联合国/nt, [国际/n 贸易/n 组织/n]nt,   

Sagit 开源地址:

GitHub:https://github.com/cyq1162/Sagit

当前为源码方式供,并未从包成类库。

少数单因:

同是尚需地方要连续全面提升;

二来方便有趣味之同班一道完善。

             省委/n

Sagit 其它功能二:封装了适合C#玩家的洗练语法

OC的命名总是很丰富,做为一号称C#的大神,有义务把C#简洁之语法带过来。

例如:

@interface NSString(ST)

-(NSString*)reverse;
-(BOOL)isInt;
-(BOOL)isFloat;
-(NSString*)append:(NSString*)string;
-(NSString*)replace:(NSString*)a with:(NSString*)b;
-(NSString *)replace:(NSString *)a with:(NSString *)b isCase:(BOOL)isCase;
-(NSArray<NSString*>*)split:(NSString*)separator;
-(NSString*)toUpper;
-(NSString*)toLower;
-(BOOL)startWith:(NSString*)value;
-(BOOL)endWith:(NSString*)value;
-(BOOL)contains:(NSString*)value;
-(BOOL)contains:(NSString*)value isCase:(BOOL)isCase;
-(BOOL)isEmpty;
+(BOOL)isNilOrEmpty:(NSString*)value;
+(NSString*)toString:(id)value;
-(NSString*)trim;

           [宝山/ns  钢铁/n (/w 宝钢/j )/w  总/b 公司/n]nt

力量:(为了截图,特意新建了单demo…)

图片 2

*在发生顿号分开的景况下,则切分:

2:项目开发:

A:开发人员没有框架的概念。

B:目前莫其余可卜的框架。

一般的游说,除了玩,其它常规性的路都合乎。 

 

下对框架进行简短的牵线,也只能是简单介绍:

              前院/s,    里屋/s,      后街/s

1:统一标准参数,自适配手机屏幕,实现AutoLayout。

A:框架默认为IPhone6的像素为业内参照体系:750*1334。

B:开发时,都盖正规化的像素单位也参数。

C:运行时,会自动适配成对应比例的参数。

(PS :如果急需改标准,可在STDefineUI.h文件被修改定义)

关押在UI给的参数标注图,轻松布局:

图片 3

              红茶/n ,  苦瓜/n ,   红花/n(一栽中草药)

哼了,现在夫题目早已让我彻底解决了,0入侵已经化为了实际,下面看示例代码:

LoginView 的代码:创建了一个文本框和一个点击按钮

@interface LoginView : STView //这是LoginView.h

@end

@implementation LoginView    //这是LoginView.m

-(void)initUI
{
    [[self addTextField:@"userName" placeholder:@"输入手机号"] x:0 y:0 width:100 height:100];
    [[self addButton:@"btnLogin" title:@"登录"] onRight:self.lastSubView.PreView x:10];
}
@end

LoginController 的代码:有一个按钮事件,获取手机号用户名然后弹出来提示

@interface LoginController : STController // 这是LoginController.h

@end

@implementation LoginController            //这是LoginController.m

-(void)btnLoginClick
{
    NSString* userName=[self uiValue:@"userName"];
    [self.box prompt:userName];
}

c.     当语法词典给某个词确定的词性不针对还是不齐全时,当然也要订正还是上。这时应通知词典小组。

Sagit 创新二:彻底分手的View与Controller

记得很早以前,我形容过一样首文章:Objective-C iOS纯代码布局
一堆放代码可以放大这里!

那时候只是研究的前奏,并没有实现一体化分离,当然现在凡是缓解了。

举个像:一个文本框一个按钮,点击按钮弹出文字框的情。

前的做法,你还见面于Controller里写一积聚UI相关的创办方法,或者需要拿或多或少UI定义为全局变量,以便后续还失去获取UI的价值。

顶差啊是自我事先不到位时预留的那点手尾:(下面红色的,在Controller中需要定义一个切实可行的LoginView变量)

图片 4

               副/b 主任/n, 总/b 公司/n

2: 简洁的相对布局语法,一行看老

如上图片为条例,做布局

A:相对父元素的布局 Logo:

[[[[self addImageView:@"login_logo"] width:170 height:170] relate:Top v:288] toCenter:X];

B:相对稳定元素的布局,下面这行代码是援其它地方的:

[[[[self addImageView:@"icon_verify"] width:48 height:48] onBottom:pwdIcon y:26] toCenter:X];

*⑾ 四只字之成语或习惯用语为一个切分单位,并标以词性i或l。

3:可有些刷新的布局

以下这行代码,会指向批定的视图的子视图重新上同潮相对布局。

[self refleshLayout];

 

          试试看/v,   查查看/v,   念念看/v

一如既往:创造Sagit开发框架的导火线:

记得IT连创业正进行经常,招了只IOS的女生做开发,然后:

———-女生的事故就是这个开了———–

1:面试时:有作品,态度吗不利,感觉当力所能及举行点事。

2:刚招上:发现每日还当拘留文章,但迟迟未展现出接触东西。

3:过程问答:现在于整些什么?回答在增多框架。

4:发现危机:不小心看到它因此单手指敲键盘,感觉不好好。

5:处理危机:速学IOS,一个礼拜后,看了她代码,谈话Over!

———-女生的事虽到此结束了———-

以速学IOS时,快速扫了累累扶植之视频教程,发现套路都是蛮旧。

这些原本的覆辙了解得,但一旦这些恢复搬至路来,就祸害无穷了。

比如这创业之资产考虑,很大概率招来的食指是以下三种植:

1: 刚从培训班出来的;

2:刚看了培训视频过来;

3:刚用培训视频的覆辙祸害完一个类别后超越过来的。

以对生一个开发人员有所约束:

受一个发出3-4年支付经历的爱人帮打点一晃框架。

在押了他收拾的框架,发现仅是常规性的工具类分文件夹。

吃他取了一个渴求,把里面一个大网要重打包一下。

回头再看,虽有所改善,但要欠缺我意。

或是得指导后续改善,但时未坐自身,也无盖客。

于是自己动手了:框架大体完成60%时不时,招了只男开发人员。

———-男生的故就是这个开了———–

为赶项目,让新人在框架的底子及开工了。

由于新人开发人员能闹点东西,加上有框架的协助,就放手了。

出于框架的匪完美,以及针对性框架的无知晓,遇到点小坑就吐槽。

吐槽多矣,也只能容他混在其余的框架一起整理了。

更后来,多的累累不到底的坑和闪退事故。

初关注IT连和用IT连App的童学,就亮了。

抑或在自前面的IT连创业系列文章里该可以感知了。

现在,他也Over了!

———-男生的问题虽到此结束了———–

又接任回IOS后,发现代码逻辑吗是一样团槽,好于前头来同样部份或论框架走。

近年花了一致两全多的下,理解,并初步重构整个项目之代码。

并且对框架之前曾部分指关系为开展了抽离,并重新重构了瞬间框架。

目前针对框架的重构的做事曾进行了70%-80%,还有局部效应想了尚并未长。

但是完全并无影响基础意义,所以是下把Sagit的框架和大家分享了!

 

“群众的支持”是体词性短语,其中心语“支持”标成了vn。对vn
的整清楚应该是:

维吾尔语/nz, 蒙古语/nz, 汉语/nz,  罗马利亚语/nz, 捷克语/nz

                放/v  明白/a  一些/m

http://blog.sina.com.cn/s/blog\_8af106960102vbla.html

                 桌子/n(zhuo2zi5),      围棋子/n(wei2qi2zi3)

⑷ 形容词直接发状语时,标注为 ad 。

       ② 形容词的“ABAB”    如:高兴/a  高兴/a,   舒服/a  舒服/a

               甜甜的/z 点心/n,     削/v 得/u 尖尖的/z,   慢慢地/z 跑/v

             [北京大学/nt 校长/n 办公室/n]nt

         [芜湖/ns 专区/n]ns,[宣城/ns 地区/n]ns,[内蒙古/ns
自治区/n]ns,

⑵ 地名: ns

小心:下面的句子是起歧义的(括号内信息吗判断标准)。

一对散“得”或“不”后则是一个合成词,但里边至少发生一个凡是语素,拆开了是为难明白的,仍作为一个切分单位。

                经过/p 苦苦/d 追求/v 而/c 获得/v 幸福/a  者/k

    “分词单位”是中华国家标准“分词规范”中之一个基本概念。它是乘信息处理面临以的、具有确定的语义和语法功能的主导单位。为了跟“分词规范”衔接,这里比如沿用“分词单位”这个定义,不了术语改用“切分单位”,因为“分词”这个术语都当英语语法中长期利用,大家已深谙,而因此和一个术语表达相同或近学科的差不多只概念好滋生混乱。

Δ⑷ 除人名、国名、地名、团体、机构、组织以外的旁专有名词都标以nz,具体规定如下。

                 朋友/n  们/k ,孩子/n  们/k

*③ 少数“单音节区别词+双音节词”的布局作为一个词收入了词典,则不再切分。

         [宁夏/ns 回族/nz自治区/n]ns, [深圳/ns 特区/n]ns,

4.1 词性标注和语法信息词典的关联

⑵      小标记集。词性标注除了以《现代华语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前连成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标志,即人口名nr,地名ns,团体活动单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。合计约40独左右。

② 切分和标注相结合的专业

         a. 表示名词复数的“们”单独切分,并标以k。如:

            如:非/h 国家/n 工作/vn 人员/n,    非/h 本市/r 注册/vn
车辆/n

⑤ “形(双音)+名(单)”的定中结构,处理标准与④

        由“语素或词+后交接成分”组成的合成词,一律为一个切分单位。详述如下:

       ③  有类化作用的后接成分

              1997年/t 3月/t  19日/t,      98年/t 10月/t  8日/t,

后文引用省委书记的语时,尽管“省委”指的尽管是“浙江省委”,但单纯标明为:

           [中国/ns 计算机/n 学会/n]nt,  [香港/ns 钟表业/n
总会/n]nt, 

            我/r (已经/d) 和/p 他/r 见面/v 了/y  。/w

        ② 姓名后的位置、职称或称呼要分开。

           尽管/c  天/n  下/v 着/u  雨/n  ,/w  他/r  还是/d  出发/v  了/y  。/w

Δ⑺ 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应给切分。

             形得成/v,  形不成/v

               相不相信/v,    容不容易/z,    漂不优秀/z


专有名称后交接单音节的语素,如代表民族的“族”、表示语言的“语”,表示文字的“文”,则不切分,标注为nz。

① 切分规范

      物理学/n,     物理学家/n,   语言学/n,   语言学界/n

遭,“鹧/x”是非语素字。

③ 数量词组应切分为数词和量词。

             胸有变为竹/i, 欣欣向荣/i,    众所周知/i,   由此可见/l,
新春伊始/l

               马里马虎/z,   糊里糊涂/z,   慌里特别张/z

          如:阿哥/n,     阿华/nr

       ②
二配形容词的重合形式“AABB”为一个切分单位,加“的”或“地”也还是一个切分单位,并标明为状态词z。

进行/v 一/m 次/q 深入/a 的/u 考察/vn

马克思主义/n,     马克思列宁主义/n,    杜鲁门主义/n,

       ⑤
有少只意思相反的字眼形容词并列而成的名词再重叠所抱的叠形式“AABB”为一个切分单位,并标注为状态词z。

据此,需做前后上下文信息,才会确定对的词类标记。

a.     标记集以26个词类标记为尺度,名动词、副动词、名形词、副形词和专有名词的符号是于动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是以语素代码g前面增加一个怪写字母。

        ①
汉族人及与汉族起名方式同样的非汉族人之姓氏和名单独切分,并各自标注为nr。

美国/ns 方式/n,  日本/ns  料理/n, 宋朝/t  古董/n

③-1 一般词性标注


历史上重要事件、运动等专有名称一般是短语型的,按短语型专有名称处理,标以nz。

当处理大规模真实文本时,不可避免地会见碰到未刊出录词。第3节为有了一些合成词的组织规则。根据这些规则自动生成的抑经校对者确认之切分单位,如果结合平安,使用频度较高,以后产生或上及语法词典中。

          人人/n,   家家/n

① 不过

       ② 用得加否定的款型表示疑问的动词或形容词的短语,一般切分开。

        ⑥ 外国人或少数民族的译名(包括日本人的全名)不予切分,标注为nr。

        ② 若此词作定语, 或和“的”组成“的”字结构,则也分词。

      五六/m 年/q,   七八/m 天/q,  十七八/m  岁/q,  成百/m 学生/n,

2/m 号/q  国道/n ,     十一/m 届/q  三中全会/j

尽管以给定的还甚之上下文环境遭受,该“校长办公室”是专指的。

               形成/v,  鼓动/v,  说明/v,  震动/v

              3月/t 10日/t  下午/t  2时/t 18分/t

           儿化词一般为名词,如:花儿/n,画儿/n 

北京大学计算语言学研究所

予以/v 严肃/a 处理/vn

c.     直接充当体词性短语的主干报告。

2.2 对分词规范的补给和调动

⑺  人机互助的劳作措施。以以专业也尺度,继续壮大自动加工软件的功能并增强该精度。人工校对是必需之。需要重校对人员期间的研究,要用对准学术问题之两样视角统一到标准的制定与实践及。开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。

        也有人当“主义”是后接成分,且其后常常连接另一个后接成分“者”,因此用“主义”同其眼前的专有名称合在一起作为一个切分单位(参见:3.2(2)③底d)。

 [联合国/nt 教科文/j  组织/n]nt

         1998/m  中文/n  信息/n 处理/vn  国际/n  会议/n

1999年3月版

⑩ 一般的命名活动常用引号表示,也无看作专有名称。

中/j 日/j  联合/vn  公报/n

迎接对按照专业提出批评与指正。经过再次多的实行后,再考虑修改和加。

a.  作了“有”的宾语,

哈萨克/nz 人/n, 高山族/nz人/n,   安徽/ns 人/n

         (去/v 现场/s  考察/v  工艺/n 流程/n 是/v  重要/a  的/u)

中华/nz 读书/vn  报/n,       杜甫/nr 诗选/n,

            我/r 受/v  了/u  点/q  伤/Ng  ,/w  不过/c  不/d  要紧/a

               高高兴兴/z,   舒舒服服/z,   高高兴兴的/z,    舒舒服服地/z

         [广西/ns 环江/ns 毛南族/nz 自治县/n]ns,

          亚洲/ns,   海南岛/ns,  太湖/ns,
白洋淀/ns,  俄罗斯/ns,哈萨克斯坦/ns,

         (进行/v 一/m  次/q  现场/s 考察/vn  是/v  重要/a 的/u)

             德/j 、/w 意/j 、/w 日/j,     港/j 、/w  澳/j 、/w 台/j,

           主任/n 强调/vd 指出/v

  1. 切分和标注相结合的正统

 

   ① 我们/r调查/v目的/n 是/v 了解/v 实际/a 情况/n 。/w

       ① 某些双音节离合词分开使用,其中一个凡是语素,可将它们标注为语素。

       除下列特殊状况外,语素和非语素字一般不当作切分单位。

             农/j 、/w 林/j 、/w 牧/j 、/w 副/j 、/w 渔业/n

[北京/ns 国安/nz 队/n]nt,     北京队/nt,    雷锋班/nt

    汉语为重叠变化方法构词的景况,主要出AA,AAB,ABB,AABB,A里AB,A不AB,ABAB等形式(其中A,B分别代表一个中国字),若这种词形作为词条收入了语法信息词典,其词性是确定的。下面的讨论要是针对性词典中尚无拖欠词形的图景:

        ① 数词+ n-q + n,取q。

② 大多数团体、机构、组织的专有名称一般是短语型的,较丰富,且含有地名或姓名等专名,不会见报到在语法词典中,本标准规定先切分,再结合,加方括号标注为nt。

⑿ 超过四个字之习惯用语或成语,一般不予切分,标注为 l或i 。

             甲午年/t, 甲午/t 战争/n,  庚子/t  赔款/n,  戊戌/t 变法/n

         由动词形成的“V一V,V了V,V了平等V”重叠形式,
作为动词词组都绝对分开。

    由于文本数据的特征,机器无法区分同形异音词与同形同音词,这就是招致了华语词类标注过程遭到词类歧义现象比较多。可以笼统地拿装有这种情景的词称为多类词。下面说明多类词的部分标明规范。

[明治/nz 维新/n]nz,   [甲午/t  战争/n]/nz

        ① 若该词在句子中拉动了真宾语,则标为v。

           [香山/ns 植物园/n]nt,          [安娜/nz 美容院/n]nt,

当国语中,像“双音节动词+单音节名词”通常构成新的名词,对于这新的名词,即使在词典中没登录,也该把它们处理啊一个切分单位。因此,在遵循专业着,给来了有因词性描述的构词规律,规定了哪的结缘可处理吧一个切分单位,并被闹了初做的词之词性标记。这片情节要集中在第3章节中。

 [河北省/ns 正定县/ns  西平乐乡/ns  南化村/ns 党支部/n]nt

     若动词后加以“地”作状语,仍标为v。

假若下位名称不分包专名,则要同齐各称捆绑在联合标注。

⑶   同一部分动词有名词特点一样,当一些形容词在实质上语料中有所以下3种语法功能之一时,也看它们具有名词特点,标注为an。

倘数字后不管表示时间的“年、月、日、时、分、秒”等之标为数词m。

               我们/r 会/v共同/d 进步/v

      * ⑤ 一些显赫作者的抑不易区分姓和称的笔名通常作为一个切分单位。

① 一般也切分单位,并标以词性b。

2.1 基本概念

            别/d 老/d   跟/v 着/u,           咱们/r 比/v  一/m  比/v

             本报/r, 每人/r,  本社/r,   本/r 地区/n,    各/r 部门/n

康师傅/nr 方便面/n,  中华牌/nz 香烟/n,  牡丹III型/nz 电视机/n

         [厦门/ns 经济/n 特区/n]ns,    [香港/ns
特别/a  行政区/n]ns,

但小结合紧密或下稳定之述宾结构都在词典中登录,则处理成一个切分单位(离合词),标注为动词v,如:吃饭/v,
跳舞/v, 唱歌/v。

          张张/q,  个个/q

      约/d 一百/m 多/m 万/m,    仅/d 一百/m 个/q,   四十/m 来/m 个/q,

 

          [中国/ns 银行/n]nt     [北京/ns 分行/n]nt 

     当上下文信息不充分时,标注可能出现歧解。如上面①中的“调查”标为v或vn都未克算错。在⑦和⑧蒙,“大规模调查”也出星星点点种植都得承受的标结果。    

⒈ 前言

         我们/n 来/v 的/u 目的/n 就是/v 考察/v 考察/v

      几十/m 人/n,    几十万/m 元/q,    第一百零一/m 个/q

当⑤惨遭,“调查”作形式动词“进行”的准谓词性宾语,当然标成vn。

△⑻ 区别词

           一个个/m,   一阵阵/m,    一团团/m

△⑼ 动词加动词或动词加形容词构成的述补结构

欧洲/ns 语言/n,  法国/ns  文学/n, 西方/ns  文化/n,

                非党员/n,    无政府主义者/n,     超大型/b

除此以外,汉语中发生一部分名词临时作量词且只能前连数乐章“一”,对于这种状态,也是应把它标为量词q。

           [日本/ns 外务省/nt]nt, [日/j 通产省/nt]nt, [日本国/ns
法务省/nt]nt,      

        ③ 对人口的简称、尊称等使为片个字,则同为一个切分单位,并标以nr。

               自动/d 取消/v 订单/n

             三吓/j,  爱委会/j,  教科文/j,   农工牧副渔业/j, 中西方/j

中/j 美/j  跨/v  国/n  公司/n

         也时有发生异: 一/m 堆儿/q,玩儿/v,颠儿/v,滚圆儿/z,好好儿/d,
好好儿的/z

③ 团体、机构、组织称的专指性是不可或缺的,孤立的“大学、学院、图书馆、植物园”等就标为n,不标为nt。在平首稿子的开,团体、机构、组织名称的专指性是明确的,后文往往采用简称。当省略了专名,只剩下普通名词时,就不再标nt。如征集浙江省委书记之报道,记者开始定会写清楚“浙江省委”,这时加工成:

              小/a 床/n ,     白/a  花/n ,    红/a  花/n

               雄鸡/n, 雌象/n, 女魔/n, 古币/n

            深入/ad  研究/v  语法/n  有利/a  于/p  自然/a  语言/n  处理/vn
技术/n 的/u  进步/vn

 Δ②
地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等只是字之行政区划名称时,不切分开,作为一个切分单位。

      三/m 个/q,    10/m  公斤/q,   一/m  盒/q  花/n

       ① 国名不论长,作为一个切分单位。

             西周/t, 秦朝/t, 东汉/t,  南北朝/t,  清代/t

        ⑦ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/b 调查/vn

⑷ 注意:单音节区别词与前面连成分的处理方式不同,见2.2⑻。

⒋ 标注规范

    如:  部里/n,    县里/n,   村里/n,    系里/n,   班上/n

 食谱上之菜名等屡见不鲜也是短语型的,若拆起来了,意思差别十分远,则非切分,否则切分。即使不切分,也不作是专有名词。

            如:非金属/n,超音速/b(音速/n),  超声波/n,  无公害/v(公害/n),

末一个简称如与背后一个字(语素)可合成一个词的,则非单独切分出来。

             港/j 、/w 澳/j 同胞/n,

        ⑥ 进行/v 大规模/b 调查/vn

       ① “名+名”的定中结构, 一般也一个切分单位。

⑵ 三配名词

    从篇幅考虑,对个别独字之结缘于活络地作是一个切分单位,三单字之比严苛,四只字以上的设无是成语、习惯用语一般不作是一个切分单位。

              克林顿/nr, 叶利钦/nr, 才旦卓玛/nr,
小林多喜二/nr,北研二/nr,

        来得及/v,  来不及/v,   对得起/v,  对不起/v, 说得过去/l,
说勿过去/l

⑦ 以序号命名的名一般不看是专有名称。

③ 包含专有名称(或简称)的交通线,标以nz;短语型的,使用方括号。

⑶ 单纯方位词+名(单音)的定中结构,为一个切分单位。所组成的合成词一般是处在所词,但在某些特殊情况下或者是名词或时间词。

              身/Ng 上/f –>身上/s,            胸/Ng  前/f
–>胸前/s

               山山水水/n,   方方面面/n

⑤ 前后持续有高达下位关系之组织机构组织名称的处理方式如下:

    这类似多类词,主要发生“不了”、“尽管”、“但”、“可”等。一般的话,若该词在句子中修饰谓语(形容词、动词)则也副词。若此词要连接句子和子句,表示子句之间转化、让步等语义结合关系,则为连词。试比较:

        ⑤ 进行/v 调查/vn

领导/n 对/p 这/r 件/q 事/n 有/v 考虑/vn

       ④ 状态词的“ABAB”    如:雪白/z  雪白/z,   碧绿/z  碧绿/z

日本多少政府机构名称很特别,无论是否出现在“日本”国名之后还标为nt。

即时类似词要发生“在”,“到”,“比”,“朝”,“跟”,“给”等,它们的界别主要依据以下措施:

               这/r 个/q  玩具/n 是/v 自动/b 的/u

          河北省/ns  正定县/ns  西平乐乡/ns [南化村/ns  党支部/n]nt

                涨/v  红/a  了/u  脸/n

    汉语中,词以及词组的尽头、成词语素和不成为词语素的边际是张冠李戴的。本专业规定,凡收入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般还是切分单位。由于语法词典中之词条多上7万,对真正文本的覆盖率很高,因此好保证绝大多数切分单位与语法词典的词条是均等的,但两者之间还是发生差别的。例如5只字以上之成语、习用语是切分单位,但切莫被收入现在之语法词典。像“一百二十八”、“五分之三”、“百分之九”、“1998年”、“10月30日”这样的数词和日词实际上是最最多的,语法词典不可能全收,只恐收少量的三结合成分。反过来,像“分的”、“百分之”作为助数词收入了语法词典,但其并无是切分单位。语法词典中含有的前接成分、后连成分、语素、非语素字不是切分单位,尽管当她不可知同上下成分结合时为会见孤立地涌出于切分序列中。

Δ⑹ 时间词

                不/d  顾/v  劝告/v  而/c  执意/vd  闹事/v  者/k

⑨ 当有些专名无法甄别它们是姓名还是地名或单位名时,暂标以nz。

       ① 双音节形容词的层形式ABB, 为切分单位,并标明为状态词z。

     需要/v 群众/n 的/u 大力/d 支持/v

             一/m 慢/a 二/m 看/v 三/m 通过/v

     这里的“逐步”也唯有发生一个称词词性。

       ③ “动+名”如为述宾结构,则是短语,应切分开。

红楼梦/nz,    人民日报/nz,    儒林外史/nz 

          现场/s 考察/v  是/v  重要/a 的/u

           [国家/n 教育/vn 委员会/n]nt,    [信息/n 产业/n 部/n]nt,

亟需注意,动词直接发主语或谓宾动词的宾语,仍标为v,不标作vn。

⑴  二字名词

      第一/m,   第三十五/m,   20%/m, 三分之二/m,   千分之三十/m

                及时/ad  报告/v  首长/n

a. 作特别动词“有”的宾语。

美国的“国务院”,其他国家的“外交部、财政部、教育部”,必须以那所属国的国名之后出现不时,才同标注为nt。

b.    “单字名词性语素字+单字方位词”的组织,合为一个处于所词要常                     间词。

双音节的述补结构中插“得”或“不”一般应给切分,


书、报、杂志、文档、报告、协议、合同等之称通常发生书名号加以标识,不作为专有名词。由于这些名往往比较丰富,名字本身按正常处理。

       ① 单字动词重叠式AA作为一个切分单位,并标为动词词性v。

② 但

               洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg

               江/nr 主席/n,  小平/nr 同志/n,   江/nr 总书记/n,

马上4只标志分别是动词v和形容词a的附类标记。当以文件中之一个词标为vn、vd或
an、
ad时,首先看它是动词或形容词,只不过它们别样发突出之语法性质,在说话中展现特别之语法功能。有时也施这些标记为中文名称,如名动词等,只是以方便。

          彼得堡/ns,  伏尔加格勒/ns

⑺ 其他花样之重合情况

流淌:“北京队”、“雷锋班”作为“词”,“厂”同“手表”切开,而“铺”同“烧饼”合在一起。这清一色称双音节名词和尾的单音节名词或语素结合的貌似规则。见第4回。 

② 约数,前加副词、形容词或后加“来、多、左右”等助数词的应允给切分。

⑷      词组(短语)本位汉语语法体系的点拨作用。汉语的词类与句法成分中未在简单的各个对许提到。同一个句法成分可由不同词性的乐章来充当;而富有确定词性的以及一个词又可以担任不同之句法成分,形式上得以无其余例外的标志。《现代中文语法信息词典》是于歌词组本位语法体系的语法思想指导下研制的,其最为基本的战果是针对一系列的用语根据其于实际语料中之语法功能分布,特别是优势效应分布决定了它们的词性(即她所属的词类)。在进展词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个核心成果,避免单独因词在所于的词中担任的句子成分来支配其词性。同时考虑到语言学界对中文词类的分是不同观点,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非止是缓冲不同见解,主要是以给歌词之兼类研究提供计量根据,也

         需要/v 考察/v

北大计算语言学研究所自1992年开班展开中文语料库的一连串加工研究。第一步是对准原来语料进行切分和词性标注。1994年制定了《现代中文文本切分与词性标注规范V1.0》。几年来都形成了盖60万字语料的切分与标明,并当短语自动识别、树库构建等倾向及开展了探讨。在累积了老的实践经验之后,最近以进行了《人民日报》语料加工之试。为了确保广大语料加工就无异桩根本之言语工程的顺利进行,北大计算语言学研究所为1998年10月制定了《现代华语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工之职责超出词语切分与词性标注的限,故将新版的标准改名为《现代中文语料库加工规范》。

                这/r 床/q 被子/n,                这/r 门/q 亲事/n

               女/b 司机/n, 金/b 手镯/n,  慢性/b 胃炎/n, 古/b 钱币/n

① 团体、机构、组织的专有名称若作为名词登录在语法词典中,则直接标注为nt。                 

           [美国/ns 国务院/n]nt,  [法国/ns 外交部/n]nt,   [美/j
国会/n]nt

          联合国/nt,  中共中央/nt,   国务院/nt,  北京大学/nt


其它前接成分(“非”,“超”,“无”,“过”,……)与词构成的新的合成词,可能维持原词的词性,也恐怕改变词性。

设前方来专名,合起来作为短语型专名也是得的。

c.     “省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、上”等方位词,仍发生团体、机构的意义,作为一个切分单位,标为名词。

假若“非”等前连成分所辖的范围超一个歌词,则依旧切分开。

         鸭绿江/ns,
亚马逊河/ns,   喜马拉雅山/ns,   珠穆朗玛峰/ns,地中海/ns,  大西洋/ns,   洞庭湖/ns,  塞普路斯岛/ns

     “甲午年、庚子、戊戌”等为反对切分,标注为:

          常常/d, 仅仅/d

               好好/d 干/v 吧/y,       久久/d  没/d 说话/v  

*② 历史时的名目虽然来专有名词的性,仍标注为t。

          庞各庄/ns, 三元里/ns,  彼得堡/ns,   北菜市巷/ns,  

                手指甲/n,    马尾巴/n,    电/n 暖壶/n

       由“前接成分+语素或词”构成的合成词,为一个切分单位。这还要可密切分为以下情况:

 

⑴  前连成分+语素或词

这个/r 研究/vn  思路/n  很/d 新颖/a

        ④ 通过/p 调查/v 语言/n 的/u 实际/a使用/vn 情况/n

④ 尽管有③的确定,对于当列国或中国克外之名牌的绝无仅有的团队、机构、组织的称即使前面没有专名,也标为nt。

动   词

介   词

 他/r  不/d 在/v  教室/n 

 他/r 在/p  教室/n  自习/v

 他/r 在/v 不/d 在/v 家/n ——在/v

 我们/r 走/v 在/p校园/n 的/u 小路/n 上/f

 列车/n  已/d 到/v  了/u  北京/ns

 老王/nr 到/p 北京/ns 出差/v 去/v 了/u

 到/v 没/d 到/v 站/n——到/v 了/u

 从/p 东/f 到/p 西/f 共/d 长/a 30/m 米/q

 狗/n  总/d 跟/v  着/u  主人/n

 我/r 常/d 跟/p 他/r 学/v 日语/n

葵花/n  向/v 太阳/n

 运动员/n 正/d  跑/v  向/p  终点/n

a. “单字名词 + 单字方位词”的整合,切分为有限独单位。

       ⑧ 大小地名相连时的标注方式吗:

        ③ 其它情况,一般取n。

                编辑/v  科技/n  文献/n

    在⑥饱受,“进行”的准谓词性宾语“调查”可以带动定语,“大规模”应该标成区别词。

⑸  为了对新闻语料中大量设有的专有名词(地名、团体机构名称等)进行研究(从命名规律及自动识别),在切分与标明的根基及针对由于若干单词组合而成的短语型专有名词加上方括号与花色标记(主要是nt,nz,还有微量底ns)。

守水楼贵先得月/i,          一年之计在于春/i,

港/j 澳/j  台/j  同胞/n

          日日夜夜/d,   原原本本/d,   确确实实/d

 ③-2  专有名词标注

不过为起奇状况,如:前头/f ,后头/f

     形容词后搭“地”作状语时,那形容词仍标注为 a 。

b.     一个词若在语法词典中早就属有一个或者几单词类,人工标注(校对)时不要随意增加词性。如“训练”、“强调”在语法词典中单单属动词,标注时切勿仅冲该在脚下句子的效能就用她改吧名词或副词,可以标注为名动词vn或副动词vd。

           通产省/nt      

① VO结构形式的双音节离合动词的“AAB”重叠形式呢一个切分单位,并标为动词词性v。

     需要/v 支持/v 有/v 创造性/n 的/u 探索/vn

               张/nr 教授/n,  王/nr 部长/n,     陈/nr 老总/n,

        b. 二配词中之“们”或口语中的
“们”同前的名词的结缘(可儿化)拆起来了不管意义,就伙同起来作为一个切分单位,并标以n。如:

 [北京大学/nt 计算/vn  语言学/n  研究所/n]nt

      ①
“阿”+单音节名词或名语素,组成名词,并标以n;若该名语素是借助丁之专名,则标为nr。

                 我们/r  应当/v  深入/a  地/u  研究/v  语法/n

第4章节集中论述标注规范。

贝多芬/nr 交响乐/n,  雷锋/nr  精神/n,

      ②
数量结构的“ABB”形式,不予切分,并标明达标反复词词性m(具有数据词的特性)。

② 对“p-v+其他成分”
的布局,若单说或者独自作谓语,则中的p-v为动词;若无是只说乎无是单身作谓语,而是作状语或补语,则中的p-v为介词。试比较:

          北京大学/nt  [昌平/ns  分校/n]nt

            他/r 不过/d  随便/ad  谈谈/v

                这/r  花/n  很/d  红/a,      市场/n  很/d  繁荣/a

应当小心的凡,具有实际意义的“头(tou2)”、“子(zi3)”不扣作后搭成分,试比较:

⑵  语素或词+后交接成分

                要/v  锁/v 上/v  门/n

      二十/m 余/m 只/q,         十几/m 个/q,        三十/m 左右/m,

    Δ⑦ 地名后搭的象征自然区划的平常名词而有有限个以上汉字,则应切开。也使以地名同自然区划名词用方括号括起来,并标以ns。

切分规范重点规定现代中文的切词原则,即什么的汉字组合可啊一个切分单位。第2章节中详细介绍对“分词规范”的补偿及调整。

               孤单单/z,     亮堂堂/z,      孤零零/z

           国务院/nt, 外交部/nt,  财政部/nt,  教育部/nt,  国防部/nt,

        ④ 若该词作动词的补语,则承诺标为a。

              华盛顿/nr, 爱因斯坦/nr

         走/v 得/u 到/v,  走/v 不/d 到/v, 安/v 得/u 上/v,安/v
不/d  上/v

④ “形(单音)+名(双音)”的定中结构,处理标准及亚许的“形+名”组合

           [上海/ns 手表/n 厂/n]nt,      [永和/nz 烧饼铺/n]nt,

    为泾渭分明起见,以下用符号“*”标识那些补充的确定,用“Δ”标识那些调整的规定。

       ④ 二许数词之交汇形式“AABB”为一个切分单位,并标为数词m。

⑹ b-d多类似状况

而诸如“生产资料/n ”、
“国民经济/n”、 “生产关系/n”等要作为一个词就入账词典的饶不再切分。

“几”和“零”属于中心的系数词(或各数词),因此包含“几”和“零”的基数、序数、小数、分数、百分数呢非切分。

⑵ a-v多类情况

               老张/nr, 大李/nr, 小郝/nr,  郭老/nr,  陈总/nr

③ “名(单音)+名(双音)”结构,通常也一个切分单位,但弹性较充分,若前方的单音节名词和后面的双音节名词做后意义不转换,也足以分开

          [米市/ns 大街/n]ns,   [蒋家/nz 胡同/n]ns,   [陶然亭/ns
公园/n]ns  

           [北京/ns 图书馆/n]nt,          [富士通/nz 株式会社/n]nt,

      ④ 单字量词重叠形式AA,为一个切分单位,并标上量词词性q。

                 对头/n ,码子/n

          钢/n 产量/n 的/u 逐步/d 增加/v

            鹧鸪/n 的/u 鹧/x 有/v 什么/r 意思/n 吗/y ?/w

     需要/v 支持/v

           他/r 讽刺/vd 说/v

                繁荣/a  的/u  景象/n,    红/a  颜料/n,    巩固/a  的/u  国防/n

 

3.3 复合词

         考察/v 是/v 必要/a 的/u

   于⑦及⑧遭到,对“大规模调查”的标注是免相同的。为什么前面说她都对啊?首先,⑦凡针对性之。因为起总体达标看,“语言实际采用情况的常见调查”是体词性的,将中间心语“大规模调查”也标成体词性的定中结构,不会见引起争议。而以⑧被,“大规模调查”却吃标明成了号称词性的状中结构。这样标算不算是错?理论及有没发出不便?前面所说之“介词可以带动名词性宾语”是“词组本位”语法体系之一个最主要论点,而这边看“体词性短语的主导成分可是名为词性成分”则是“词组本位”语法体系坚持的另一个重新主要之、更显其辩护特色的论点。对之,朱德熙先生早出论。坚持这个论点,可以比好地解析下的句法结构。

           主任/n 强调/v 地/u 指出/v

⑴ n-q多看似情况。

⑶ 前连成分+语素或词+后连成分,此种形式组成的合成词,也为一个切分单位。

    汉语中的一对名词(主要是单音节名词)可以兼顾作量词,对于这些词,依据上下文来确定句子中之词之词性。

       ①
双音节形容词的重合形式“A里AB”,为一个切分单位,并标注为状态词z。

         [香港/ns 特区/n]ns,           [华盛顿/ns  特区/n]ns,

④ 表序关系的“数+名”结构,应给予切分。

              左肩/n,    旁杈/n,      前天/t,    后天/t

     如果缺更多之上下文,只对“现场观察是重要的”进行标注,则以为就片种标注都是正确的。

       ① 动词的“ABAB”      如:研究/v  研究/v,   比划/v  比划/v

       ③ 数词的“ABAB”      如:很多/m  很多/m,   许多/m  许多/m

            你/r 尽管/d  说/v  ,/w 别/d  怕/v  。/w

语法/n 研究/vn  很/d  重要/a

可是倘若去丢“得”或“不”后,前后两只字不做一个词的,则当一个分词单位。

               走/v 到/v,  撞/v 上/v ,  调/v 好/a, 坐/v  稳/a

⑶ “ABB”重叠形

⑵ 当动词直接发状语时,标注为 vd 。

              我/r 喜欢/v 吃/v  烤肉/n
。/w    我/r 来/v  烤/v  肉/n  吃/v 。/w

“你/r 爸爸/n  在/v  不/d 在/v  ?/w  ” “在/v 。/w”

           [烟台/ns 大学/n]nt,            [合肥/ns 师范/n
学院/n]nt, 

                研究者/n,    探索者/n,    求知者/n,   屡教不改者/n

          安徽/ns,    深圳/ns,  杭州/ns,  拉萨/ns,  哈尔滨/ns,  呼和浩特/ns,

⑴    有一对双音节动词,当她于句法结构中保有以下4种植语法功能之一时,标为vn:


由于上下文中信息充分,文本中的词性标注相对于词之归类要轻,但每当北大的语法体系内应坚持词类的多功能性,主要防范的倾向是只有冲该词在此时此刻句子中所实现之意义来规定那个词性,如用主宾语位置及之歌词一律定为名词是免合适的。

4.2 常见多类词的词性选择

⑵ 词典词条

⑴ 人名: nr

满族/nz, 俄罗斯族/nz,哈萨克族/nz, 塞尔维亚族/nz, 高山族/nz,

照标准分为三个组成部分:

——词语切分与词性标注

         中文/n  电脑/n  国际/n 会议/n  ’/w  96/m

 但是要是形成“A不AB”的不整形式,则不以为然切分,并各自标以词性v或z。

                 认真/ad  学习/v  邓小平理论/n

      上千/m  人/n,   成千上万/i 的/u  群众/n

       未入账词典的双音节述补结构,若拆起来各是一个乐章,通常作为少数独切分单位。

否汉语词的票房价值语法属性描述作准备。

           他/r 介绍/vd 说/v


单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标注以名词词性n。  

在①中,“我们”和“调查”首先做成为主谓结构,然后再度修饰“目的”。如果当“目的”之前加一个“的”,结构还鲜明,读起来更通畅。不过在封面告知中,这个“的”常于省掉。如果觉得“的”加在“我们”和“调查”之间,“调查”和“目的”先构成定中组织,则“调查”应标注为vn。这里出歧解。

⒉ 切分规范

横流:“现场”的词性是地处所词s,处所词可以发状语修饰动词,也堪发定语修饰名词。

[京/j 津/j 高速/b 公路/n]nz,  [北京/ns  -/w 西雅图/ns  航线/n]nz

马克思主义者/n,   列宁主义者/n,        社会主义者/n   

《/w 大众/n  医学/n  》/w, 邓/nr  小平/nr 文选/n

         [台湾/ns 海峡/n]ns,  [华北/ns 平原/n]ns,   [帕米尔/ns
高原/n]ns,           [南沙/ns 群岛/n]ns,  [京东/ns 大/a
峡谷/n]ns  [横断/b 山脉/n]ns

                她/r  是/v  责任/n  编辑/n

以②遇,“调查”或者先同“大规模”构成状中结构,或者先同“语言的实际上利用状况”构成述宾结构,都如标成v。

       ② “小”或“老”或“大”+单音节姓氏字,组成指人专有名词,标以nr。

            我/r 跟/c 他/r 都/d 是/v 大学生/n    

 [安徽/ns 人大/j  常委会/j  办公室/n]nt

    Δ③
地名后的行政区划有零星独以上之字,则将地名同行政区划名称切开,不过只要以地名同行政区划名称用方括号括起来,并标以ns。

     需要专注,形容词直接发主语或称宾动词的宾语,仍标为a,不标作an 。

       ③ “老”或“小”+单字基数词(二,三,……,九),组成名词并标以n。

④ 词加多独后搭成分,仍为一个切分单位。

       双音节词的叠形式“ABAB”,都切分开,这关键概括:

遵照“分词规范”对“切分单位”的概念及解说,本切分标准被的“切分单位”主要是歌词,也席卷了平部分构成紧密、使用稳定之短语。在某些特殊情况下孤立的语素或非语素字也恐怕出现于切分序列中,如以动词的离合式

             上不着天/i ,/w 下不着地/i

中文/nz, 英文/nz,  西班牙文/nz,蒙文/nz,俄文/nz

         b. 由后接成分“头(tou5)”,“子(zi5)”等整合的合成词,一般也名词,如:

        ② 若该词受“很”一好像程度副词修饰,则标为a。

也就是说,本次加工就考虑有的上下文,而非发远程相关的语义分析。同样,“北京大学校长办公室”应加工为:

联想/nz 电脑/n,      鳄鱼/nz  衬衣/n, 耐克/nz  鞋/n

       ⑤ 单字副词重叠式AA,为一个切分单位,并标注为符合词词性d。

满人/nz, 哈萨克人/nz,诺贝尔奖/nz, 茅盾奖/nz,

 *可个别数据词早已是词典的报到单位,则不再切分。

       ②  “动+名”的定中结构,一般为一个切分单位。

d.     即使语法词典中之简称实际上指的是团组织、机构、组织名称或者地名,标注时遵循标以j,而毫不转移呢nt或ns。

[中国/ns 101/m  国道/n]nz, [中共/j  十一/m 届/q  三中全会/j]nz

少数收入词典的书名、报刊名等专有名称,则非切分。

     需要/v 群众/n 的/u 支持/vn

b.     充当了形式动词或另准谓宾动词的准谓词性宾语。

③     标注规范

            你/r 别/d 跟/p 他/r 跑/v

⑥ 团体、机构、组织名称被之所以圆括号加注简称时之处理方式言传身教。

    房子/n 朝/v 南/f                     门/n 朝/p 南/f 开/v


由于机动标注的根据是语法信息词典,标注的音讯绝大多数源于词典,是比可靠的,但鉴于在“多选同”和“猜测”未登录词词性这点儿种情况,因此词性的是还是要鉴别的。

               三/m 哥/n,  大婶/n,    大/a
女儿/n, 大哥/n,  小弟/n,   老爸/n

此地“专有名词”的含义有矣拓展。短语型的地名、团体机构名称及另外专有名称在歌词之切分基础及就此ASCII码的方括号括起来,并当右手括号之后标以相应的ns、nt、nz,方括号不嵌套。第2章节以及第3章节还干这有内容。

             牛年/t、  虎年/t

            谈/v 一/m  谈/v,     想/v 了/u  想/v,      读/v 了/u  一/m   读/v

“词典词条”(或“词条”)指《现代华语语法信息词典》中选定的那些词语。1999年2月提供给本项工程运用的词条的总数大约7万,这些词语都已由矣看似,即蕴涵词性标记。

⑸ p-c多看似情况

           [全国/n 信息/n 技术/n 标准化/vn 委员会/n]nt,

⑴ “AA”重叠形

当代华语语料库加工规范

① “动(双音)+名(单音)”的定中结构,一般也一个切分单位。

       出/v 了/u 一/m 次/q 差/Ng 。/w

                 砖头/n(zhuan1tou5),    子弹/n  头/n(tou2)

只是,如果只有从“的”或“地”才变成歌词,则“AA的”或“AA地”合为一个切分单位,标注为状态词z。

饱受,“差/Ng”是名语素;又如果以

② 单音节动词的重叠式AA加“看”合为一个切分单位,并标为动词词性v

在③中,“调查”本身作介词“通过”的宾语。在《规范》遵循的语法体系内,介词可以带名词性宾语。“调查”是动词的说辞而当④饱受找到。

        ① 若此词作状语, 则为副词。


专有名称后交接单音节的名词,如代表人种的“人”、表示奖项的“奖”,通常不切分,标以nz;也允许切分,分别标注。

           [宝山/ns  钢铁/n  总/b 公司/n]nt (/w 宝钢/j )/w

第三/m 次/q 横田/ns 基地/n 噪音/n 诉讼/vn

              卡尔·马克思/nr   

必须/d 改进/v  训练/vn  方法/n

 

           如:老二/n,老六/n,小三/n

⑵ “AAB”重叠形

      一个/m,      一些/m(“分词规范”中呢用“一些”作为一个切分单位)

加以/v 整理/vn

               张/nr 仁伟/nr, 欧阳/nr 修/nr,  阮/nr 志雄/nr,  朴/nr
贞爱/nr

*⒁ 语素和非语素字的处理

        d. #
+“者”,“者”前面吧较短的词或短语时,它跟眼前的乐章一由合成一个切分单位,标注为
n;“者”前面为比较丰富的短语或句子时,分开来,标注为 k 。

                一/m 份/q 重要/a 报告/n

         四川省/ns, 天津市/ns,景德镇市/ns,沙市市/ns,
牡丹江市/ns,正定县/ns,海淀区/ns,  通州区/ns,东升乡/ns,  双桥镇/ns  南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns,
大阪府/ns,北海道/ns, 长野县/ns,开封府/ns,宣城县/ns

                他/r  跟/p  她/r  没/d  红/v  过/u  脸/n,

           的/u 基础/n 工作/vn 。/w

       相信/v  不/d  相信/v,   容易/a 不/d 容易/a

      几十/m  人/n,        几十万/m 元/q,       近/a  20/m 年/q  来/f

“复合”方式可拿片个构词成分构成成一个新词。构词成分通常认为是语素。由于复合词的成艺术以及短语的结艺术是相同的,包括定中、状中、述宾、述补、主谓、联合、连动等。当语素是成词语素时,复合词与短语的尽头是未清楚的。只有当构词成分被足足有一个是休化词语素时,才来把握判断新组成的构造是一个非上录词,否则是必然的弹性。形式达到,两个字之要么三单字的做得比富裕地认为是一个歌词。以下使用的“名”指标注为n的名词或标注为Ng的名语素。“形”,“动”的意义和的接近。

北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]ns [蒋家/nz 胡同/n]ns
24/m 号/q

e.     “唐为”、“宋代”等历史时名虽然为是专名,因语法词典已作为日词收入,标注时按标以t,不更改吧nz。

⑹  不是孤立使用仍专业。在动用仍专业针对语料库进行加工时,将与《现代中文语法信息词典》等项研究成果密切配合。当现在的研究和未来之采用(中文信息寻找、中文信息领取、汉外机器翻译等)相联接时,就得方便地使用词典中加上的辞藻语法属性信息。而由此切分和词性标注的语料库又可以证实和添加词典中用语的特性,进而建立词之概率语法属性描述。经过切分和词性标注的语料库同《现代华语语法信息词典》结合,形成一个立体的语言知识库。语料库的进一步充分加工(树库,注音,义项标注等)也产生了保险的根底。

            但/d 见/v  门上/s  贴/v 着/u  一/m  副/q  对联/n  。/w

                消耗品/n,    证明信/n,    救济粮/n,   控制阀/n   

           如:小王/nr, 老张/nr, 大杨/nr

⑹ “ABAB”重叠形

Δ⑶ 团体、机构、组织的专有名称: nt

      ②
单字形容词重叠式AA,有的成词,有的不成词。如后不紧跟“的”就成词,作为一个切分单位,通常也入词d。

        实际上指的是广义兼类现象。当该词表示同样种植动作常常,后面带真宾语,则是v;当其指称人或物时,则是n。

⑸ “A里AB”和“A不AB”的词形

               共同/b 目标/n 是/v 完成/v  这/r  项/q 任务/n

② “名(双音)+名(单音)”结构,通常也一个切分单位,但弹性较充分,若前方的双音节名词和后面的单音节名词做后意义不转换,也足以分开

当下位名称包含专名(如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns
分校/n”)时,也可是离前面的要职名称单独标注为nt。

       ⑥ 凡只能处于状语位置上的交汇形式“AABB” 标注为副词d。

         需要/v  考察/v 实际/a 情况/n

于④被,“调查”先同“语言的实在运用状态”构成谓词性的述宾结构,再发作介词“通过”的宾语。

           需要/v  努力/a

⑶ v-n多看似情况

            大家/r 虽然/c  累/a  ,/w 可/c  都/d  很/d  愉快/a  。/w

遵标准由俞士汶教授提出并牵头制定。陆俭明、朱学锋、段慧明、亢世勇、孙宏林、王惠、赵强、詹卫东等人口出席了准专业之制定。俞士汶教授起草了按照标准的征求意见稿,陆俭明教授对准征求意见稿进行了字斟句酌的修改。随后,有了试用稿。在累加齐6个多月份之创制、试用过程被,稿子几由此修订,还接收了北大中文系郭锐副教授的片观点,形成了今日的“1999年3月版本”。除北大人口外,富士通公司的大方及技术人员提出了有关专有名词加工之骨干要求并介入了按照标准之制定。

             总结/v 经验/n,  贯彻/v 执行/v,   调查/v 研究/v,

4.3 关于标记vn, vd, an, ad

3.1  重叠:

                上/v  车/n, 进/v  门/n,  买/v
车/n,  送/v  桶/n  去/v  工地/s

                 牛肉/n,    铝锅/n,     敌营/n

                牛仔服/n,   电流表/n,   热带鱼/n,  河北/ns 人/n,
手表/n  厂/n

广泛的词有“和”,“跟”,“同”,“与”,这些词的词类排歧主要因下列标准:在句子中,如果这些词的内外成分未可知相互换位置要在这些词的前方可加修饰成分,则这些词为介词;如果这些词的前后成分可以互相换位置就相互换位置后句子的意思基本无移而于这些歌词之前面不可知生修饰成分,则这些词为连词。

            我/r 跟/p 他/r 请教/v 问题/n

                 他/r  有/v  很多/m  苦恼/an

           如:走走/v,听听/v

1999年3月14日


专有名称后搭多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则承诺切分。

 

         美丽岛/n,  贫困/a  县/n,  富裕/a  村/n

               比比划划/v,   勾勾搭搭/v

⑤ 数量词的“ABAB”    如:一个/m  一个/m

⑷ p-v多类情况

             林/j 、/w 牧/j 、/w 副/j 、/w 渔/j 等/u 副业/n

交通/n 安全/an  是/v  第一/m 要/v  注意/v  的/u

         [青海/ns 果洛/ns 藏族/nz 自治州/n]ns

         现场/s  考察/vn  是/v 重要/a  的/u

            我/r 和/c 他/r (已经/d) 见面/v 了/y  。/w

             挂羊头/i ,/w  卖狗肉/i             百尺竿头/i ,/w  更进一步/i

      如∶二/m  连/n , 三/m  部/n

d.     不加助词“的”,直接当体词性短语的修饰语。

                 这里/s 有/v  奥妙/an


商标(包括专名和后接的“牌”、“型”等)是专指的,标以nz,但事后所联网的货以标为普通名词n。

       ②
单字名词或名词性语素后连就方位词,通常应合成为一个介乎所词要时间词,但以与“分词规范”保持一致,也为汉外机器翻译处理的便民,这里运用以下的拍卖方法:

                白/a  砂糖/n,   香/a  橡皮/n,    甜/a  点心/n

            北京/ns 到/v 了/y
,              新加坡/ns  我/w  到/v  过/u

        Δ 有些西方人的真名被发生小圆点,也无分离。

 ① 年月日不时转,按年、月、日、时、分、秒切分,标注为t 。

            不管三七二十一/i,         众人拾柴火焰高/i,     铁公鸡一毛不拔/l

                 炒菜/n,    烤肉/n,   绑腿/n,  来函/n,   恋人/n

               饭/n 前/f,    树/n  上/f,      包/n  里/f,   床/n  下/f

        ③ 通过/p 调查/v

                 一/m 车/q 煤/n,   三/m 桶/q 水/n             

      一百二十三/m,     120万/m,       123.54/m, 一个/m,

人们/n ,哥儿们/n ,爷儿们/n, 老少/n  爷儿们/n, 老少/n  爷们儿/n  

          乌鲁木齐/ns, 长江/ns, 黄海/ns, 太平洋/ns,
泰山/ns,  华山/ns,

            雨/n 停/v  了/y  ,/w  但/c  地上/s  还/d  很/d  湿/a  。/w

鸡蛋/n 汤/n, 芝麻/n 饼/n, 鸡丝/n 面/n

         中关村/ns,  长安街/ns,  学院路/ns, 景德镇/ns,   吴家堡/ns,

          中国/ns, 中华人民共和国/ns,日本国/ns, 美利坚合众国/ns,
美国/ns

                小媳妇/n,      老姑娘/n        

        ④ 明显带排行的亲属称谓要绝对分开,分不清楚的尽管不切开。

 

① 基数、序数、小数、分数、百分数无不不予切分,为一个切分单位,标注为 m

      ③ 单字名词重叠式AA,为一个切分单位,并标为名词词性n。

此处应小心时间词以及数据词之界别,例如:“78年”指“1978年”时应标注为“78年/t”,当指数量“七十八年”时承诺切分标注为“78/m
年/q”。再使 两/m 个/q 月/n,三/m 天/q 时间/n
。同样,当“8日”指一个月份当中的第八天时也时间词,不予切分,标注为“8日/t”;若表示8龙时,则使分别,标注为“8/m
日/q”。

       ②  #+“们”

⑺ c-d多近乎状况

⑴      词语的切分规范尽可能和中国国家标准GB13715“信息处理用现代汉语分词规范”
(以下简称为“分词规范”)保持一致。由于本词语切分与词性标注是整合起来进行的,而且以闹矣平等总统《现代华语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作词语切分与词性标注的着力参照,这虽时有发生必不可少对“分词规范”作必要的调动暨补充。

⒀ 表达一个总体概念或集合的缩略语为一个切分单位,并标以j。

c. 直接充当体词性短语的骨干报告。

少数独数词相连的和“成百”、“上千”等则不以为然切分。

④ 尽管

               大大小小/z,   高高低低/z

           需要/v  进一步/d  努力/a

平常仅当该动词所当的短语结构的层系内决定以它标注为v还是vn。例如,

        ⑧ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/d 调查/v

     “/w 鹌鹑/n ”/w 的/u  “/w 鹌/x ”/w 字/n 怎么/r 读/v ?/w

      ④
地名后有代表地形地势的一个配的常见名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。

香港/ns 举行/v “/w 庆/Vg 回归/v 公益/n 千万/m 行/Vg ”/w  活动/vn

http://blog.csdn.net/sptoor/article/details/7725521

               出/v 过/u 两/m 天/q 差/Ng,     理/v 了/u 一/m 次/q 发/Ng,

 

       ① 二字动词的重合形式“AABB”为一个切分单位,并标明注动词v。

           他/r 讽刺/v 地/u 说/v

               李/nr 大娘/n,  刘/nr 阿姨/n,     龙/nr 姑姑/n

           桌/Ng  上/f –> 桌上/s,          午/Ng 后/f –>
午后/t,

               总书记/n

维护/v 环境/n  的/u  整洁/an

《/w 宁波/ns  日报/n  》/w ,《/w 鲁迅/nr  全集/n  》/w,

④ “形+名”的定中结构,若中间不克插“的”或插队“的”后意义改变,则作为一个切分单位;否则,应与切分。

      ⑥ 地名后有象征自然区划的一个许之普通名词,如“
街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。      

⑷ “AABB”重叠形

                做/v 了/u 一/m 桌子/q 菜/n,       生/v 了/u 一/m 肚子/q
气/n

“支持”首先是动词,但于这现实的句法位置上起名词的用意。“群众之全力支持”也是体词性短语,其中心语“大力支持”是名词性的,是写中布局。在这布局层次中“支持”是动辄词v,“大力”是适合词d。由于“大力”只发一个合乎词词性,这样分析就是不见面起困难。如果主张“体词性短语的中坚成分只能是体词性成分”,“支持”固然可标注为vn,但“大力”作为副词是休克修饰体词性成分的。类似之,还有:

           [全国/n 总/b 工会/n]nt,     [全国/n 人民/n 代表/n
大会/n]nt     

       洗洗澡/v,      挥挥手/v,      理理发/v

以上8独例中针对“调查”的号都是对的。


由于词典的半空中限制,不仅存在不发表录词问题,已登录的乐章为存兼类不齐全的问题。如产生把名词而兼量词(“一/m
船/q
水/n”的“船”就是量词),词典中或仅描述她可临时作量词,而非明确规定它兼属量词类,这时本应以文件中之莫过于意义决定其词性。又使“新”,词典中仅确定她是形容词,也有人以为“新校友”中的“新”是区别词,标成“新/b
同学/n”也是好的。这样用充分挖掘每个词形可能持有的词性。至于新兼之词性以后是否获益词典则还要考虑任何因素。

        ② “这”,“那”,“每”等指示代词+ n-q+n, 取q。

       ① #+“儿”(#意味着任意语素或词,下同)

    制订《现代汉语语料库加工规范》的基本思路如下:


从歌词之语法功能和遍布考虑,若该词(包括带“着、了、过”的景象)单说或独自做谓语,则为动词。

b.  任了准谓宾动词的准谓词性宾语,

⑴ 切分单位

                忘/v  了/u 买/v  一/m 把/q 锁/n

殿保肉丁/n, 木樨肉/n,    松鼠鳜鱼/n,   红烧肉/n,

     “牛年、虎年”等无不不予切分,标注为:

              鲁迅/nr, 茅盾/nr,  巴金/nr,
三毛/nr,  琼瑶/nr, 白桦/nr

*⑽ 四只字以上之短语,通常应切分。

  1. 后记

据悉《现代中文语法信息词典》,对于那些没兼类信息的词,在切分的同时就是可以确定那个词性。这样,标注规范重大描述那些多类词的词性,即于特定的上下文环境下如何抉择一个没错的词性标记。

其中“贝尔希”只好暂标为nz。

                 对头/n(dui4tou5),     对头/a(dui4tou2)

     在“现场考察是首要之”中之“现场观赛”是起歧义的。有零星种标法。

        a.  由后连成分“家”,“员”,“生”,“长(zhang3)”,“性”,“机”等组合的合成词,一般也名词。如:艺术家/n
,办事员/n ,劳动者/n ,毕业生/n ,参谋长/n ,革命性/n ,磁盘机/n

⑶ 切分单位与词条的涉

       ③ 非语素字单独在文件中经常,标注为x。

[巴黎/ns 贝尔希/nz   体育馆/n]nt,

[京/j 津/j  唐/j  地区/n]/ns

    Δ⑤
地名后交接的代表地形地势的日常名词而发生星星点点单以上汉字,则应切开。也如用地名和该普通名词用方括号括起来,并标以ns。

               无条件/d(条件/n),  过饱和/z (饱和/a)

 

 [中国/ns 银行/n  北京/ns  分行/n]nt 

   ② 大规模/d 调查/v 语言/n 的/u 实际/a使用/vn 情况/n 是/v 一/m 项/q
重要/a

若是句子中只有“校长办公室”,前面没有“北京大学”,则就加工变成:

华语中的语素是构词的主干单位。语素构成合成词的方法主要发生三种植:重叠、附加和复合。对这些情形的切分标注作如下规定。

        ③ 若该词修饰名词作定语,则相似应标为a。

③ 可

Δ⑸ 数词与数据词组

            她/r 待/v  我/r  可/d  好/a  了/y  。

             校长/n 办公室/n

3.2 附加

⑶      规范的多元性。既而适于语言信息处理以及语料库语言学研究之用,又如果能够吧风的言语研究提供丰厚的资料;既而符合计算机自动处理,又要有益于人工校对。

倘若拆起来了,其中至少有一个凡语素,通常就无切分,作为一个切分单位。

[卢沟桥/ns 事件/n]nz, [西安/ns  事变/n]nz,  [五四/t 运动/n]nz

津浦路/nz,  石太线/nz,   [京/j  九/j 铁路/n]nz,

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图