6.语义依附标记的标注细则¶
6.1总述¶
语义依附标记是对语义事件中依附性成分的标注。虽然它们实际意义较虚,而且鲜少单纯出现,而是作为附加性成分紧紧依附在核心成分周围。这类成分数量齐全,种类多样,对句子的语义也有一定程度的影响。比如:“逗号”表示语义的停顿,“句号”表示语义的完结,“的”是定中标记等。所以,我们也需要对这一类依附性成分进行标注说明。
例如:
①贸易是大多数现代国家的生命线。(root,是)
这句话是一个语义事件,root是“是”,“贸易”是当事Exp,“生命线”是类事Clas,“大多数现代国家”是“生命线”的修饰成分,“大多数”是数量Quan角色,“现代”是修饰Feat角色,“国家”是领事Poss角色。除此之外,还有两个成分没有标注:“的”和句号“。”
②我们不但不能骄傲自满,而且要继续努力。(root,骄傲)
这是一个事链,包含两个事件,root是“骄傲自满”,“我们”是当事Exp,“努力”是客事Cont,“继续”是“骄傲自满”的递进事件关系eProg。除此之外,还有“不但”,“不能”,“逗号”,“而且”,“要”,“句号”等6个成分没有标注。
我们规定了2种类型分别是标点标记和依附标记,内部包含4种粗粒度标注标签集以及18种细粒度标注标签集。英文代号统一以“m”开始,表示这是一个语义依附标记。
6.2标点标记¶
标点标记是对语义事件中的出现的标点符号的标注。标点标记在框架结构以及粗细标注颗粒度上的标注细则一致,相对应的粗粒度标注标签集为标点标记mPUNC,对应的细粒度标注标签集是标点标记mPunc。所以,我们直接对细粒度标点标记进行说明。
6.2.1标点标记mPUNC¶
标点标记mPUNC(punctuation)是对一个语义事件中出现的所有标点进行的标注。相应的细粒度标签为mPunc。
-
句中只有一个标点时,中枢论元指向句尾标点。例如:
①士兵在黑夜的掩护下向前爬行。(root,爬行)(爬行,句号。,mPunc)
-
句中有不只一个标点时,每一语义事件核心谓词指向距离自身最近的一个标点。例如:
①碰了钉子后,他收敛多了。(root,碰)(碰,逗号,,mPunc)(碰,收敛,eSucc)(收敛,句号。,mPunc)
依附标记主要是指由各种标记表示的语义依附成分。分为三种类型,分别是:否定标记mNEG,关系标记mRELA以及依附标记mDEPD。
6.3依附标记¶
依附标记主要是指由各种标记表示的语义依附成分。分为三种类型,分别是:否定标记mNEG,关系标记mRELA以及依附标记mDEPD。
6.3.1否定标记mNEG¶
否定标记mNEG(negative)是对事件中否定关系的标记。相对应的细粒度标注标签集只有一个,即否定标记mNeg。
6.3.1.1否定标记mNeg
否定标记mNeg(negative)主要是对句中否定词的标注。在具体标注时,将核心词指向否定词,并标注否定标记。在现代汉语中,主要的否定词是“不”和“没有”,另外,一些含有否定含义的副词。例如:
①她不像她母亲。(root,像)(像,不,mNeg)
②但是我还没有放弃多看书的决心。(root,放弃)(放弃,没有,mNeg)
③除了他,大家都来了。(他,除,mNeg)
否定标记对于全句意义的影响重大,常见的否定标记mNeg有:没、别、不、休、莫、未、无从等。
6.3.2关系标记mRELA¶
关系标记mRELA(relation)是对句法事件中各种关系的标记。对应的细粒度标注标签集有两种类型,分别是:连词标记mConj和介词标记mPrep。
6.3.2.1连词标记mConj
连词标记mConj(conjunction)是对句法事件中连词的标注。连词标记mConj一般出现在事件关系类型中。各种事件关系的典型标记词都需要标注为连词标记mConj。在实际标注时,把结构中心成分指向关联词语,并标记为mConj。例如:
①但是我还没有放弃看很多书的决心。(root,放弃)(放弃,但是,mConj)
②许多人喜欢住在农村而不喜欢住在城市。(root,喜欢)(喜欢,而,mConj)
对于连词标记mConj的标注,除了连词之外,还有一部分表示关联作用的副词等。所以常见的连词标记有:并,且,并且,而,和,及,连同,同,以及,与,还是,或,或者,要么,首先,不但,不仅,按说,接着,随后,于是,便,这才,还,而且,况且,进而,就是,甚至,但是,不过,却,可,然而,反而,因为,由于,既然,鉴于,所以,因此,于是,以致,只好,只有,只要,就,才,便,可见,否则,除非,无论,不管,任凭,如果,倘若,加入,要是,的话,,虽然,纵然,尽管,哪怕就是,即使,为了,好,免得,省得,与其,也不,不如,还不如,倒不如,宁可,宁愿,总之,总而言之,总起来看,例如,比方,另外,还有…..
6.3.2.2介词标记mPrep
介词标记mPrep(preposition)是对句法事件中介词的标注。在实际标注时,将介词所关涉的对象用依存弧指向该介词,并标注为mPrep。例如
①山上的小溪正好从我家门前流过。(家,从,mPrep)
②他在外国学习了六个月。(外国,在,mPrep)
③这样就能更好地把理论应用于实践。(理论,把,mPrep)
但是在实际上,除了介词之外,还有少部分起到介词作用的词也标记为mPrep,例如:陪、论等。常见的介词标记mPrep有:首先,不但,不仅,按说,接着,随后,于是,便,这才,还,而且,况且,进而,就是,甚至,但是,不过,却,可,然而,反而,因为,由于,既然,鉴于,所以,因此,于是,以致,只好,只有,只要,就,才,便,可见,否则,除非,无论,不管,任凭,如果,倘若,加入,要是,的话,,虽然,纵然,尽管,哪怕就是,即使,为了,好,免得,省得,与其,也不,不如,还不如,倒不如,宁可,宁愿,总之,总而言之,总起来看,例如,比方,另外,还有…..
6.3.3依附标记mDEPD¶
依附标记mDEPD(dependency)是概念或事件的语义依附的形式标记。相对应的细粒度标注标签集共有14种。
6.3.3.1语气标记mTone
语气标记mTone(tone)指对句中语气词的标注。汉语最基本的语气词实际上只有六个:的,了,呢,吧,吗,啊。在实际标注的时候,不仅要对基本语气助词进行标注,还要对语气助词的一些变体进行标注。标注的时候,将语气成分所标记的成分用依存弧指向该语气助词,并标记为mTone。例如:
①这真是一条伟大的路呀。(root,是)(是,呀,mTone)
②我可以先看看吗?(root,看看)(看看,吗,mTone)
6.3.3.2时间标记mTime
时间标记mTime是对句中一些时间副词以及动态助词的标注。注意时间标记mTime与情境角色中的时间角色Time不同。一般所说的时间副词,比如“刚、已经、马上、正在、终于、常常”等,事实上不是表示时间的,是表示时态的,所以不能标记为时间角色。在实际标注时,要将所标记的成分指向时间标记。
-
时间副词作为事件标记mTime。
①月光正照在她那恬静的脸上。(照,正,mTime)
②不料森林却从此遭了殃。(遭,从此,mTime)
-
动态助词作为时间标记mTime。
①大家过着“日出而作日落而息”的生活。(过,着,mTime)
②不料森林却从此遭了殃。(遭,了,mTime)
除了以上两种最为典型时间标记之外,一些表示开始、持续、完成的词如“起来(如:吵起来),上了(如:好上了),开了(如:玩开了),下去,出来了,成,下来,到”等也要标注为时间标记mTime;一些表时间的情态动词如“快要,就要,即将”也标注为时间标记mTime。
注意,现代汉语中,助词“了“字有两种用法,动态助词和句末语气词,对这两种的用法,在标注的时候,要有所区别。例如:
①他走了。(走,了,mTone)
分析:这是“了”作为句末语气词的用法。了在句末作为结尾词的时候,一般都是动词助词与语气词兼用的情况,即语法书的所说的了,这个时候,我们统一标注为语气助词mTone。
②这家博物馆收藏了很多珍品。(收藏,了,mTime)
分析:这是“了”作为句中动态助词的用法。
③安娜在这里住了六十年了。(住,了1,mTime)(住,了2,mTone)
分析:这是“了”的两种用法在一个句中的共现的情况。本句用依存图结构表示如下:
6.3.3.3范围标记mRang
范围标记mRang(range)是对句中表示范围的词进行的标注。这样的词可以是对空间范围、时间范围或者是所指对象的范围进行的标记。在标注的时候,将表范围的词所标记的对象用依存弧指向范围词,这样的词有“都、到处、一律”等,另外一些在介词短语中出现的、表示空间方位的词也标注为范围标记。例如:
①村里的人都围上去看。(围,都,mRang)
②墙上有一幅画。(墙,上,mRang)
常见的范围标记mRang有:都、全、总、总共、共、到处,处处,统统、仅仅、只、光、净、一概、一律、一齐、单、单单、百分百、附近、周围……
6.3.3.4情态标记mMod
情态标记mMod(Modal)是对句中表示情态的词进行的标注。这样的词表达的是主体的一种情形状态,比如惊讶、疑问、感叹或者是能力、猜测等。从词类上说,可以是一些表示方式情态的副词,例如“居然、突然、偏偏、难道”等,也可以是一些情态动词,例如“会、能、可以”等。在实际标注时,要将情态所标记的主体用依存弧指向情态词。
-
方式情态副词作为情态标记。
①老王突然感到不踏实了。(感到,突然,mMod)
②难道要违背人类的真理吗?(要,难道。mMod)
-
情态动词作为情态标记。
①也许他跑到花园里了吧。(跑,也许,mMod)——表示猜测
②甚至能透过厚实的门和窗看到东西。(透过,能,mMod)——表示能力。另外这句话中的“甚至”也是一个情态标记。
常见的情态标记mMod有以下类别:
-
表示必然的:必,总,必然,毕竟,迟早,当然,当真,到底,反正,果然,果真,横竖,究竟,势必,早晚,终归,终究,终于,自然,总归,总是……
-
表示肯定的:定,准,的确,分明,明明,难怪,难免,其实,确实,实在,无非,显然,一定,一准,准保,着呢……
-
表示照常的:照,仍,还,也,本来,原来,仍旧,仍然,依旧,依然,照常,照旧,照例,照样,通常……
-
表示反常的:反,偏,倒,岂,竟,不料,倒是,反倒,反而,竟然,居然,难道,偏偏,唯独,相反,异常,想不到,没料到,哪想到,哪知道……
-
表示遗憾的:姑且,何尝,可惜,暂且,只得,只好,恨不得,由不得……
-
表示幸好的:恰,刚好,好在,可巧,恰好,恰恰,恰巧,正巧,多亏,幸而,幸亏……
-
表示礼貌的:请,费心,谢谢,好吗,借光,久仰,劳驾,哪里,岂敢,请问,失敬,失陪,有劳,对不起,打扰一下,麻烦一下……
-
表示揣测的:约,会,可能,不定,大概,大约,大致,未必,多半,仿佛,兴许,也许,约莫,左右,好像,或许,前后,上下,似乎,恐怕,看起来,看样子,是否……
-
表示能够、理应的:会,能,可以,能够,得,应,该,得,必,按理,必得,必须,理应,务必,务须,应当,应该,不能不……
-
表示评价的:配,好,可,便于,不愧,不屑,敢于,难以,难于,善于,适于,宜于,值得,来得及,来不及……
根据意义分,表示情态的词实际上可以有更多的种类,在实际标注时,只要是表示方式情态的词,都可以根据实际语义标注为情态标记mMod。下面来区别一个字:“都”。
在现代汉语中,“都”有三种意思,分别是①全部;②甚至;③已经。根据意义,我们对“都”有两种标注方法,表示全部义的“都”要标为范围标记,表示甚至、已经义的“都”要标为情态标记。但是在粗粒度标注层级上,具体充当哪一种语义标记不再做区分。例如:
①村里的人都围上去看。(围,都,mRang)——这是表全部义的都。
②我们死都不怕,何况困难?(怕,都,mMod)——这是表甚至义的都。
6.3.3.5频率标记mFreq
频率标记mFreq(frequency)是对句中表示频率的词进行的标注。这种词主要是表频率的副词,“常常、时时、往往、渐渐、又、再、屡次”等。在实际标注的时候,将频率所修饰的成分用依存弧指向该频率词,并标记为mFreq例如:
①我妈妈通常在晚上煮一顿热饭。(煮,通常,mFreq)
②女儿睡觉之前,我总讲故事给她听。(讲,总,mFreq)
常见的频率标记mFreq有:还、再、又、也、常常、往往、一再、再三、屡次、来回、反复、每,隔……
有些副词的功能是多样的,要在具体的语义上下文中,判定其语义标记类型,例如:
①深夜里他还在工作。(“还”是情态标记mMod )
②我还要去一次。(“还”是频率标记mFreq)
③我再也不相信他的话了。(“再”是时间标记mTime)
④我得再去一次。(“再”是频率标记mFreq)
下面分析一下“每”字的标注细则,每有两种标记形式:
-
每+名词,标注为范围角色Sco。
①每一本书。(书,本,Qp)(本,一,Quan)(本,每,Sco)
②只见每峰骆驼的背上都驮着两个大包袱。(峰,每,Sco)
-
每+动词,标注为频率标记mFreq。
①每隔一天。(隔,每,mFreq)
②每完成一项任务。(完成,每,mFreq)
6.3.3.6程度标记mDegr
程度标记mDegr(degree)是对句中表示程度的词进行的标注。这种词主要是表程度的副词,“很、最、极、太、非常”等。在实际标注的时候,将程度所修饰的成分用依存弧指向该程度词,并标记为mDegr。例如;
①妈妈真小气。(小气,真,mDegr)
②蓝天白云下的风火山,分外妖娆。(妖娆,分外,mDegr)
常见的程度标记mDegr有:很、非常、极、十分、相当、最、顶、太、更、挺、极其、格外、分外、更加、越、越发、有点儿、稍、稍微、略微、几乎、过于、尤其、比较、极、狠、透、慌、死、坏、过,毫,极,尤,绝,全,过分,过于,极度,及其,简直,断然,干脆,根本,绝对,全然,丝毫,索性,透顶,尤其……
6.3.3.7趋向标记mDir
趋向标记mDir(direction)是对句中表示趋向的词进行的标注。这种词主要趋向动词“来、去、上、下、进、出”等。在标注的时候,将核心动词指向趋向词并标记为mDir。例如:
①我被父亲从车上赶了下来。(赶,下来,mDir)
②小胖墩儿跳起来了。(跳,起来,mDir)
要注意区别范围标记中的空间范围词与趋向标记的区别,例如下句:
①她从墙上把画取了下来。(墙,上,mRang)(取,下来,mDir)
在这个句子中,“上”是“墙”的范围标记,表示“画在墙上”,“下来”是动作“取”的趋向标记。可以看出,范围标记标注的内容是周边论元,而趋向标记标注的内容是中枢论元。
6.3.3.8的字标记mAux
的字标记mAux(auxiliary)是对句中出现的结构助词“的、地、得”进行的标注。汉语中,“的”是定中关系的标记,“地”是状中关系的标记,“得”是中补关系的标记,除此之外,古汉语沿用至今的结构助词“之”也标注为mAux。在实际标注时,将结构助词前面的成分用依存弧指向结构助词。例如:
①熊猫是珍贵的动物。(珍贵,的,mAux)
②我们全家都诚心诚意地欢迎他。(诚心诚意,地,mAux)
③家里清静得很。(清静,得,mAux)
注意,现代汉语中“的”有两种用法,一种是结构助词,一种是语气助词,但是在进行语义依存图标注时,都标注为的字标记mAux。
6.3.3.9多数标记mMaj
多数标记mMaj(majority)是对句中指称概念的所述依附标记,主要有:“们”、“多”、“等”以及“什么的”等。标注时,将它们之前的成分用依存弧指向表示多数它们。一般来说,复数人称代词如“你们、我们”等在分词时都是一个词语,无需标注。但是对由“们”构成的短语需要标注。例如:
①在小朋友们的面前是一件非常神气的事。(朋友,们,mMaj)
②妈妈买了三斤多鸡蛋。(斤,多,mMaj)
③参会的国家有美国、加拿大、澳大利亚等。(澳大利亚,等,mMaj)
④你去买点西瓜什么的来招待客人。(西瓜,什么的,mMaj)
6.3.3.10插入语标记mPars
插入语mPars(parenthesis)是对句子内的插入语成分进行的标注。汉语中的一些俗语经常用来作为插入语成分。标注时,将它们作为一个整体,中枢论元指向它们,并标注为mPars。例如:
①这样一来,火车上山就容易得多了。(上,这样一来,mPars)
②的确,伯父就是这样一个人。(是,的确,mPars)
常见的插入语标记mPars有:常言道,众所周知,总的来说,据了解,对他来说,这样一来……
6.3.3.11实词虚化标记mVain
实词虚化标记mVain(vain)是对句中虚化的实词成分进行的标注。在实际标注时,主要是对形式动词“予以、加以”等以及动词前“有”的标注。例如:
①北京有我家乡十倍大。(大,有,mVain)
②这份报纸对那件事进行了如实的报道。(报道,进行,mVain)
注:“要是……的话”中“的”和“话”分开进行标注原始词性,因为没有承担实质性意义,分别标为助词标记(mAux)和实词虚化标记(mVain)
6.3.3.12重复标记mRept
重复标记mRept(repeat)是对句中重复的成分进行的标注。在真实语料中,会出现后一成分对前一成分重复的现象。例如:
开会了,开会了。(开1,开2,mRept)
6.3.3.13离合标记mSepa
离合标记mSepa(separate)是对句中离合短语分开使用时宾语的标注。例如:
我去洗个澡。(洗,澡,mSepa)
关于离合标记的标注范式详见3.5.2小节中的标注图示。
6.4小结¶
语义依附标记是对句中出现的标记性的成分进行的标注说明。通过上述说明,我们也能发现语义依附标记的特点:
-
包含种类多
从句法结构上说,语义依附标记涉及到了动词如形式动词、情态动词,名词如方位名词、时间名词,副词以及虚词等,甚至还有一些常用习语。从数量上说,语义依附标记有4个粗粒度标注标签集以及17个粗粒度标注标签集。汇总结果如下表:
-
出现频率高
综上所述,在每一个语义事件中,都有很多语义依附性成分。也许某一类别中具体所指没有很多,但是出现频率很高。比如说:的字标记mAux具体所指是“的、地、得”以及“之”等少数几个词,但是作为结构助词,出现频率极高。同样,一个语义事件中,可以同时涉及到多种多样的语义依附标记。在第一版语料库中,各语义依附标签出现的频次如下表所示:
表格 22语义依附标记频次统计表
语义依附标记 | 频次 |
---|---|
标点标记 | 76482 |
否定标记 | 5329 |
连词标记 | 11237 |
介词标记 | 17389 |
语气标记 | 4589 |
时间标记 | 13487 |
范围标记 | 8965 |
情态标记 | 16953 |
频率标记 | 2121 |
程度标记 | 6045 |
趋向标记 | 2041 |
的字标记 | 25454 |
多数标记 | 920 |
插入语标记 | 927 |
离合标记 | 174 |
实词虚化标记 | 1202 |
重复标记 | 7 |
从粗粒度标注层面上讲,简化后的语义依附标记对于整句意义的标注作用不大,相当于指对整个语义事件的谓词-论元角色进行了标注,抓住了事件的主干部分;从细粒度标注层面来说,对于语义依附标记的语义看似轻巧虚化,实际上对整个句义的影响很大,对它们进行详细的标注说明是非常有必要的。