跳转至


6.语义依附标记的标注细则

6.1总述

语义依附标记是对语义事件中依附性成分的标注。虽然它们实际意义较虚,而且鲜少单纯出现,而是作为附加性成分紧紧依附在核心成分周围。这类成分数量齐全,种类多样,对句子的语义也有一定程度的影响。比如:“逗号”表示语义的停顿,“句号”表示语义的完结,“的”是定中标记等。所以,我们也需要对这一类依附性成分进行标注说明。

例如:

①贸易是大多数现代国家的生命线。(root,是)

这句话是一个语义事件,root是“是”,“贸易”是当事Exp,“生命线”是类事Clas,“大多数现代国家”是“生命线”的修饰成分,“大多数”是数量Quan角色,“现代”是修饰Feat角色,“国家”是领事Poss角色。除此之外,还有两个成分没有标注:“的”和句号“。”

②我们不但不能骄傲自满,而且要继续努力。(root,骄傲)

这是一个事链,包含两个事件,root是“骄傲自满”,“我们”是当事Exp,“努力”是客事Cont,“继续”是“骄傲自满”的递进事件关系eProg。除此之外,还有“不但”,“不能”,“逗号”,“而且”,“要”,“句号”等6个成分没有标注。

我们规定了2种类型分别是标点标记和依附标记,内部包含4种粗粒度标注标签集以及18种细粒度标注标签集。英文代号统一以“m”开始,表示这是一个语义依附标记。

6.2标点标记

标点标记是对语义事件中的出现的标点符号的标注。标点标记在框架结构以及粗细标注颗粒度上的标注细则一致,相对应的粗粒度标注标签集为标点标记mPUNC,对应的细粒度标注标签集是标点标记mPunc。所以,我们直接对细粒度标点标记进行说明。

6.2.1标点标记mPUNC

标点标记mPUNC(punctuation)是对一个语义事件中出现的所有标点进行的标注。相应的细粒度标签为mPunc。

  1. 句中只有一个标点时,中枢论元指向句尾标点。例如:

    ①士兵在黑夜的掩护下向前爬行。(root,爬行)(爬行,句号。,mPunc)

  2. 句中有不只一个标点时,每一语义事件核心谓词指向距离自身最近的一个标点。例如:

    ①碰了钉子后,他收敛多了。(root,碰)(碰,逗号,,mPunc)(碰,收敛,eSucc)(收敛,句号。,mPunc)

依附标记主要是指由各种标记表示的语义依附成分。分为三种类型,分别是:否定标记mNEG,关系标记mRELA以及依附标记mDEPD。

6.3依附标记

依附标记主要是指由各种标记表示的语义依附成分。分为三种类型,分别是:否定标记mNEG,关系标记mRELA以及依附标记mDEPD。

6.3.1否定标记mNEG

否定标记mNEG(negative)是对事件中否定关系的标记。相对应的细粒度标注标签集只有一个,即否定标记mNeg。

6.3.1.1否定标记mNeg

否定标记mNeg(negative)主要是对句中否定词的标注。在具体标注时,将核心词指向否定词,并标注否定标记。在现代汉语中,主要的否定词是“不”和“没有”,另外,一些含有否定含义的副词。例如:

①她不像她母亲。(root,像)(像,不,mNeg)

②但是我还没有放弃多看书的决心。(root,放弃)(放弃,没有,mNeg)

③除了他,大家都来了。(他,除,mNeg)

否定标记对于全句意义的影响重大,常见的否定标记mNeg有:没、别、不、休、莫、未、无从等。

6.3.2关系标记mRELA

关系标记mRELA(relation)是对句法事件中各种关系的标记。对应的细粒度标注标签集有两种类型,分别是:连词标记mConj和介词标记mPrep。

6.3.2.1连词标记mConj

连词标记mConj(conjunction)是对句法事件中连词的标注。连词标记mConj一般出现在事件关系类型中。各种事件关系的典型标记词都需要标注为连词标记mConj。在实际标注时,把结构中心成分指向关联词语,并标记为mConj。例如:

①但是我还没有放弃看很多书的决心。(root,放弃)(放弃,但是,mConj)

②许多人喜欢住在农村而不喜欢住在城市。(root,喜欢)(喜欢,而,mConj)

对于连词标记mConj的标注,除了连词之外,还有一部分表示关联作用的副词等。所以常见的连词标记有:并,且,并且,而,和,及,连同,同,以及,与,还是,或,或者,要么,首先,不但,不仅,按说,接着,随后,于是,便,这才,还,而且,况且,进而,就是,甚至,但是,不过,却,可,然而,反而,因为,由于,既然,鉴于,所以,因此,于是,以致,只好,只有,只要,就,才,便,可见,否则,除非,无论,不管,任凭,如果,倘若,加入,要是,的话,,虽然,纵然,尽管,哪怕就是,即使,为了,好,免得,省得,与其,也不,不如,还不如,倒不如,宁可,宁愿,总之,总而言之,总起来看,例如,比方,另外,还有…..

6.3.2.2介词标记mPrep

介词标记mPrep(preposition)是对句法事件中介词的标注。在实际标注时,将介词所关涉的对象用依存弧指向该介词,并标注为mPrep。例如

①山上的小溪正好从我家门前流过。(家,从,mPrep)

②他在外国学习了六个月。(外国,在,mPrep)

③这样就能更好地把理论应用于实践。(理论,把,mPrep)

但是在实际上,除了介词之外,还有少部分起到介词作用的词也标记为mPrep,例如:陪、论等。常见的介词标记mPrep有:首先,不但,不仅,按说,接着,随后,于是,便,这才,还,而且,况且,进而,就是,甚至,但是,不过,却,可,然而,反而,因为,由于,既然,鉴于,所以,因此,于是,以致,只好,只有,只要,就,才,便,可见,否则,除非,无论,不管,任凭,如果,倘若,加入,要是,的话,,虽然,纵然,尽管,哪怕就是,即使,为了,好,免得,省得,与其,也不,不如,还不如,倒不如,宁可,宁愿,总之,总而言之,总起来看,例如,比方,另外,还有…..

6.3.3依附标记mDEPD

依附标记mDEPD(dependency)是概念或事件的语义依附的形式标记。相对应的细粒度标注标签集共有14种。

6.3.3.1语气标记mTone

语气标记mTone(tone)指对句中语气词的标注。汉语最基本的语气词实际上只有六个:的,了,呢,吧,吗,啊。在实际标注的时候,不仅要对基本语气助词进行标注,还要对语气助词的一些变体进行标注。标注的时候,将语气成分所标记的成分用依存弧指向该语气助词,并标记为mTone。例如:

①这真是一条伟大的路呀。(root,是)(是,呀,mTone)

②我可以先看看吗?(root,看看)(看看,吗,mTone)

6.3.3.2时间标记mTime

时间标记mTime是对句中一些时间副词以及动态助词的标注。注意时间标记mTime与情境角色中的时间角色Time不同。一般所说的时间副词,比如“刚、已经、马上、正在、终于、常常”等,事实上不是表示时间的,是表示时态的,所以不能标记为时间角色。在实际标注时,要将所标记的成分指向时间标记。

  1. 时间副词作为事件标记mTime。

    ①月光正照在她那恬静的脸上。(照,正,mTime)

    ②不料森林却从此遭了殃。(遭,从此,mTime)

  2. 动态助词作为时间标记mTime。

    ①大家过着“日出而作日落而息”的生活。(过,着,mTime)

    ②不料森林却从此遭了殃。(遭,了,mTime)

除了以上两种最为典型时间标记之外,一些表示开始、持续、完成的词如“起来(如:吵起来),上了(如:好上了),开了(如:玩开了),下去,出来了,成,下来,到”等也要标注为时间标记mTime;一些表时间的情态动词如“快要,就要,即将”也标注为时间标记mTime。

注意,现代汉语中,助词“了“字有两种用法,动态助词和句末语气词,对这两种的用法,在标注的时候,要有所区别。例如:

①他走了。(走,了,mTone)

分析:这是“了”作为句末语气词的用法。了在句末作为结尾词的时候,一般都是动词助词与语气词兼用的情况,即语法书的所说的了,这个时候,我们统一标注为语气助词mTone。

②这家博物馆收藏了很多珍品。(收藏,了,mTime)

分析:这是“了”作为句中动态助词的用法。

③安娜在这里住了六十年了。(住,了1,mTime)(住,了2,mTone)

分析:这是“了”的两种用法在一个句中的共现的情况。本句用依存图结构表示如下:

图 149语义标记示例1
图 150语义标记示例2

6.3.3.3范围标记mRang

范围标记mRang(range)是对句中表示范围的词进行的标注。这样的词可以是对空间范围、时间范围或者是所指对象的范围进行的标记。在标注的时候,将表范围的词所标记的对象用依存弧指向范围词,这样的词有“都、到处、一律”等,另外一些在介词短语中出现的、表示空间方位的词也标注为范围标记。例如:

①村里的人都围上去看。(围,都,mRang)

②墙上有一幅画。(墙,上,mRang)

常见的范围标记mRang有:都、全、总、总共、共、到处,处处,统统、仅仅、只、光、净、一概、一律、一齐、单、单单、百分百、附近、周围……

6.3.3.4情态标记mMod

情态标记mMod(Modal)是对句中表示情态的词进行的标注。这样的词表达的是主体的一种情形状态,比如惊讶、疑问、感叹或者是能力、猜测等。从词类上说,可以是一些表示方式情态的副词,例如“居然、突然、偏偏、难道”等,也可以是一些情态动词,例如“会、能、可以”等。在实际标注时,要将情态所标记的主体用依存弧指向情态词。

  1. 方式情态副词作为情态标记。

    ①老王突然感到不踏实了。(感到,突然,mMod)

    ②难道要违背人类的真理吗?(要,难道。mMod)

  2. 情态动词作为情态标记。

    ①也许他跑到花园里了吧。(跑,也许,mMod)——表示猜测

    ②甚至能透过厚实的门和窗看到东西。(透过,能,mMod)——表示能力。另外这句话中的“甚至”也是一个情态标记。

常见的情态标记mMod有以下类别:

  1. 表示必然的:必,总,必然,毕竟,迟早,当然,当真,到底,反正,果然,果真,横竖,究竟,势必,早晚,终归,终究,终于,自然,总归,总是……

  2. 表示肯定的:定,准,的确,分明,明明,难怪,难免,其实,确实,实在,无非,显然,一定,一准,准保,着呢……

  3. 表示照常的:照,仍,还,也,本来,原来,仍旧,仍然,依旧,依然,照常,照旧,照例,照样,通常……

  4. 表示反常的:反,偏,倒,岂,竟,不料,倒是,反倒,反而,竟然,居然,难道,偏偏,唯独,相反,异常,想不到,没料到,哪想到,哪知道……

  5. 表示遗憾的:姑且,何尝,可惜,暂且,只得,只好,恨不得,由不得……

  6. 表示幸好的:恰,刚好,好在,可巧,恰好,恰恰,恰巧,正巧,多亏,幸而,幸亏……

  7. 表示礼貌的:请,费心,谢谢,好吗,借光,久仰,劳驾,哪里,岂敢,请问,失敬,失陪,有劳,对不起,打扰一下,麻烦一下……

  8. 表示揣测的:约,会,可能,不定,大概,大约,大致,未必,多半,仿佛,兴许,也许,约莫,左右,好像,或许,前后,上下,似乎,恐怕,看起来,看样子,是否……

  9. 表示能够、理应的:会,能,可以,能够,得,应,该,得,必,按理,必得,必须,理应,务必,务须,应当,应该,不能不……

  10. 表示评价的:配,好,可,便于,不愧,不屑,敢于,难以,难于,善于,适于,宜于,值得,来得及,来不及……

根据意义分,表示情态的词实际上可以有更多的种类,在实际标注时,只要是表示方式情态的词,都可以根据实际语义标注为情态标记mMod。下面来区别一个字:“都”。

在现代汉语中,“都”有三种意思,分别是①全部;②甚至;③已经。根据意义,我们对“都”有两种标注方法,表示全部义的“都”要标为范围标记,表示甚至、已经义的“都”要标为情态标记。但是在粗粒度标注层级上,具体充当哪一种语义标记不再做区分。例如:

①村里的人都围上去看。(围,都,mRang)——这是表全部义的都。

②我们死都不怕,何况困难?(怕,都,mMod)——这是表甚至义的都。

6.3.3.5频率标记mFreq

频率标记mFreq(frequency)是对句中表示频率的词进行的标注。这种词主要是表频率的副词,“常常、时时、往往、渐渐、又、再、屡次”等。在实际标注的时候,将频率所修饰的成分用依存弧指向该频率词,并标记为mFreq例如:

①我妈妈通常在晚上煮一顿热饭。(煮,通常,mFreq)

②女儿睡觉之前,我总讲故事给她听。(讲,总,mFreq)

常见的频率标记mFreq有:还、再、又、也、常常、往往、一再、再三、屡次、来回、反复、每,隔……

有些副词的功能是多样的,要在具体的语义上下文中,判定其语义标记类型,例如:

①深夜里他还在工作。(“还”是情态标记mMod )

②我还要去一次。(“还”是频率标记mFreq)

③我再也不相信他的话了。(“再”是时间标记mTime)

④我得再去一次。(“再”是频率标记mFreq)

下面分析一下“每”字的标注细则,每有两种标记形式:

  1. 每+名词,标注为范围角色Sco。

    ①每一本书。(书,本,Qp)(本,一,Quan)(本,每,Sco)

    ②只见每峰骆驼的背上都驮着两个大包袱。(峰,每,Sco)

  2. 每+动词,标注为频率标记mFreq。

    ①每隔一天。(隔,每,mFreq)

    ②每完成一项任务。(完成,每,mFreq)

6.3.3.6程度标记mDegr

程度标记mDegr(degree)是对句中表示程度的词进行的标注。这种词主要是表程度的副词,“很、最、极、太、非常”等。在实际标注的时候,将程度所修饰的成分用依存弧指向该程度词,并标记为mDegr。例如;

①妈妈真小气。(小气,真,mDegr)

②蓝天白云下的风火山,分外妖娆。(妖娆,分外,mDegr)

常见的程度标记mDegr有:很、非常、极、十分、相当、最、顶、太、更、挺、极其、格外、分外、更加、越、越发、有点儿、稍、稍微、略微、几乎、过于、尤其、比较、极、狠、透、慌、死、坏、过,毫,极,尤,绝,全,过分,过于,极度,及其,简直,断然,干脆,根本,绝对,全然,丝毫,索性,透顶,尤其……

6.3.3.7趋向标记mDir

趋向标记mDir(direction)是对句中表示趋向的词进行的标注。这种词主要趋向动词“来、去、上、下、进、出”等。在标注的时候,将核心动词指向趋向词并标记为mDir。例如:

①我被父亲从车上赶了下来。(赶,下来,mDir)

②小胖墩儿跳起来了。(跳,起来,mDir)

要注意区别范围标记中的空间范围词与趋向标记的区别,例如下句:

①她从墙上把画取了下来。(墙,上,mRang)(取,下来,mDir)

在这个句子中,“上”是“墙”的范围标记,表示“画在墙上”,“下来”是动作“取”的趋向标记。可以看出,范围标记标注的内容是周边论元,而趋向标记标注的内容是中枢论元。

6.3.3.8的字标记mAux

的字标记mAux(auxiliary)是对句中出现的结构助词“的、地、得”进行的标注。汉语中,“的”是定中关系的标记,“地”是状中关系的标记,“得”是中补关系的标记,除此之外,古汉语沿用至今的结构助词“之”也标注为mAux。在实际标注时,将结构助词前面的成分用依存弧指向结构助词。例如:

①熊猫是珍贵的动物。(珍贵,的,mAux)

②我们全家都诚心诚意地欢迎他。(诚心诚意,地,mAux)

③家里清静得很。(清静,得,mAux)

注意,现代汉语中“的”有两种用法,一种是结构助词,一种是语气助词,但是在进行语义依存图标注时,都标注为的字标记mAux。

6.3.3.9多数标记mMaj

多数标记mMaj(majority)是对句中指称概念的所述依附标记,主要有:“们”、“多”、“等”以及“什么的”等。标注时,将它们之前的成分用依存弧指向表示多数它们。一般来说,复数人称代词如“你们、我们”等在分词时都是一个词语,无需标注。但是对由“们”构成的短语需要标注。例如:

①在小朋友们的面前是一件非常神气的事。(朋友,们,mMaj)

②妈妈买了三斤多鸡蛋。(斤,多,mMaj)

③参会的国家有美国、加拿大、澳大利亚等。(澳大利亚,等,mMaj)

④你去买点西瓜什么的来招待客人。(西瓜,什么的,mMaj)

6.3.3.10插入语标记mPars

插入语mPars(parenthesis)是对句子内的插入语成分进行的标注。汉语中的一些俗语经常用来作为插入语成分。标注时,将它们作为一个整体,中枢论元指向它们,并标注为mPars。例如:

①这样一来,火车上山就容易得多了。(上,这样一来,mPars)

②的确,伯父就是这样一个人。(是,的确,mPars)

常见的插入语标记mPars有:常言道,众所周知,总的来说,据了解,对他来说,这样一来……

6.3.3.11实词虚化标记mVain

实词虚化标记mVain(vain)是对句中虚化的实词成分进行的标注。在实际标注时,主要是对形式动词“予以、加以”等以及动词前“有”的标注。例如:

①北京有我家乡十倍大。(大,有,mVain)

②这份报纸对那件事进行了如实的报道。(报道,进行,mVain)

注:“要是……的话”中“的”和“话”分开进行标注原始词性,因为没有承担实质性意义,分别标为助词标记(mAux)和实词虚化标记(mVain)

6.3.3.12重复标记mRept

重复标记mRept(repeat)是对句中重复的成分进行的标注。在真实语料中,会出现后一成分对前一成分重复的现象。例如:

开会了,开会了。(开1,开2,mRept)

6.3.3.13离合标记mSepa

离合标记mSepa(separate)是对句中离合短语分开使用时宾语的标注。例如:

我去洗个澡。(洗,澡,mSepa)

关于离合标记的标注范式详见3.5.2小节中的标注图示。

6.4小结

语义依附标记是对句中出现的标记性的成分进行的标注说明。通过上述说明,我们也能发现语义依附标记的特点:

  1. 包含种类多

    从句法结构上说,语义依附标记涉及到了动词如形式动词、情态动词,名词如方位名词、时间名词,副词以及虚词等,甚至还有一些常用习语。从数量上说,语义依附标记有4个粗粒度标注标签集以及17个粗粒度标注标签集。汇总结果如下表:

  2. 出现频率高

    综上所述,在每一个语义事件中,都有很多语义依附性成分。也许某一类别中具体所指没有很多,但是出现频率很高。比如说:的字标记mAux具体所指是“的、地、得”以及“之”等少数几个词,但是作为结构助词,出现频率极高。同样,一个语义事件中,可以同时涉及到多种多样的语义依附标记。在第一版语料库中,各语义依附标签出现的频次如下表所示:

表格 22语义依附标记频次统计表

语义依附标记 频次
标点标记 76482
否定标记 5329
连词标记 11237
介词标记 17389
语气标记 4589
时间标记 13487
范围标记 8965
情态标记 16953
频率标记 2121
程度标记 6045
趋向标记 2041
的字标记 25454
多数标记 920
插入语标记 927
离合标记 174
实词虚化标记 1202
重复标记 7

从粗粒度标注层面上讲,简化后的语义依附标记对于整句意义的标注作用不大,相当于指对整个语义事件的谓词-论元角色进行了标注,抓住了事件的主干部分;从细粒度标注层面来说,对于语义依附标记的语义看似轻巧虚化,实际上对整个句义的影响很大,对它们进行详细的标注说明是非常有必要的。


最后更新: 2020-09-09