跳转至

8结语

真实语料可以说是保罗万象,非常复杂,故而对于文本语义内容的理解,是非常困难的。试图让计算机理解自然语言,更需要技巧与方法。为了全面理解每一个句子的深层语义,需要对不同的句法成分进行详细的标注。 本规范基于人类语言的复杂性以及计算机深层理解语言的需要,提出的文本语义依存图结构具有以下特点:

  1. 创造性的提出文本依存图标注结构:在语义依存树的基础上,构建出语义依存图分析模型。语义依存图与语义依存树最大的不同在于,打破了单一父节点和不允许出现交叉弧这两个界限。根据语义关系与类型,将语义事件中每个成分进行语义标注。所以,语义依存图结构具有全面性的特点。

  2. 确立了三类两级的标注体系:三种标注类型,指语义周边角色、语义结构关系和语义依附标记;级两级标注体系,指粗粒度标注标签集和细粒度标注标签集。三种标注类型对于语义事件中的核心论元、周边论元、结构关系以及依附标记分别进行了说明,所以,语义依存图结构具有层次性的特点。

  3. 设定了角色类型的量化指标:为了保证标注的客观性以及实践的可操作性,我们对于每一种周边角色论元设定了衡量指标,根据角色特点,从语法、语义以及组合能力上进行了界定和说明,试图使标注规范更具科学性。并且,我们对于种种特殊结构都进行了依存关系的界定,对于一些有规律的结构,确定了标注范式。所以,语义依存图结构具有精确性的特点。

希望本规范说明能够进一步指导语料标注工作,为计算机的深层语义理解做好前提准备。


最后更新: 2020-08-13