`

通用句法生成器和线图分析法

阅读更多

自然语言处理的形式模型笔记

 

 

通用句法生成器:(General Syntactic Processer,GSP)基本数据结构是线图(chart)。因为树形图只能表示支配关系,而不能很好的表示前于关系。后来有被扩展成活性线图,以后线图是指活性线图。如下图所示:
 
 
 
 
活性线图中的两个规则,
 
1、在线图中容许从某个点出发,中间不经过其它结点,又重新返回到该结点的圈出现,但不允许经过其它结点后再会到该结点的出现。
 
2、点规则:线图的边上的标记,不仅可以是简单的范畴,也可以是语法规则。这样的规则的右部的符号串中可以加圆点,圆点后面的部分表示没有证实的假设。圆点后面为空表示非活性边,否则为活性边。
 
活性线图的一条边可以用五元组来表示:
(<start>,<finish>,<label>--><found>.<tofind>)
其中:<start>表示起点index,是个整数。
<finish>表示重点index,是个整数。
<label>表示标记,是一个范畴。
<found>表示分析中已经证实的部分,是一个范畴系列。
<tofind>表示分析中尚未证实的部分,是一个范畴系列。
 
例如:(0,2,S-->NP . VP)表示活性线图的一条边,起点是结点0,终点是结点2,标记S在分析中已经被证实的部分是NP,尚未证实的部分是VP。
 
活性线图分析的基本原则:
如果一条活性边遇到一条非活性边,而且,这条非活性边的标记上 的范畴满足活性边的要求,那么,就可以在线图中添加一条边,横跨在活性边和非活性边上。如上图的(1)+(2)-->(3)。
 
活性线图的启动条件:
有一条非活性边和一条与它相关的活性边能按基本规则运行即可启动。通常我们通过查词典的办法,把单词在词典中有关的范畴信息记录到线图的边上,从而形成非活性边。如:(0,1,Det-->[the].)(1,2,N-->[boy].)(2,3,V-->[hit].)(3,4,Det-->[the].)(4,5,N-->[dog].),假如又有规则NP-->Det N,则可造出活性边(0,0,NP-->.Det N),则可以按照上图中的(1)+(2)--->(3)启动一步一步的分析了。

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics