chapter11-上下文无关语法CFG

  • 上下文无关语法 CFG,又叫短语结构语法
  • 英语语法中的各种规则:
  • 句子级的结构,分4种
  • 名词短语,中心词,以及围绕中心词的前后修饰语
  • 动词短语
  • 并列关系
  • Treebanks:经过剖析后的语料库,包含了句法syntatic信息和语义semantic信息
  • Treebanks as Grammars
  • Heads and Head Finding
  • 语法等价与范式
  • Lexicalized Grammars 词汇语法

前言: 上下文无关语法 context-free gramma. 上下文无关文法是许多自然语言句法形式化模型的支柱.

Constituency 组成性

何为组成性(constituency):groups of words behaving as a single units, or constituents.

以名词短语(noun phrase)为例:

一个明显的证据是名词短语通常在动词 verb 之前。

Context-Free Grammars 上下文无关语法

上下文无关语法 Context-Free Grammar, or CFG, 又叫短语结构语法 Phrase-Structure Grammars, 其形式化方法等价于 Backus-Naur Form, or BNF.

一个上下文无关语法,由规则 rules 或 产生式 productions ,以及单词和符号的一个词表 lexicon.

举例:

一个名词短语(NP or noun phrase)可以由一个专有名词(ProperNoun)组成或者是一个限定词(Det)后接一个名词性成分(Nominal),而一个名词性成分又可以是一个或多个名词。

parse tree 剖析树

  • NP是树的根,也就是 CFG 定义的形式语言的初始符号 start symbol, 用 S 表示,通常可以解释为 “句子”,所以由 S 推导出来的符号串的集合就是句子的集合。

  • a, fight 这样的单词是终极符号 terminal symbol, 词表是引入终极符号的规则的集合

  • 表示终极符号的聚类或概括的符号称为非终极符号 non-ternimal symbol,比如箭头左边的 NP.Det, Noun....

用 “|” 表示非终极符号的展开方式:

语法规则,用 \(L_0\) 表示~

剖析树也可以用更为简洁的方式表示:

Formal Definition of Context-Free Grammar 上下文无关语法的形式定义

诸如 \(L_0\) 的CFG定义了一个形式语言,在chapter2 中讲过,形式语言是符号串的集合。使用形式语言来模拟自然语言的语法称为 “生成语法(generative grammar)”.

一个上下文无关语法有四个参数(也称为四元组,4-tuple):

  • 非终极符号的集合 N
  • 终极符号的集合 \(\Sigma\)
  • 生成式的集合 R, 每个生成式的形式为 \(A\rightarrow \beta\),其中 A 是非终极符号, \(\alpha\) 是由符号串的无限集 $(N)* $ 的符号构成的符号串

把单词的符号串映射到剖析树的问题称为 Syntactic parsing 句法分析. 在chapter12中会讲到~

Some Grammar Rules for English

本书中关于英语短语结构只是点到为止,需要了解更多可以看 [Huddleston, R. and Pullum, G. K. (2002). The Cambridge Grammar of the English Language. Cambridge University Press.]

Sentence-Level Constructions 句子级的结构

除了上文中介绍的陈述句,还有4中比较常见和重要的结构:declaratives 陈述式结构, imperatives 命令式结构, yes-no questions yes-no疑问式结构, and wh-questions 疑问式结构.

  1. imperatives 命令式结构

动词短语开头,没有主语。

  1. yes-no questions yes-no疑问式结构

助动词开头,后面跟一个主语NP,再跟一个VP.

  1. wh-questions 疑问式结构 比较复杂,有两种情况:
  • wh主语疑问式(wh-subject-question)结构,主语疑问式结构与陈述句结构相同
  • wh非主语疑问式(wh-non-subject-question)结构,wh短语不是句子的主语

类似wh-non-subject-question 的结构我们称为 long-distance dependencies,因为 wh-NP 远离在语义上和它相关的谓词 have.

The Noun Phrase 名词短语

关于名词短语主要有: pronouns代词, proper nouns专有名词,和NP \(\rightarrow det\ Nominal\). 接下来的部分主要介绍最后一种结构 NP \(\rightarrow det\ Nominal\). 在名词短语中,包括一个中心词 head, 围绕中心词的有 前修饰语(prehead modifier) 和 后修饰语(post-head modifier).

  1. The Determiner 限定词,出现在中心词之前
  1. The Nominal \[Nominal \rightarrow Noun\]

Before the Head Noun:

cardinal numbers 基数词, ordinal numbers 序数词, quantifiers 数量修饰语, and adjectives

after the Head Noun: postmodifiers 主要分为三类:

  • 介词短语
  • 非限定从句
  • 关系从句
  1. 介词短语 prepositional phrases
  1. 非限定从句 non-finite postmodifiers,有三种: 动名词gerundive (-ing), -ed, and infinitive forms.

(1)动名词 gerundive (-ing)

列举一些例子:

其对应的形式语言:

(2)infinitives不定式 and -ed形式

  1. 关系从句(postnominal relative clause), 准确的说是 限制性关系从句(restrictive relative clause), 通常用关系代词 relative pronoun 开头.

before the Noun Phrase: 在NPs之前的词,通常叫 predeterminers, 最常见的就是 all.

复杂的名词短语的剖析树举例

The Verb Phrase 动词短语

比较简单的动词短语的结构:

除此之外还有更复杂的,在动词后嵌入完整的句子,这样的成分叫做句子补语 sentential complements

在VP后潜在的成分可能是另一个VP。动词可以与不同类型的补语相容,但不是每个动词都与每个动词短语相容。比如 及物动词(transitive)非及物动词(intransitive) 之分。

将动词 次范畴化(subcategorize), 也就是按照 NP或其他补语 再分类。动词的这些可能的补语的集合称为该动词的 次范畴化框架(subcategorize frame)

Coordination 并列关系

conjunctions: and, or and but.

NP \(\rightarrow\) NP and NP

Nominal \(\rightarrow\) Nominal and Nominal

VP \(\rightarrow\) VP and VP

S \(\rightarrow\) S and S

Treebanks

何为Treebanks:

a corpus where every sentence in the collection is paired with a corresponding parse, Such a syntactically annotated corpus is called a treebank

一个语料库中所有的sentences都有其对应的剖析树。

Penn Treebank project (whose POS tagset we introduced in Chapter 10) has produced treebanks from the Brown, Switchboard, ATIS, and Wall Street Journal corpora of English, as well as treebanks in Arabic and Chinese.

Penn Treebank 是一个treebank,其语料库来自于 Brown等。。

Treebanks as Grammars

Viewed as a large grammar in this way, the Penn Treebank III Wall Street Journal corpus, which contains about 1 million words, also has about 1 million non-lexical rule tokens, consisting of about 17,500 distinct rule types.

Heads and Head Finding

每一个组成成分constituent,也就是树中的一个节点都有一个词汇头部 (lexical head).

为什么需要head? 暂时还不太懂,学过后面的内容应该就能理解了吧~

举个栗子:

每个非终极non-terminal符号,也就是非叶节点都有一个head.

那么怎么找每个节点对应的head呢?

Instead of specifying head rules in the grammar itself, heads are identified dynamically in the context of trees for specific sentences. In other words, once a sentence is parsed, the resulting tree is walked to decorate each node with the appropriate head.

也就是说,没有具体的规则,根据具体的句子动态的定义对应的head,这些规则也都是 hand-written rules.

以NP中的head为例:

Grammar Equivalence and Normal Form 语法等价与范式

  1. 强等价 strong equivalence 和 弱等价 weak equivalence
  • 如果两个语法生成相同的符号串集合,而且对每个句子都指派相同的短语结构(只改变终极符号),这样的两个语法是强等价
  • 如果生成的符号串集合相同,但是不给每个句子指派相同的短语结构,就是弱等价,其实就是对同一个句子,理解不同~

举个栗子:

  1. 一个上下文无关语法CFG是自由的,并且它的每个生成式的形式都是 \(A\rightarrow B C\)\(A \rightarrow a\), 也就是说,每个规则 rule的右边要么是两个非终极符号,要么是一个终极符号,那么这个CFG就是 Chomsky normal form.

任何一个CFG都可以写成弱等价的Chomsky范式语法。

举个栗子:

VBD是动词的过去式,

Lexicalized Grammars 词汇语法

可以看到,CFG过分强调短语结构,而忽视了词汇的作用,也就是单词的语义。但这样的短语结构都太复杂和笨重(cumbersome)了,而且 语法冗余,难以管理和脆弱(redundant,hard to manage, and brittle)。为了解决这样的问题,需要更好的利用lexicon。

接下来介绍其中的一种方法: Combinatory Categorial Grammar,CCG *,考虑到 句法 syntactic语义 semantic 的高度 词汇化lexicalized 的方法.

下一章会详细讲到词汇化~

总结

参考:

  • Speech and language Processing,Chapter11
  • Natural Language Processing, Michael Collins, Columbia University