基本信息
文件名称:哥大 E6998 面向自然语言处理的机器学习讲义.pdf
文件大小:2.26 MB
总页数:91 页
更新时间:2025-06-04
总字数:约13.9万字
文档摘要

使用隐马尔可夫模型进行标注

迈克尔·科林斯

1标注问题

在许多自然语言处理问题中,我们希望对序列进行建模。词性标注(POS)是这

种类型问题中最早、最著名的例子。在词性标注中,我们的目标是构建一个模型

,其输入是一个句子,例如

thedogsawacat

,输出是一个标签序列,例如

DNVDN(1)

(在这里,我们使用D表示冠词N表示名词V表示动词)。标签序列与输入

句子的长度相同,因此为句子中的每个单词指定一个标签(在这个例子中the

对应Ddog对应Nsaw对应V,等等)。

我们将使用x,x,...,x表示标注模型的输入:我们经常将其称为一个句子。

12n

在上面的例子中,句子的长度为n=5x1=thex2=dogx3=sawx4=the

x=cat。我们将使用y,y,...,y表示标注模型的输出:我们经常将其称为状态序

512n

列或标签序列。在上面的例子中y1=Dy2=Ny3=V,等等。这种类型的问

题,将句子x,x,...,x映射到标签序列y,y,...,y,通常被称为序列标注问题

12n12n

或标注问题。将句子x,x,...,x映射到标签序列y,y,...,y的这种类型问题

12n12n

,通常被称为序列标注问题或标注问题。将句子x,x,...,x映射到标签序列y,y

12n1

,...,y的这种类型问题,通常被称为序列标注问题或标注问题。

2n

我们假设我们有一组训练样本,(x(i),y(i))对于i=

1...m,其中每个x(i)是一个句子x(i)...x(i),每个y(i)是一个标签序列

1ni

y(i)...y(i)(我们假设第i个示例的长度为n).因此x(i)是第i个训练示例中的第j

1niij

个单词,而y(i)是该单词的标签。我们的任务是从这些训练示例中学习一个将句

j

子映射到标签序列的函数。

1

2生成模型和噪声信道模型

机器学习中的监督问题定义如下。我们假设训练示例(x(1),y(1))...(x(m),y(

m)),其中每个示例由一个输入x(i)和一个标签y(i)组成。我们用X表示可能

的输入集合,用Y表示可能的标签集合。我们的任务是学习一个函数f:X

(

→Y,将任何输入x映射到一个标签fx)。

自然语言处理中的许多问题都是有监督学习问题。例如,在标注问题中

,每个x(i)都是一个单词序列。

x(i)...x(i)而每个y(i)都是一个标签序列y(i)...y(i)(我们用