自然语言及语音处理项目式教程课件3.2.2-2文本向量化之Word2Vec.pptx

基本信息

文件名称：自然语言及语音处理项目式教程课件3.2.2-2文本向量化之Word2Vec.pptx

文件大小：12.9 MB

总页数：17 页

更新时间：2025-06-24

总字数：约1.02千字

文档摘要

了解文本向量化?深入文本进阶处理

文本离散表示文本分布式表示

文本分布式表示文本分布式表示：将每个词根据上下文从高维空间映射到一个低维度、稠密的向量。思想：词的语义是通过上下文信息确定的。优点：考虑到了词与词之间存在的相似关系，减小了词向量的维度。

文本分布式表示分布式表示VS独热表示：形式上功能上独热表示的词向量是一种稀疏词向量，其长度就是字典长度。分布式表示是一种固定长度的稠密词向量。分布式表示最大的特点是相关或相似的词在语义距离上更接近。

文本分布式表示常用方法：基于矩阵的分布式表示LSA矩阵分解模型PLSA潜在语义分析概率模型LDA文档生成模型基于聚类的分布式表示基于神经网络的分布式表示Word2Vec模型Doc2Vec模型

Word2Vec模型Word2Vec模型：Google开源了一款用于词向量建模的工具、简单化的神经网络模型。可以在百万数量级的字典和上亿数量级的数据集上进行高效的训练。A得到的训练结果可以很好地度量词与词之间的相似性。B

Word2Vec模型Word2Vec模型特点：在模型训练好后，不会使用训练好的模型处理新的任务。使用模型通过训练数据所学得的参数。

Word2Vec模型Word2Vec模型训练流程：构建语料库创建词汇表准备训练数据训练模型评估模型

Word2Vec模型CBOW模型输入：某一个特定词的上下文对应的独热向量。输出：这个特定词的概率分布。小型语料库。Skip-Gram模型输入：一个特定词的独热向量。输出：这个特定词的上下文的概率分布。大型语料库。

CBOW模型CBOW模型结构：

CBOW模型将词汇表中的所有词都转化为独热向量输入到CBOW模型，CBOW模型由权重矩阵决定，权重矩阵的确定流程。对权重矩阵随机值初始化权重矩阵可以通过随机梯度下降法确定，按序训练样本，计算损失函数计算这些损失函数的梯度，在梯度方向更新权重矩阵

CBOW模型CBOW模型示例：建设美丽新中国

Skip-Gram模型Skip-Gram模型结构：

Skip-Gram模型Skip-Gram模型的输出是一个概率分布，表示在给定中心词汇下，每个单词作为上下文单词的概率。该模型同样是由权重矩阵决定，权重矩阵的训练流程如下。对权重矩阵随机值初始化通过随机梯度下降算法确定权重矩阵，计算交叉熵损失函数计算交叉熵函数的梯度，通过反向传播更行权重矩阵

Skip-Gram模型Skip-Gram模型示例：建设美丽新中国