了解文本向量化?深入文本进阶处理
文本离散表示文本分布式表示
文本分布式表示文本分布式表示:将每个词根据上下文从高维空间映射到一个低维度、稠密的向量。思想:词的语义是通过上下文信息确定的。优点:考虑到了词与词之间存在的相似关系,减小了词向量的维度。
文本分布式表示分布式表示VS独热表示:形式上功能上独热表示的词向量是一种稀疏词向量,其长度就是字典长度。分布式表示是一种固定长度的稠密词向量。分布式表示最大的特点是相关或相似的词在语义距离上更接近。
文本分布式表示常用方法:基于矩阵的分布式表示LSA矩阵分解模型PLSA潜在语义分析概率模型LDA文档生成模型基于聚类的分布式表示基于神经网络的分布式表示Word2Vec模型Doc2Vec模型
Word2Vec模型Word2Vec模型:Google开源了一款用于词向量建模的工具、简单化的神经网络模型。可以在百万数量级的字典和上亿数量级的数据集上进行高效的训练。A得到的训练结果可以很好地度量词与词之间的相似性。B
Word2Vec模型Word2Vec模型特点:在模型训练好后,不会使用训练好的模型处理新的任务。使用模型通过训练数据所学得的参数。
Word2Vec模型Word2Vec模型训练流程:构建语料库创建词汇表准备训练数据训练模型评估模型
Word2Vec模型CBOW模型输入:某一个特定词的上下文对应的独热向量。输出:这个特定词的概率分布。小型语料库。Skip-Gram模型输入:一个特定词的独热向量。输出:这个特定词的上下文的概率分布。大型语料库。
CBOW模型CBOW模型结构:
CBOW模型将词汇表中的所有词都转化为独热向量输入到CBOW模型,CBOW模型由权重矩阵决定,权重矩阵的确定流程。对权重矩阵随机值初始化权重矩阵可以通过随机梯度下降法确定,按序训练样本,计算损失函数计算这些损失函数的梯度,在梯度方向更新权重矩阵
CBOW模型CBOW模型示例:建设美丽新中国
Skip-Gram模型Skip-Gram模型结构:
Skip-Gram模型Skip-Gram模型的输出是一个概率分布,表示在给定中心词汇下,每个单词作为上下文单词的概率。该模型同样是由权重矩阵决定,权重矩阵的训练流程如下。对权重矩阵随机值初始化通过随机梯度下降算法确定权重矩阵,计算交叉熵损失函数计算交叉熵函数的梯度,通过反向传播更行权重矩阵
Skip-Gram模型Skip-Gram模型示例:建设美丽新中国