基本信息
文件名称:生成式人工智能基础 课件 第5章 文本生成技术.pptx
文件大小:2.16 MB
总页数:93 页
更新时间:2025-07-03
总字数:约1.31万字
文档摘要

;;文本生成源于语言模型,其目标是对自然语言的概率分布建模,从而实现文本的创造和预测。

图5-1将自然语言句子

翻译成目标语言;本章回顾了从基于规则的方法、统计语言模型到循环神经网络(RNN)及其变体的演进过程,重点探讨Transformer模型及其自注意力机制的工作原理和优势。Transformer通过编码器和解码器结构,实现了高效的并行计算和长距离依赖关系的建模,成为现代文本生成的核心架构。此外,本章还介绍了文本生成技术在多个领域的应用,如文本摘要、诗歌生成、对话系统和机器翻译,同时指出了当前技术面临的挑战。;;PART01;大量的研究从基于统计的n元语言模型、神经语言模型以及预训练语言模型等不同角度开展了一系列工作,这些研究在不同阶段对NLP任务发挥着重要作用。随着基于谷歌Transformer的各类语言模型的发展,以及预训练微调范式在各类NLP任务中取得突破性进展,从OpenAI发布GPT-3开始,对LLM的研究逐渐深入。虽然LLM的参数量巨大,通过有监督微调和强化学习能够完成非常多的任务,而其基础理论仍然离不开对语言的建模。;基于规则的文本生成方法依赖于预定义的语法规则和模式来构造句子或段落。这种方法不需要大量的训练数据,而是通过编程设定具体的规则,规定如何组合词汇、短语和句子结构以生成符合语法和逻辑的文本,它适用于结构化较高的文本生成任务,如天气预报、新闻摘要等。

主要应用场景例如:自动生成简单的报告或通知;模板化的客户服务回复。

以下是基于规则方法的一个简单示例:天气预报文本生成。;规则2:描述天气状况。

?晴天:“今天将是晴朗的一天,阳光明媚。”

?多云:“天空多云,预计会有间歇性的阳光。”

?阴天:“全天阴沉,看不到太阳。”

?小雨:“有小雨,记得带伞哦!”

?中雨:“中等强度的降雨,外出时请注意防雨。”

?大雨:“大雨倾盆,尽量避免外出。”;规则3:温度范围描述。

?低温(10°C):“气温较低,注意保暖。”

?中温(10°C-25°C):“气温适中,穿着轻便即可。”

?高温(25°C):“天气炎热,保持清凉。”

规则4:风速与方向。

?风速低(10km/h):“微风轻拂。”

?风速中等(10-30km/h):“风力适中,请注意固定户外物品。”

?风速高(30km/h):“强风来袭,建议减少外出活动。”;规则5:结束语。

?“祝您拥有美好的一天!”

综合应用:根据上述规则,可以构建一段完整的天气预报文本。

例如:输入条件:

?时间:上午

?天气状况:晴天

?温度范围:中温(18°C)

?风速:微风(8km/h);生成的天气预报文本:“上午好!最新的天气预报显示,今天将是晴朗的一天,阳光明媚。气温适中,穿着轻便即可。微风轻拂。祝您拥有美好的一天!”

基于规则的方法非常适合于那些规则明确且变化较少的任务,如简单的天气预报、日程提醒或格式化的报告生成。使用预定义的语法规则和模板来生成诗句,它简单直观,可以保证生成的诗句符合特定格式(如五言绝句、七言律诗等)。然而,它的灵活性有限,难以覆盖所有可能的语言变体和例外情况。;统计语言模型(SLM)是指基于概率分布来预测下一个词的概率的文本生成方法,它通过分析大量文本数据来估计词或短语序列出现的概率。这类模型假设一个句子或文档中词语的顺序不是完全随机的,而是遵循一定的统计规律。通常使用n元模型,其训练数据越大,生成的文本越自然流畅。为了简化计算,引入一阶马尔可夫假设:每个词只依赖前一个词;也可以引入二阶马尔可夫假设:每个词依赖前两个词。马尔可夫假设可以方便的计算条件概率。

主要应用场景例如自动补全和建议功能、初期的机器翻译系统等。;以下是使用统计语言模型的一个简单示例:n-元模型,这是最经典的统计语言模型之一。

示例:使用2元(二元语法)模型生成文本。

(1)构建语料库。首先需要一个包含大量文本的语料库,例如新闻文章、书籍或其他类型的书面材料。这些文本将用于训练模型,以学习不同单词之间共现的概率。;(2)创建2元频率表从语料库中提取所有相邻两个单词对,并计算每个单词对在文本中出现的频率。例如:

?“我喜欢”出现了50次;

?“喜欢猫”出现了30次;

?“猫和”出现了20次;

?“和狗”出现了40次。;(3)计算条件概率。根据单词对的频率可以计算给定前一个词的后一个词出现的概率。

其中C(w_(i-1),w_i)表示(w_(i-1),w_i)的计数,分母是对所有后续词(w)的单词对计数之和。

例如,如果想知道在“我喜欢”之后出现“猫”的概率,则:;(4)生成文本。一旦有了这些条件概率,就可以开始生成文本了。选择一个起始词(如“我”),然后根据已知的条件概率随