第8章大语言模型.pptx

基本信息

文件名称：第8章大语言模型.pptx

文件大小：763.89 KB

总页数：51 页

更新时间：2025-06-17

总字数：约1.17万字

文档摘要

第8章大语言模型

多模态大模型和生成式人工智能

8.1大语言模型

8.2多模态大模型

8.3生成式人工智能

8.4大模型与生成式AI的性能、应用、

问题与对策

8.5当前趋势及其他思路和范式

延伸学习导引;8.1大语言模型

8.1.1大语言模型概述

1.什么是大语言模型？

?大规模神经语言模型（LargeLanguegeModel,LLM）

?由基本网络模型搭建而成

?百亿以上的参数量

2.为什么要建大语言模型？

?ScalingLaw（扩展或缩放法则）：模型规模的扩展（增加模型的参数）或数据规模的加大，往往会使模型的性能得到显著提升，进而也使模型在下游任务中表现更佳。;3.大语言模型发展概况

2014年，GoogleBrain的llyaSutskever团队和YoshuaBengio团队各自独立提出了Seq2Seq（SequencetoSequence）网络模型架构，该架构由编码器和解码器两部分组成，并引入了注意力机制。

2017年6月，Google的Vaswani等受Seq2Seq的启发，进一步提出了称为Transformer的模型架构。Transformer的出现，给大语言模型的研发奠定了基础，开辟了道路。从此，大语言模型的研发正式起步。

2018年3月，华盛顿大学提出了语言模型ELMo（EmbeddingfromLanguageModels），其中提出了预训练、微调和动态词嵌入的思想和技术。

2018年6月，OpenAI推出了一款基于Transformer的生成式预训练语言模型GPT-1。

;2018年10月，Google的JacobDevlin等推出了一款基于Transformer的双向编码语言模型BERT。

2019年10月，Google发布并开源了参数为110亿的T5（Text-to-TextTransferTransformer）模型。可以说，参数规模突破百亿大关的T5标志着大语言模型的诞生。从此，大语言模型的研发便拉开了序幕。

2019年10月，Facebook的MikeLewis等推出了一款基于Transformer的语言模型BART。

2020年5月，OpenAI推出了参数为1750亿的GPT-3。随后又是兼有编程能力的GPT-3.5。

2021年4月，华为推出了PanGu-?（盘古的一个版本）。

2021年7月，百度推出了Ernie3.0（文心一言的基座模型）。

2022年，OpenAI的Ouyang等提出了“有监督学习+强化学习”的InstructGPT。

;2022年4月，Google推出了参数为5400亿的PaLM。

2022年11月30日，OpenAI在网上发布了聊天机器人ChatGPT，轰动业界，震惊全球。从此，“大语言模型”、“AI”便家喻户晓，一个新的AI研发热潮在全球范围内如火如荼地展开了。

2023年2月，Googel发布了聊天机器人Bard。

2023年3月，OpenAI发布了有多模态处理能力的GPT-4。

2023年3月，Anthropic发布了有多模态处理能力的大语言模型Claude。

2023年7月，Meta发布并开源了大语言模型LLaMA-2。

2024年2月，OpenAI发布了文生视频大模型Sora。

2024年2月Google推出了MoE架构的新型多模态大模型Gemini。;2024年9月，OpenAI发布了o1推理模型系列。12月又发布了GPT-4.5。

2025年1月Google提出了一种可望继任Transformer的新型架构Titans.

2025年1月20日，深度求索推出了低成本、高性能的DeepSeek-R1，震惊世界。

国内的大模型有百度的文心一言（已改名为“文小言”）、华为的盘古、字节跳动的豆包、科大讯飞的星火、智谱的ChatGLM、阿里的通义天问、腾讯的混元、…等等，还有中科院和不少高等院校（如清华、复旦、北航）也都纷纷推出了各自己的大语言模型。

;;从任务处理能力来看，早期的语言模型主要面向自然语言的建模和生成任务，而大语言模型则扩展到更广泛、更复杂任务的求解。统计语言模型主要被用于（或辅助用于）解决一些语言处理任务，如信息检索、文本分类、语音识别、翻译等。神经语言模型专注于学习任务无关的语义表征。预训练语言模型加强了语义表征的上下文感知能力，并且可以