第8章大语言模型
多模态大模型和生成式人工智能
8.1大语言模型
8.2多模态大模型
8.3生成式人工智能
8.4大模型与生成式AI的性能、应用、
问题与对策
8.5当前趋势及其他思路和范式
延伸学习导引;8.1大语言模型
8.1.1大语言模型概述
1.什么是大语言模型?
?大规模神经语言模型(LargeLanguegeModel,LLM)
?由基本网络模型搭建而成
?百亿以上的参数量
2.为什么要建大语言模型?
?ScalingLaw(扩展或缩放法则):模型规模的扩展(增加模型的参数)或数据规模的加大,往往会使模型的性能得到显著提升,进而也使模型在下游任务中表现更佳。;3.大语言模型发展概况
2014年,GoogleBrain的llyaSutskever团队和YoshuaBengio团队各自独立提出了Seq2Seq(SequencetoSequence)网络模型架构,该架构由编码器和解码器两部分组成,并引入了注意力机制。
2017年6月,Google的Vaswani等受Seq2Seq的启发,进一步提出了称为Transformer的模型架构。Transformer的出现,给大语言模型的研发奠定了基础,开辟了道路。从此,大语言模型的研发正式起步。
2018年3月,华盛顿大学提出了语言模型ELMo(EmbeddingfromLanguageModels),其中提出了预训练、微调和动态词嵌入的思想和技术。
2018年6月,OpenAI推出了一款基于Transformer的生成式预训练语言模型GPT-1。
;2018年10月,Google的JacobDevlin等推出了一款基于Transformer的双向编码语言模型BERT。
2019年10月,Google发布并开源了参数为110亿的T5(Text-to-TextTransferTransformer)模型。可以说,参数规模突破百亿大关的T5标志着大语言模型的诞生。从此,大语言模型的研发便拉开了序幕。
2019年10月,Facebook的MikeLewis等推出了一款基于Transformer的语言模型BART。
2020年5月,OpenAI推出了参数为1750亿的GPT-3。随后又是兼有编程能力的GPT-3.5。
2021年4月,华为推出了PanGu-?(盘古的一个版本)。
2021年7月,百度推出了Ernie3.0(文心一言的基座模型)。
2022年,OpenAI的Ouyang等提出了“有监督学习+强化学习”的InstructGPT。
;2022年4月,Google推出了参数为5400亿的PaLM。
2022年11月30日,OpenAI在网上发布了聊天机器人ChatGPT,轰动业界,震惊全球。从此,“大语言模型”、“AI”便家喻户晓,一个新的AI研发热潮在全球范围内如火如荼地展开了。
2023年2月,Googel发布了聊天机器人Bard。
2023年3月,OpenAI发布了有多模态处理能力的GPT-4。
2023年3月,Anthropic发布了有多模态处理能力的大语言模型Claude。
2023年7月,Meta发布并开源了大语言模型LLaMA-2。
2024年2月,OpenAI发布了文生视频大模型Sora。
2024年2月Google推出了MoE架构的新型多模态大模型Gemini。;2024年9月,OpenAI发布了o1推理模型系列。12月又发布了GPT-4.5。
2025年1月Google提出了一种可望继任Transformer的新型架构Titans.
2025年1月20日,深度求索推出了低成本、高性能的DeepSeek-R1,震惊世界。
国内的大模型有百度的文心一言(已改名为“文小言”)、华为的盘古、字节跳动的豆包、科大讯飞的星火、智谱的ChatGLM、阿里的通义天问、腾讯的混元、…等等,还有中科院和不少高等院校(如清华、复旦、北航)也都纷纷推出了各自己的大语言模型。
;;从任务处理能力来看,早期的语言模型主要面向自然语言的建模和生成任务,而大语言模型则扩展到更广泛、更复杂任务的求解。统计语言模型主要被用于(或辅助用于)解决一些语言处理任务,如信息检索、文本分类、语音识别、翻译等。神经语言模型专注于学习任务无关的语义表征。预训练语言模型加强了语义表征的上下文感知能力,并且可以