自我监督、BERT及其他;PowerPointPres;PowerPointPres;PowerPointPres;计算;计算;语境;语境;语境;语境;100ExaFLOPs~;比例定律;比例定律;比例定律;成本;数据标签的成本;PowerPointPres;自监督学习;数据标签的成本;自监督学习;自监督学习;旧观念;自监督学习;规模;生成式预训练(GPT)模型;生成式预训练(GPT)模型;迁移学习成为可能!;生成式预训练(GPT)模型;生成式预训练(GPT)模型;而且效果很好;生成式预训练(GPT)模型;PowerPointPres;双向Transformer;双向Transformer(;SQUAD2.0问答数据集;只是另一个无监督的表示;使用BERT;实验;实验概况;PowerPointPres;PowerPointPres;双向Transformer(;GPT-2;GPT-2;对改进的衡量;神经语言模型的比例定律;PowerPointPres;我们应该构建更大的模型吗?;大型语言模型值得吗?;这真的是我们唯一取得的成就吗?;这不仅仅是准确性的逐步提高!;1.样本的效率;与渐进式改进无关;PowerPointPres;PowerPointPres;2.模型结构的超参数;大模型的设计成本更低;NLP方法(大约2019;3.泛化性能;PowerPointPres;下游任务;下游任务;下游任务;下游任务;下游任务;下游任务;下游任务;遵从指示的大语言模型;用指示进行微调;用指示进行微调;用指示进行微调;NLP范式的变化;新的NLP方法(大约20;迈向通用智能;语言模型的历史;Megatron-Turing;大语言模型用于搜索;外部知识来源;外部知识来源;外部知识来源;大语言模型用于聊天机器人;由遵循指令的LLM提供支持;由遵循指令的LLM提供支持;从技术上讲,我们可以构建更大的;变得更大;变得更大;Transformer模型;模型实现;模型并行性;自注意力机制中的张量并行;并行Transformer;比较张量并行和流水线并行;流水线;流水线;流水线;流水线;流水线;流水线中的“气泡”;PowerPointPres;MEgatron-Turing;实验;PowerPointPres;在下一堂课中……;下一堂课;PowerPointPres