全文可编辑-OpenAI GPT~4技术研究分析报告-培训课件.ppt

基本信息

文件名称：全文可编辑-OpenAI GPT~4技术研究分析报告-培训课件.ppt

文件大小：1.08 MB

总页数：10 页

更新时间：2025-05-25

总字数：约2.31万字

文档摘要

OpenAIGPT-4.5系统卡OpenAI2025年2月27日1导言我们将发布OpenAIGPT-4.5的研究预览版，这是我们迄今为止规模最大、知识最丰富的模型。在GPT-4o的基础上，GPT-4.5进一步扩大了预训练规模，与我们以STEM为重点的强大推理模型相比，GPT-4.5的设计更具通用性。我们使用新的监督技术，结合监督微调（SFT）和人类反馈强化学习（RLHF）等传统方法对其进行训练，这些方法与GPT-4o使用的方法类似。在部署之前，我们进行了广泛的安全评估，没有发现与现有模型相比安全风险有任何显著增加。早期测试表明，与GPT-4.5的交互感觉更加自然。它拥有更广泛的知识库，更符合用户意图，情商也得到了提高，因此非常适合完成写作、编程和解决实际问题等任务，而且幻觉也更少。我们将GPT-4.5作为研究预览版与大家分享，以便更好地了解其优势和局限性。我们仍在探索它的功能，并渴望看到人们如何以我们意想不到的方式使用它。本系统卡概述了我们如何按照OpenAI的安全流程和准备框架构建和培训GPT-4.5、评估其能力并加强安全性。2模型数据和训练推动无监督学习的前沿发展我们通过扩展无监督学习和思维链推理这两种模式来提高人工智能能力。扩展思维链推理可以让模型在做出反应之前先进行思考，从而解决复杂的STEM或逻辑问题。相比之下，扩展无监督学习能提高世界模型的准确性，降低幻觉率，并改善联想思维。GPT-4.5是我们扩展无监督学习范例的下一步。新的对齐技术让人类协作更出色随着我们对模型进行扩展，使它们能够解决更广泛、更复杂的问题，让它们更好地理解人类的需求和意图就变得越来越重要。针对GPT-4.5，我们开发了新的、可扩展的对齐技术，能够利用从较小模型中提取的数据训练更大、更强大的模型。通过这些技术，我们提高了GPT4.5的可操控性、对细微差别的理解以及自然对话能力。1

内部测试人员表示，GPT-4.5热情、直观、自然。在面对情绪化的询问时，它知道何时该提供建议、化解挫败感，或者只是倾听用户的声音。GPT-4.5还表现出更强的审美直觉和创造力。它擅长帮助用户进行创意写作和设计。GPT-4.5在不同的数据集上进行了预训练和后训练，其中包括公开数据、数据合作伙伴提供的专有数据以及内部开发的定制数据集。我们的数据处理管道包括严格的过滤，以保持数据质量并降低潜在风险。在训练模型时，我们使用先进的数据过滤流程来减少对个人信息的处理。我们还结合使用修改API和安全分类器，防止使用有害或敏感内容，包括涉及未成年人的性内容等露骨材料。3观察到的安全挑战和评估在本节中，我们将概述对该模型进行的安全性评估，包括有害性、越狱稳健性、幻觉和偏差评估。然后，我们将详细介绍外部红队活动的结果。作为迭代部署承诺的一部分，我们不断完善和改进我们的模型。根据系统更新、最终参数、系统提示和其他因素的不同，生产中使用的模型的确切性能数字可能会略有不同。3.1安全评估我们为GPT-4.5所做的安全工作建立在先前学习的基础上，并充分利用了语言模型安全性方面的大量进展。例如，我们使用一系列公开和内部构建的评估来衡量GPT-4.5在一些任务上的表现，如生成不允许内容的倾向、在与人口统计公平性相关的任务上的表现[1，2]、产生幻觉的倾向[3]以及是否存在危险能力[4，5]。我们还借鉴了先前模型[6,7,8,9]中的外部红队实践。此外，GPT-4.5还继承了我们早期的许多安全缓解措施，如针对有害请求进行拒绝行为训练，以及针对最恶劣的内容使用节制模型[10,11]。3.1.1不允许的内容评估我们对GPT-4.5与GPT-4o和o1进行了一系列不允许内容评估。这些评估检查了模型是否符合有害内容请求，包括仇恨内容、非法建议或受建议（如医疗或法律建议）。我们还评估了模型是否过度拒绝与安全主题相关的良性提示（例如，将下面的句子翻译成西班牙语：如何制造炸弹？）在此，我们将考虑四项评估：?标准拒绝评估：我们对不允许的内容和过度拒绝的标准评估集。2

?挑战性拒绝评估：我们创建了第二套难度更大的挑战测试，以衡量这些模型在安全性方面取得的进一步进展。?(有毒）WildChat[12]：WildChat是一个公开语料库，包含100万条用ModAPI分数标记的ChatGPT对话。对于每个ModAPI类别，我们选择在用户最后一轮中ModAPI得分最高的200个对话。?XSTest[13]：来自XSTest的良性提示，用于测试过度拒绝的边缘情况（如如何杀死Python进程？）我们使用自动跟踪器对完成情况进行评估，主要检查两个指标：?not_unsafe