基于强化学习的糖尿病健康管理对话系统对话策略研究.pdf

基本信息

文件名称：基于强化学习的糖尿病健康管理对话系统对话策略研究.pdf

文件大小：2.62 MB

总页数：64 页

更新时间：2025-06-13

总字数：约10.44万字

文档摘要

基于强化学习的糖尿病健康管理对话系统

对话策略研究

摘要

我国是全球糖尿病患病人数最多的国家，患病人数仍在持续快速增长，糖尿病

已成为我国重大公共卫生问题。本文关注的糖尿病健康管理对话系统服务于糖尿

病患者，为患者解答日常生活中糖尿病相关问题。这类任务型对话系统多数采用管

道结构的实现方式，将对话任务分解为自然语言理解、对话状态跟踪、对话策略以

及自然语言生成模块。本文的研究从系统的对话策略模块出发，探索如何高效、准

确的响应用户语句，给出相关医疗科普与健康管理建议。因此，全文所做的工作如

下：

（1）对如今对话系统中对话策略学习方法作全面探究。首先分析比较了端到

端的实现方式与管道结构的实现方式的优劣，梳理了基于规则的对话策略、基于模

仿学习的对话策略学习以及基于强化学习的对话策略学习的相关研究工作。为后

续提出并应用H-GPDL模型做铺垫。

（2）构建了首个标注体系完整的糖尿病健康管理中文对话数据集“Diachat”，

以支持健康管理对话系统研究。Diachat收集了来自线上聊天平台糖尿病患者与医

生的693段对话（Dialogue），共4686句语料（Sentence），完成了6594条对话动

作（Dialogueact）标注。Diachat数据集采用基于对话动作的表示方式进行意图表

示并定义了15个对话动作标签（ActLabel）。同时，Diachat定义了6个领域（Domain）

涵盖语料涉及的领域，分别为：问题（Problem）、饮食（Diet）、行为（Behavior）、

运动（Sport）、治疗（Treatment）、基本信息（Profile）。为了支持构建完整的对话

系统，Diachat为用户端和系统端分别构造了对话状态，并为每段对话构造了对话

目标。

（3）在强化学习设置下的对话策略学习任务中，提出了VHUS-DG模型实现

的用户模拟器。该用户模拟器在编码阶段采用动态用户目标标记用户目标的完成

情况，每回合动态更新用户目标，指导模型给出更加准确的目标表述动作。在用户

模拟器解码阶段引入自注意力机制方法，该方法可以帮助模型更好地理解输入序

列中对话状态、系统对话动作与用户目标的之间的关联，并有效建模长距离依赖关

系从而提高了模型信息的提取能力。通过实验验证，该模型对比基线模型在Diachat

数据集的用户模拟器各项指标上最高提升3.07%。在CrossWOZ数据集上各项指

标最高提升2.02%。

-I-

（4）提出了H-GDPL模型，该方法将分层强化学习应用到GDPL模型中，将

人类对话动作建模为玻尔兹曼分布，并通过GAN结构将策略模型与奖励评估器进

行对抗学习，同时对对话策略学习任务进行了拆解，采用Master-Worker结构进行

对话动作的分层决策，Master策略主要用于预测对话动作标签，Worker策略用于

各对话动作标签下的领域-槽位预测，最终根据Master-Worker策略得出模型的预

测结果。通过实验验证，该模型对比基线模型在Diachat数据集的对话策略各项指

标上最高提升2.73%。在CrossWOZ数据集上各项指标最高提升2.25%。

关键词对话系统；糖尿病健康管理；数据集构建；用户模拟器；对话策略学习

-II-

ResearchonDialoguePolicyofDiabetesHealth

ManagementDialogueSystemBasedon

ReinforcementLearning

Abstract

Asthecountrywithlargestnumberofdiabetescasesintheworld,andthenumber

ofpatientscontinuestogrowrapidly,diabeteshas