时空众包任务分配中的强化学习与任务调度
目录
第1章绪论1
第2章相关理论技术2
2.1马尔可夫决策过程2
2.2强化学习3
2.3自适应时间窗口法5
第3章基于强化学习的时空众包任务分配算法6
3.1对时空众包任务分配的MDP建模分析6
3.2应用Q-learning算法求解7
3.3评价标准9
第4章实验设计及结论10
4.1基于强化学习的任务分配算法实现10
4.1.1MDP建模实现10
4.1.2Q-learning算法设计12
4.1.3实验结果及分析14
4.2基于最大匹配的移动众包任务分配研究16
4.2.1MTM算法介绍16
4.2.2MTM算法的结果及分析17
4.3基于效益最优化的空间众包任务分配研究18
4.3.1OE算法介绍18
4.3.2OE算法的结果及分析20
4.4实验结果对比分析21
结论23
参考文献23
第1章绪论
在传统模式中,每个企业独立需要完成除本企业核心业务之外的其他业务,导致了
企业运行成本增加,工人的工作效率降低。在现代工作中,出现了一种新颖的工作案,
企业可以将非必要业务外包给其他专业公司,外包公司解决企业本身不易解决的难题,
企业专注于自身的核心业务,做自己精通的业务工作。这类难题在外包出现后得到了极
大的改善,极大的降低了公司运营时的成本,而且更加高效。通过外包模式无法解决的
一部分难题在群智协同计算可以得到解决。群智协同计算模型将公共智能与移动互联网
技术相结合,构建覆盖范围广、执行效率高的无线传感网络(刘天宇,李梦琪,2022)。
并将传感网络上的任务分配给携带智能设备的个人或组织,通过群智资源的协调来解决
问题。
群智协同计算系统包括三部分,分别是群智服务计算平台,移动用户与数据应用者,
该系统自底向上可以分为三层,分别是系统应用层,网络传输层与群智计算处理层(黄
志远,冯丽娟,2023)。系统应用层主要处理两部分事件,数据感知与数据应用,一般
情况下,数据应用者处于数据应用部分,他们通过网络传输层向群智计算服务器提交任
务请求,群智计算服务器获取到任务信息后,将任务发布到系统应用层中的移动用户。
移动用户在得到服务器分配的任务后,携带自身的智能设备前往对应的环境去收集环境
数据执行数据感知的职能(樊子睿,安浩宇,2021)。得到数据后重新上传到群智计算
服务器处理,计算完成后再通过网络传输层返回给数据应用者。整个流程实现了数据从
人群中来又到人群中去,完全由人类提供数据作为支撑。一般情况下,移动用户作为众
包工人出现,数据应用者作为任务请求者出现。
第2章相关理论技术
2.1马尔可夫决策过程
强化学习的原理可用图2.1表示,智能体(Agent)在执行一项工作时,首先通过动
作A与周围环境(Enironment)进行交互,智能体会依据当前的状态选择一种动作,从而
产生新的状态,同时环境会依据智能体所采取的动作给出智能体一个回报(Reward)。智
能体与环境不断的进行交互产生很多组数据(蓝天佑,严文轩,2021)。本文研究背景
中这种情况成为了我们研究的一部分强化学习利用这些数据不断地修改自身的策略
(Policy)能体最终可以得到问题的最优解。
强化学习历经数十年的探索,已经有了一套可以解决绝大部分强化学习问题的框架,
这个框架是马尔可夫决策过程(MarkoDecisionProcess,MDP)在了解马尔可夫决策过
程之前需要先了解马尔可夫性,马尔可夫过程(吴志睿,郑婉如,2019)o
图2.1强化学习原理
2.2强化学习
单智能体强化学习主要由两部分构成,分别是智能体(Agent)与环境(Enironment)。
强化学习使用马