面向异构室内定位环境的强化学习方法研究.pdf

基本信息

文件名称：面向异构室内定位环境的强化学习方法研究.pdf

文件大小：2.52 MB

总页数：75 页

更新时间：2025-06-14

总字数：约14.43万字

文档摘要

摘要

无线电RSS指纹凭借其易获取、低成本等多种优势被广泛地应用于基于指纹

的室内定位方法中。但是，信号采集设备的异构性带来的指纹差异可能会导致指

纹误匹配，并最终影响定位性能。

近年来，强化学习在解决如AlphaGo等复杂决策问题上表现出了强有力的竞

争优势，并在室内定位领域中也得到了广泛的关注。但现有一些基于强化学习的

室内定位方法没有充分利用环境中的观测和智能体自身的历史动态信息，并且忽

略了多智能体系统中多个不同设备之间的异构性。

针对上述问题，本文开展了异构室内定位环境下的强化学习方法研究，主要

工作内容如下：

本文提出了一种基于深度强化学习的轨迹定位方法，以RSS测量、智能体自

身的估计位置和其历史动作为状态，利用环境中的少量先验知识设计一个合理的

奖赏函数，奖励强RSS值且靠近选定AP的位置估计并惩罚远离选定AP的位置。

通过对一个位置计算两次奖赏值并选择高奖赏值的方式，来处理RSS数据存在设

备异构性的问题。实验结果证明该算法可以以较高精度预测轨迹的走向，并对异

构RSS数据也具有一定的鲁棒性。

本文提出了一种基于最小二乘与多智能体深度强化学习的无人机辅助轨迹定

位方法，该算法使用两组不同的RSS数据，首先利用最小二乘预测目标的位置，

再基于强化学习方法估计无人机位置，并同时评估对目标的估计。在深度强化学

习的多智能体系统中，以异构RSS测量数据、智能体的位置、其越界标志及其自

身历史动作向量为状态。在多个智能体与目标的平均定位误差在可接受范围内时，

奖励靠近目标的定位状态而惩罚远离目标的定位状态。实验结果证明该算法定位

性能较稳定，对处理异构RSS数据也具有一定的健壮性。

关键：室内定位，深度强化学习，多智能体系统，设备异构，指纹定位

ABSTRACT

RSSfingerprintiswidelyusedinfingerprint-basedindoorlocationmethodsbecause

ofitsadvantagesofeasyaccessandlowcost.However,thefingerprintdifferencecaused

bytheheterogeneityofsignalacquisitionequipmentmayleadtofingerprintmismatch,

andultimatelyaffectthepositioningperformance.

Inrecentyears,reinforcementlearninghasshownastrongcompetitiveadvantage

insolvingcomplexdecision-makingproblemssuchasAlphaGo,andhasbeenwidely

concernedinthefieldofindoorpositioning.However,someexistingindoorpositioning

methodsbasedonreinforcementlearningdonotmakefulluseoftheobservationinthe

environmentandthehistoricaldynamicinformationofagentsthemselves,andignorethe

heterogeneityamongdifferentdevicesinmulti-agentsystems.

Inviewoftheaboveproblems,thisthesishascarriedoutthereinforcementlearning

methodresearchinheterogeneousindoorpositioningenvironment,andthemainwork

contentsareasfollows:

Inthisthesis,