郝晴,黄浩,赵海涛,谈宇浩,朱春
(南京邮电大学通信与信息工程学院,江苏 南京 210003)
0 引言
无人机(UAV,Unmanned Aerial Vehicle)由于具有高度的灵活性,在货物运输、空中视频流、虚拟现实以及增强现实等领域得到了广泛的应用。通过将无人机与地面基站(GBS,Ground Base Station)进行深度整合,蜂窝连接无人机能够高效地进行智能网络控制和数据处理。此外,蜂窝连接无人机还能够实现密集的蜂窝通信覆盖,从而满足通信网络服务需求。首先,对于无人机辅助的蜂窝通信系统,无人机可以充当中继进行通信连接。例如,在地面基站出现故障时,可以快速部署无人机为地面用户提供紧急通信支持[1-4]。其次,对于蜂窝网络支持的无人机系统,无人机可以通过与地面基站保持通信来完成飞行任务。考虑到无人机的高机动性和高速飞行,以及无人机与地面用户之间大量的数据传输活动,建立高质量的空地通信连接是至关重要的[5]。
然而,由于无人机通常由电池为其电机以及机载电子设备进行供电,无人机的飞行时间是相当有限的[6]。为了保证无人机与地面基站稳定和持续的通信连接,以及无人机飞行任务的可靠完成,必须研究高能效的蜂窝连接无人机系统。本文考虑无人机在任务执行过程中飞行能耗的最小化问题,其中无人机从随机的初始位置飞行到固定的目的地以完成任务。在保证飞行过程中与蜂窝网络保持可靠通信连接的情况下,通过优化无人机的飞行路径来最小化无人机的能量消耗。
本文提出了一种基于无线电地图重构的路径规划方法,无线电地图通过对小尺度信道衰落及其诱导效应进行平均,从而能够描述目标区域内空间和频率上的频谱活动以及传输信道的信息[7]。本文提出了一种新的无线电地图重构方法,无人机首先对无线环境进行稀疏采样,进而基于采样得到的数据对无线电地图进行重构,即能估计出目标区域中所有位置的中断概率,从而大大降低无人机地图采样的开销。进一步地,本文提出了一种基于深度强化学习(DRL,Deep Reinforcement Learning)的路径规划算法。利用重构得到的无线电地图,无人机在目标区域内多次飞行,在此过程中利用DRL 得到最优的路径规划策略,从而提高无人机任务执行的效率,减少无人机飞行时间和能耗。
1 相关研究工作
为了解决无人机路径规划复杂度高的问题,已有基于深度强化学习和无线电地图的无人机路径规划方法研究。在联合优化无人机的最短飞行路径,并最大化从地面设备收集的数据量问题上,文献[8]提出了一种无人机辅助的物联网架构,并利用基于DRL 的算法得到无人机的最优路径和吞吐量。为了避开障碍物,文献[9]利用深度确定性策略梯度(DDPG,Deep,Deterministic,Policy Gradient)算法,使无人机可以独立进行决策。提出了连通面积和威胁函数的概念,并将其应用于DRL 的奖励中。在基于DRL 的路径规划算法上,文献[10]利用优先级经验回放(PER,Prioritized Experience Replay)加速训练过程。通过关注系统的状态,无人机选择最佳飞行方向,从而最大限度地为用户提供服务,文献[11]通过最大化覆盖用户数并最小化无人机能耗来进行路径规划。在考虑多架无人机沿不同路径在目标空域内飞行并为地面用户设备提供服务的场景下,文献[12]提出了一种基于多智能体DRL 的路径规划算法,对每架无人机的路径进行独立管理,目标是优化每架无人机的地理公平性、用户容量的公平性和用户的总能耗。在最大化地面用户平均传输速率为目标下,文献[13]提出了一种基于多智能体深度Q 学习(MADQL,Multiagent Deep Reinforcement Learning)的算法,从而解决路径规划和信道分配联合优化问题。在基于密集部署的无人机的以内容为中心的无线传输网络场景中,文献[14]通过部署大规模的无人机来将缓存的内容传输到随机分布的地面客户端,并提出了一种路径规划和通信调度联合优化方法,采用动态神经网络学习最优控制策略。针对多无人机通信系统,文献[15]提出了一种新的路径规划和资源分配联合优化方法,该方法采用多智能体DRL 算法进行分布式部署,不需要事先知道网络的动态特性。然而,上述文献并未涉及到利用重构得到的无线电地图进行无人机路径规划,以及在UAV-GBS 通信约束下进行无人机的能效优化。
2 系统模型
系统中包括一个无人机以及多个地面蜂窝基站,无人机在目标空域中飞行,基站则为无人机提供通信服务。假设无人机的飞行区域为立方体,表示为 [x1,x2]×[y1,y2]×[z1,z2],其中1 和2 分别表示区域的下边界和上边界。无人机的任务是基于无线电地图,从一个随机的初始位置飞行到固定的最终位置。系统模型如图1 所示:
图1 系统模型
无人机在t时刻的位置表示为l(t),0 ≤t≤T,分别用lI和lF表示无人机的初始位置和最终位置,于是有l(0)=lI,l(t)=lF。假设目标区域内共有C个蜂窝基站,用hc(t),1≤c≤C表示t时刻从基站c到无人机的等效信道增益,因此无人机在t时刻从基站c接收到的信号功率表示为:
其中Pc表示基站c的发射功率,为固定值;βc(·) 和Gc(·)分别表示基站c的大尺度信道增益和天线增益;随机变量(t)表示小尺度衰落。用c′(t) ∈ {1,...,C}表示在t时刻与无人机连接的蜂窝基站。当无人机的接收信干比(SIR,Signal to Interference Ratio)小于阈值γth,即S IR(t)<γth,则判断无人机与蜂窝网络的连接处于中断状态。无人机在t时刻的接收信干比表示为:
由于小规模衰落的随机性,在t时刻时,对于任意无人机位置和与无人机关联的蜂窝,接收信干比是一个随机数,所以中断概率是l(t)和c′(t)的函数,表示为:
根据无人机的中断概率,可以得到任务执行过程中的中断时间为:
设无人机的时间成本为任务完成时间和中断时间的加权和,即:
其中,α和β分别表示无人机总任务完成时间和总任务完成时间内的中断时间权重。由于要求无人机在飞行过程中与基站保持良好的通信质量,所以将β定义为一个数值较大的常数,从而保证与基站稳定的通信连接。
无人机在任务执行过程中的能量消耗通常包含飞行推进能耗和通信能耗。由于无人机的通信能耗比推进能耗小得多,所以本文只考虑无人机的推进能耗。固定翼无人机的推进能量可以表示为[16]:
其中,c1和c2是与空气密度、无人机重量以及机翼面积等有关的固定参数;v(t)和a(t)分别表示无人机在t时刻的速度和加速度;g=9.8 m/s2为重力加速度。因此,无人机的飞行能耗取决于其速度和加速度。在本文中,假设无人机匀速飞行,加速度为0,因此无人机的推进功率为[17]:
推进能量可以进一步表示为:
在无线电地图重构过程中,无人机首先从实际环境中稀疏采样,并计算采样点中断概率,最后对目标区域无线电地图进行重构恢复。假设无人机首先在目标空域随机采样N个数据点,记为xi(i=1,2,3…,N)。将稀疏采样后得到的无线电地图表示为y0,称为等待重构的退化的图像。随后,无人机基于y0重构无线电地图。将无线电地图重构表示为误差最小化优化问题,表示为:
新课程标准明确指出,读是小学语文教学的重要任务,有感情地朗读课文能够使学生受到情感的熏陶,这也是语文学习的重中之重。课堂教学是开展教学工作的主要场所,教师应结合诵读内容,采取丰富的教学形式,指导学生进行有感情诵读,不断提升学生的诵读能力。
其中e(·) 为与重构有关的数据项,y表示重构的无线电地图。R(y) 是一个正则化项,用以表示自然图像上的一般先验。地图重构的目标是找到问题(9)的最优解y*。在本文中,用神经网络隐含的先验信息代替正则化函数,用神经网络fθ(·) 映射代替待重构的地图y,即:
优化变量θ*可以通过参数随机初始化的随机梯度下降来求得。其中,z是一个固定的包含32 个特征图的三维张量,其空间大小与y相同;网络的输入是随机初始化的z;θ是网络参数,通过训练得到最优值。得到最优参数θ后,输入z得到最优的y,然后得到重构的无线电地图。
为了求得最优的无人机飞行路径,无人机在满足良好的UAV-GBS 连接质量的约束前提下,最小化任务执行过程中的飞行能耗,于是优化问题可以表示为:
由于优化问题的非凸性和较大的搜索空间,传统的优化方法很难得到最优解。为了求解该问题,在下一节中提出了一种基于地图重构的深度强化学习路径规划方法。
3 基于地图重构的深度强化学习路径规划方法
在本节中,首先提出了基于深度图像先验(DIP,Deep Image Prior)的地图重构算法。随后基于重构地图利用D3QN 算法进行路径规划。无人机通过尝试不同的动作(action),从反馈(reward)中学习,然后加强动作,直到动作产生最佳的反馈。本文所提出的基于地图重构的深度强化学习路径规划方法流程如图2 所示。
图2 DIPRMR-D3QN路径规划方法流程图
3.1 基于深度图像先验的地图重构算法
卷积神经网络在图像重构方面具有较好的性能,它通过从大量的训练样本中进行学习来逼近原图像。然而,生成器网络在未经学习的情况下也能包含大量的低级图像信息,即生成器网络具有先验特性,不需要训练集和未损坏的原始图像并训练,只需要通过一张待重构的退化图像作为输入,便可以对其进行恢复。在此基础上,本文提出了一种基于深度图像先验的无线电地图重构(DIPRMR,Deep Image Prior based Radio Map Reconstruction)算法。待重构的无线电地图定义为R∈Cm×n,即:
在DIPRMR 算法中,低分辨的输入图像为无人机采样得到的稀疏无线电地图。将采样倍率(需重构的地图的长和宽上像素点数量减少的倍数)定义为s,于是采样得到的地图表示为y0∈R(m/s)×(n/s)。将重构倍率(重构后的地图像素点数量与重构前的比值)定义为u,则重构得到的地图y表示为y∈Ru(m/s)×u(n/s)。因此,重构任务中的数据项为:
其中d(·) :y∈ Ru×(m/s)×u×(n/s)→y0∈R(m/s)×(n/s)将 图像大小 调整为(m/s) ×(n/s)。最后,通过迭代求解找到重构后与低分辨图像y0相似的高分辨图像y,即:
算法具体步骤如算法1 所示。
算法1 基于深度图像先验的地图重构算法(DIPRMR)
3.2 基于D3QN的无人机路径规划方法
在本文所考虑场景中,无人机的路径规划问题可以表示为一个马尔可夫决策过程(MDP,Markov Decision Process)。用一个四元组变量表示MDP:状态S,动作A,状态转移概率P和反馈R。其中,状态空间包含了无人机在给定飞行区域内的所有可能的位置;动作空间A包含无人机的飞行方向;状态转移概率P根据当前状态和后续飞行方向确定;反馈函数R定义为,其中μ是无人机在停机时产生的惩罚,设置为一个较大的常数。算法具体步骤如算法2 所示。
算法2 基于D3QN 的无人机在线路径规划方法(DIPRMR-D3QN)
不同于传统方法,算法2 中无人机不需要直接与环境交互,而是在无人机执行任务前就重建一个与实际环境高度吻合的无线电地图。在强化学习中,智能体直接从无线电地图中提取数据,获得经验中断概率,从而获得反馈值,利用训练数据调整无人机的飞行路径。
由于该问题中的状态空间和动作空间是连续的,本文在保持状态空间连续的同时,将动作空间A离散为四个飞行方向,即。动作空间的离散化使得动作值函数的状态输入是连续的,动作输出是离散的。本文采用Dueling Double DQN(D3QN)网络架构。在每一集的每一步中,将无人机的状态,即无人机的当前位置设置为神经网络的输入,输出为无人机的飞行方向。最终基于训练得到的神经网络,无人机能够根据无线电地图,在任意位置选择出最佳飞行方向,从而完成路径规划。
4 仿真结果与分析
在本节中,对所提出的算法进行仿真实验。考虑一个2 km×2 km 包含高层建筑的区域。假设在该区域内部署了2 个GBS,其天线高度设为25 m。为了计算无人机从每个基站接收到的信号强度,首先根据建筑遮挡情况判断无人机与每个BS 之间是否存在LoS 链路,然后计算UAV-GBS 的路径损耗。为了准确模拟给定环境下的UAV-GBS 信道,基于国际电信联盟(ITU)提出的统计模型来生成建筑物的位置和高度。假设建筑物覆盖的土地面积占总土地面积的比例αbd=0.3;单位面积建筑的平均数βbd=300;建筑高度分布的参量γbd=50 m,且建筑高度不超过90 m。将与基站的连通性权重设置为一个较大的值,以保证无人机与地面良好的通信连接。最后,假设该区域的每个维度上有201 个数据点,即m=n=201。因此数据点总数为201×201。
图3 比较了采样倍率分别为s=2,4,8,16 时基于DIPRMR 重构得到的地图(分别用DIP2、DIP4、DIP8 和DIP16 表示)和s=4 时基于球面变异函数模型的Kriging 算法重构得到的地图(用SPH4 表示)的峰值信噪比(PSNR,Peak Signal to Noise Ratio)。结果表明PSNR 随着采样倍率的增加而降低。采样倍率相同时,DIPRMR 算法重构的无线电地图的PSNR 明显高于Kriging 算法。因此,与Kriging 算法相比,本文所提方法能够达到更好的地图重构效果,且采样点越多,重构效果越好。
图3 不同采样倍率下重构地图的峰值信噪比
图4 比较了不同采样倍率下,基于不同重构方法得到的地图飞行的平均中断概率与实际平均中断概率的归一化均方误差(NMSE)。结果表明NMSE 随着采样倍率的增加而增加。并且,在相同采样倍率下,所提出的DIPRMR 重构算法的NMSE 最小。因此,本文所提方法较对比算法而言,能够更加准确地还原实际环境中的中断概率分布情况,并且采样点越多,重构得到的地图与原地图的误差越小。
图4 不同采样倍率下各重构方法平均中断概率与实际值的NMSE
图5 比较了不同采样倍率和重构方法下无人机到达目的地的每条路径的总中断时间,单位为秒(s)。结果表明,在本文所提方法下无人机成功到达目的地的中断时间与重构的无线电地图密切相关,中断时间随着采样倍率的增加而增加。在采样倍率相同时,基于DIPRMR算法重构的无线电地图训练的无人机轨迹的中断时间比Kriging 算法短。因此,由本文所提方法重构得到的无线电地图能够更加准确地反映真实的无线环境,从而使得无人机在飞行中能够与基站保持更好的通信连接。
图5 不同采样倍率下无人机到达目的地的总中断时间
图6 为通过D3QN 算法得到的无人机路径。其中对比了无人机在基于无线电地图情况下的飞行路径(图6(a))和在实际环境直接飞行的飞行路径(图6(b))。结果表明,两种训练情况下的路径趋势是一致的。在选择路径时,无人机往往会经由通信覆盖率大的区域到达目的地,并且几乎不浪费步数。因此,本文所提地图重构方法能够使得无人机学得接近最优的路径,并保持与蜂窝基站的良好连接,降低飞行能耗。
图6 D3QN算法下无人机基于重构地图的飞行路径与直接飞行路径比较
5 结束语
本文研究了无线电地图重构以及基于重构的地图进行无人机路径规划的问题。考虑到无人机在任务执行过程中复杂的城市通信环境,无人机通过所提的DIPRMR算法重构无线电地图,进而基于D3QN 算法学习最优路径规划策略,从而在保证任务期间与相关基站可靠连接的情况下,最小化总飞行能耗。为了克服传统的基于优化的路径规划方法的局限性,本文提出了基于DRL 的路径规划算法,该算法只需要无人机的信号测量作为输入。仿真结果表明,无人机可以基于重构的无线电地图进行路径规划,从而提高了无人机的工作效率并降低执行任务的复杂度。本文提出的基于DIP 的地图重构算法能够有效还原实际环境的中断概率情况。并且,基于DIPRMRD3QN 算法,无人机能够降低飞行能耗,并且保持与地面基站的可靠通信连接。