上行链路增强型许可辅助访问中分散和动态频段选择：深度加固学习方法

摘要

增强型许可辅助接入(eLAA)是一种运营模式，允许使用未经许可的频带通过载波聚合技术支持长期演进(LTE)业务。额外带宽的扩展有利于满足日益增长的移动业务的需求。在上行eLAA中，由于容易受到WiFi接入点的意外干扰，由基站进行资源调度，再由用户执行LBT (listen before talk)机制，会严重影响资源的利用率。在本文中，我们提出了一种基于分散深度强化学习(DRL)的方法，每个用户独立学习动态频带选择策略，使自己的速率最大化。通过大量的仿真，我们表明提出的基于drl的频带选择方案在支持一定的最低服务质量(QoS)的同时提高了资源利用率。

1.介绍

快速移动流量需求导致可用无线电频谱的稀缺性。为了满足这种不断增长的需求，将像长期演进（LTE）这样的系统扩展到未许可的频谱是通过提供更高的数据速率来提高用户服务质量的有希望的方法之一[1］．在这方面，许可辅助访问（LAA）等举措[2]，LTE-Unlised（LTE-U）[3.[和Multefire（MF）系统[4.]可以提及。然而，本文的重点是LAA系统，3GPP最初在Rel.-13中初始引入和标准化，仅用于下行链路操作[2］．通过使用载波聚合（CA）技术，许可带上的载波主要用于携带控制信号和关键数据，而来自未许可频带的附加辅助载波用于机会地提高用户的数据速率[5.］．遵守区域频谱法规，例如对最大传输权力和渠道占用时间的限制[6.[虽然与WiFi等现有系统相当共存，但是对于LAA基站（BS）必须在通信频段传输之前执行LAA基站（BS）进行侦听[7.-9.］．LAA的增强版本，命名为增强许可辅助接入(eLAA)，支持上行和下行操作，随后在Rel.14中获得批准[10］．在未许可频带上的上行链路ELAA模式旨在满足两个频段的信道访问机制，这意味着BS对预定用户执行LBT并分配上行链路资源，然后调度的用户执行第二轮LBT以检查频道是否在上行链路传输之前是清晰的[11］．研究了由于两轮LBT机制而导致的上行链路信道访问的劣化12-14］．如果计划的用户感知隐藏到BS的活动WiFi接入点（AP），则无法访问通道，浪费保留的上行链路资源。在上行链路ELAA中的基于方法的方法，而存在意外的干扰源，可以显着影响上行链路资源的利用率。

为了提高未授权频带资源的利用率，提出了几种方法。在[15-17，提出了对传统调度方法的简单改进——多子帧调度(MSS)。MSS允许一个单一的上行授权，以表明多个资源分配跨多个子帧。提供多种传播机会可提高资源利用率;但是，如果用户无法访问通道，资源仍然会被浪费。在[14那18，提出了在随机接入和调度之间切换的方案，但他们的重点仅限于未授权的频谱。考虑到隐藏节点的联合许可和未许可频带资源分配的建议见[19]对于下行链路ELAA系统。此外[20.[提出了一种不需要上行链路许可以及对现有LTE系统所需增强的方案。

在本文中，我们尝试了一种新的学习方法，其中每个用户可以独立地使动态频带选择（许可或未许可）用于上行链路传输，而不等待从BS调度。为此，我们将每个用户实施为DRL代理，该代理学习最佳频带选择策略，仅依赖于自己的本地观察，即，没有任何先前的WiFi AP的活动和时变信道条件。通过与环境的持续交互，受隐藏节点影响的潜在用户了解WiFi AP的活动并在频段选择过程中使用它。尽管存在不可预测的隐藏节点，但学习的政策不仅保证了频道访问，还确保了高于特定阈值的传输速率。这种学习方法是处理上行链路ELAA中的潜在资源利用问题的有用手段。

本文的其余部分组织如下。部分2描述论文中考虑的系统模型。部分3.简要介绍深度加强学习（DRL），其次是频带选择问题的DRL制定。还讨论了所提出的深度神经网络架构和培训算法。仿真结果介绍4.，最后的结论是在一节中绘制的5.．

2.系统模型

我们考虑一个单元上行链路ELAA系统，包括ELAA基站（BS）和用户设备(UE)，也可以通过载波聚合技术在未经许可的频带内运行。让表示一组均匀分布在单元和内的用户索引指定一组未许可的带干扰源，例如WiFi接入点（AP），其位于单元的覆盖区域之外一定距离。系统模型如图所示1．

为了获得上行接入，每个终端对ELAA BS进行调度请求，该请求负责分配资源。在授予上行链路资源之前，需要ELAA BS在其覆盖限制内进行载波传感过程。一旦通道清除，它会保留用于上行链路传输的资源。然后，预定用户在传输之前在通话过程之前执行另一轮侦听。如果用户检测到从隐藏节点的传输，则在ELAA BS的载波感测范围之外的附近的WiFi AP，则无法访问在未许可频带上的保留上行链路资源。

我们假设BS和B之间的频道 -你，表示为那根据高斯马尔可夫块衰落自回归模型演化[21)如下: 在哪里是插槽之间的归一化信道相关系数和．从杰克的褪色光谱，在哪里那那和是第一种的多普勒频率，槽持续时间和零阶贝塞尔函数。错误是一个圆对称的复杂高斯变量，即，那在哪里是否与距离相对应的路径损耗和是路径损失指数。频道初始化为那在哪里是距离 -来自BS的用户。

让和分别为未授权和授权频带中的总带宽。在时间槽那允许与未授权和授权频带关联的用户数量和那分别。如果许可频带上的所有UE均匀地分配给正交上行链路资源，那么UE的带宽被约束为

同样，期望在虚拟意义上的UE中总共共享总未许可带宽，然后可以将UE上的UE的带宽被限制为

表示和作为上行链路发射功率和噪声频谱密度，我们可以计算BS的接收信号的信噪比（SNR）用于未许可频带用户（假设它占据频道）

同样，许可乐队用户的SNR被给出

每个WiFi APS活动的动态被建模为离散时间二态马尔可夫链，如图所示2．每个AP可以在活动中（）或不活跃（）状态。从状态转移的概率j到表示为

请注意，用户没有了解WiFi APS活动的底层动态，即转换概率。

让表示有源WiFi AP的传输概率。在插槽中那让是在传感范围内竞争活性AP的数量 -你。假设WiFi AP的所有活动都是独立的，UE的概率至少有一个隐藏节点是

为了计算用户的上行速率（吞吐量），我们将引用在表中给出的查找表1，将所接收的SNR映射到光谱效率（SE）[22］．然后，UE的上行链路率使用未经许可的频带


指数	最小SNR（DB）	光谱效率（BPS / Hz）

1	−6.7	0.1523
2	-4.7	0.2344
3.	-2.3.	0.3770
4.	0．2	0.6016
5.	2.4	0.8770.
6.	4.3	1.1758
7.	5.9	1.4766
8.	8.1	1.9141.
9.	10.3	2.4063
10	11.7	2.7305
11	14．1	3.3223
12	16.3.	3.9023
13	18.7	4.5234
14	21.0	5.1152
15	22.7	5.5547

同样地，UE的上行链路率N使用许可频段

在每个时间段那每个UE的目标是选择最大化上行率的频带。注意，如果一定的频段，例如许可频段被大量UE过载，则频段中用户的单独率将被显着减少。每当AP的非活动时，这将约束每个UE以利用未许可频带。因此，学习WiFi APS的活动和频道条件对于有效地使用上行链路资源，同时提高各个数据速率至关重要。

3.基于drl的分散式动态频带选择

３.１.深度强化学习(DRL):概述

在强化学习(RL)中，智能体通过与环境的顺序交互来学习如何行为。如图所示3.，每次那代理人观察国家那在哪里是状态空间，并执行动作来自行动空间．与环境的交互产生下一个状态和标量奖励．

代理的目标是学习最佳政策，以最大化折扣长期累积奖励，表达为在哪里是折扣因素和是总步骤（地平线）的总步骤[23］．

最广泛使用的无模型RL方法之一是Q-learning，其中agent通过迭代评估状态-动作值函数来学习策略那定义为从状态开始的预期回报那采取行动一种，然后，遵循策略．为了获得最佳政策，在给定的状态下那应该选择最大化状态动作值函数的操作，即，然后同样地在后续状态中遵循最优行为。

在Q-Learning中，构造了一个存储动作值的查找表每个国家行动对（那）。通过迭代地评估Bellman Optimaly方程来更新表的条目，如下所示：在哪里是学习率。但是，Q-Learning中的查找表方法对大状态和动作空间的问题不可扩展。DRL近似于深神经网络（DNN）的价值函数。在Deep Q-Network（DQN）中，动作值函数由DNN估计，由那这将状态作为输入。然后，根据以下选择进行操作 -贪婪的政策：

为了稳定学习过程，通常使用重播缓冲器这家商店过渡并从缓冲区中随机抽取小批量样本进行网络训练。此外，还建立了一个独立的准静态目标网络，由那用于估计下一个状态的目标值。损失函数被计算为

通过以下损失随机梯度进行更新那虽然目标参数根据每一个C脚步 [24］．DQN算法的细节以算法概述了1．

初始化重播缓冲
初始化操作值函数有参数
初始化目标操作值函数有参数
将初始状态输入DQN
为了做
Execute action从使用 -贪婪的政策
Observe和来自环境。
Store the transition进入重放缓冲区
Sample random minibatch of transitions from
Evaluate the target
执行一个梯度下降步骤关于
EveryC步骤，更新目标网络根据
结束

３．２．动态频带选择的DRL配方

每个用户都以DRL实现为DRL，具体由深Q-Network（DQN）代理，依赖于其深神经网络的输出来使许可和未许可之间的动态频带选择决策。DRL制剂如下所述。（一世）行动

在每个时间段那这 -代理商样本动作从行动集 (2)状态

执行动作后那代理从环境中接收二进制观察和奖励。观察是所选频带内的上行链路速率超过最小阈值或否则。代理的状态被定义为具有长度的动作观察对的历史：（iii）报酬

根据所选择的操作，代理将收到以下标量奖励: 在哪里和根据等式给出（8.）和（9.),而和分别是未许可和许可频段上的上行最小阈值速率。

3.3。深神经网络描述

对于动态频带选择，每个UE列达独立DQN。深神经网络的结构如图所示4.．

深神经网络由长短期内存（LSTM）层，完全连接的层和整流的线性单元（Relu）激活功能组成。

长期短期记忆（LSTM(递归神经网络)是一类考虑时间相关性的递归神经网络，用于学习数据序列中的特定模式。最初引入它们是为了克服rnn在反向传播过程中的消失(爆炸)梯度问题。LSTM的细胞(内部记忆)状态受门功能的调节，学习如何将被时间分隔的输入进行聚合，即哪些经历可以保留或丢弃[25］．In our formulation, note that the states of the agents, which are histories of action-observation pairs, have long-term dependency (correlation) emanating from the dynamics of WiFi APs’ activities that follow a two-state Markov property, and the time-varying channel conditions according to Gaussian Markov block-fading autoregressive model. LSTM is crucial for the learning process since it can capture the actual state by exploiting the underlying correlation in the history of action-observation pairs. Therefore, the state must pass through this preprocessing step before it is directly fed to the neural network.

深度神经网络由多个完全连接的层组成，其中每个层摘要输入的某些特征。让是图层的输入，而和是重量矩阵和偏置载体。层的输出矢量表示为那在完全连接的层中可以通过以下操作来描述：在哪里是增加非线性的元件激励(激活)。在我们的模拟中，我们将状态输入到一个隐藏单元为64的LSTM层，其输出被馈送给两个完全连接的隐藏层，分别有128和64个神经元。输出层产生动作值对于这两个行动。所有层上使用Relu激活功能以避免消失的梯度问题[26］．目标网络还采用相同的神经网络结构。

3．4．训练算法描述

根据算法分别训练agent的dqn2．式(14）用于训练DQN。普遍存在的是概要的2．

为了每个特工做
初始化重播缓冲
初始化动作值函数有参数
Initialize target action value function有参数
Generate initial state来自环境模拟器
结束
为了做
为了每个特工做
Execute action从使用 -贪婪的政策
收集奖励和观察
Observe the next state来自环境模拟器
Store the transition成
Sample random minibatch of transitions from
Evaluate the target
执行一个梯度下降步骤关于
EveryC步骤，更新目标网络根据
结束
结束


范围	价值

折扣系数	0．9
学习率	0.01
勘探在 -贪婪的政策	0.05至0.01
目标网络更新频率	300
迷你批量大小	32
重放缓冲尺寸	1000

需要注意的是，这些代理并不完全了解环境，例如其他代理的动作、WiFi ap活动的底层动态以及不同的通道条件。相反，通过与环境的连续交互，每个代理仅根据基站的局部反馈(奖励和观察)来决定波段选择。这大大降低了每个用户的培训复杂性(成本)。此外，由于训练可以离线进行，因此训练的权重可以在部署阶段使用。举重训练很少进行;例如，如果环境发生了显著变化。

4.仿真结果

4．1.仿真设置

对于每个实现，我们首先将10个用户均匀分布在．在距离电池的覆盖区域30米之内，WiFi APS分布在均匀的泊松点过程（PPP）中，速率．数字5.图示了对BS，用户和AP的节点部署的一个实现的网络模型。

我们根据以下转换矩阵设置每个WiFi AP活动的动态：

我们进一步假设用户在未经许可的频带上的上行传输可能会受到任何活跃的WiFi AP的干扰在30米范围内。桌子3.总结了用于评估所提算法的所有仿真参数的值。


范围	价值

无牌照频带的总带宽( ）
持牌频带的总带宽( ）
上行传输功率( ）
接收器噪声功率（）
路径损耗指数( ）
参考距离（）
参考距离信道增益( ）
信道相关系数（）
多普勒频率（）
Active WiFi AP的传输概率（）

4．2.绩效评估

我们将DRL代理学到的政策与两个基准计划进行了比较：随机策略和固定距离策略。在随机策略中，每个用户随机决定哪个频带选择，而在固定策略中，基于用户的位置进行决定。假设BS知道每个插槽的用户的位置 ;因此，来自BS的距离，只有用户内容来自基站的米使用未经许可的频带资源进行传输，因为它们不太容易受到WiFi ap的干扰。其他传输使用许可的频带资源。由于我们假设WiFi AP的传输会影响30m距离内任意用户的无授权频带上行传输，根据图中的节点部署5.，在固定策略用户中从BS分配给未许可的乐队资源。每个代理商的训练有素的DRL政策应该在选择频带时没有任何先前的假设，学习此距离。此外，通过学习APS的活动，代理应该发出动态选择。

数字6.将用户的用户平均成功率与历史长度的不同阈值进行比较那那和．动态DRL代理商招待大约90％的成功率，优先表现出基于固定距离的策略的用户与我们所设置的所有阈值。来自固定距离的政策的增益归因于两个因素。第一个是DRL代理商，没有任何先前的假设，学到最佳距离决定乐队的选择。换句话说，如果用户是否位于最佳距离范围之外那然后它传输许可频段以避免来自附近的WiFi AP的干扰。第二个因素是，代理捕获时变信道和WiFi APS活动的动态，同时在动态选择频带中使用它。它意味着在没有附近的WiFi AP的传输过程中，即使那用户利用在未经许可的乐队上传输的机会;因此，避免在许可带上重载其他用户。

为了进一步研究从频带选择的动态决策中获得的收益，我们在图中评估了不同吞吐量阈值下用户的每用户平均成功率7.．随着阈值（在两个带）从3到5增加，性能（每个用户平均成功率）的间隙也增加。这表明DRL代理商的能力至关重要，在严格的服务质量（QoS）下保持明显的成功率。

在图8.，每个用户的平均吞吐量由历史长度的三个政策获得那那和比较。如图所示，DRL代理实现的每用户平均吞吐量优于其他两种方案。DRL适应环境变化和学习鲁棒策略的能力使代理能够在任意一个频带过载时超过基于固定距离的策略。换句话说，即使有机会在未经许可的频段上传输，由于附近的WiFi ap不活动，基于固定距离政策的蜂窝区边缘用户也无法利用它。进一步的增益可以通过调整超参数得到。

对干扰WiFi AP的数量对DRL代理的性能的影响进行了研究，以进行历史长度那和在图9.．随着WiFi AP的数量增加（何时增加），由于频带选择的动态决策引起的增益减少了因未许可频带资源的竞争者的数量而增加。然而，代理仍然保留了学习频带选择的最佳距离的增益。固定距离的策略的性能不受WiFi AP的数量的影响。

接下来，在图中10，我们比较历史规模对DRL代理的性能的影响。我们观察到较短的历史尺寸往往会收敛相对较快。然而，学习政策的收敛时间的变化是边缘的。这意味着学习策略的收敛时间通常对历史大小敏感。请注意，所有结果都是从三个数值模拟的平均。

5.结论和未来的作品

为了提高上行链路ELAA中的潜在资源利用问题，我们介绍了一种基于学习的完全分散的动态频带选择方案。特别地，采用深度加强学习算法，我们已经实现了每个用户作为基于DQN的输出做出决定的代理，而不等待从BS调度。结果表明，尽管缺乏WiFi APS活动的潜在动态的知识，但DRL代理商成功地学习了强大的政策，以便在频带选择上做出动态决策。由于隐藏的节点，在上行链路ELAA系统中，这种动态和分散的学习方法可以显着提高与未许可频段相关的资源利用问题。在未来的研究中，我们希望将这项工作扩展到更复杂的情景，涉及两个乐队的联合资源分配。此外，为了提高本文提出的增益，应调查不同的架构和近似数指。

数据可用性

我们未使用其他来源的特定数据以进行结果。所提出的算法在Python中实现了TensorFlow库。

利益冲突

作者声明他们没有利益冲突。

致谢

这项工作得到了2019年大脑韩国21加项目的支持。

参考

QualcommUncomcomm Research LTE在未经许可的频谱中：与WiFi和谐共存，Qualcomm，2014年。
3GPP，第三代合作伙伴项目;技术规范组无线接入网;持牌协助接达未持牌频谱研究(第13版)，3GPP，2015，TR 36.889 v13.0.0。
R. Zhang，M. Wang，L. X. Cai，Z. Zheng，X. Shen和L.-1.谢谢，“LTE-Unliced：蜂窝网络的频谱聚集的未来”，IEEE无线通信第22卷第2期3, pp. 150-159, 2015。查看在：出版商的网站|谷歌学术
“MultieRire Alliance形成了为未许可频谱带来增强的无线性能，”https://www.multefire.org/2015/12/16/multefire-alliance-formed-to-bring-enhanced-wireless-performance-to-unlicensed-pectum/．查看在：谷歌学术
3GPP，发展中的通用地面无线电接入(E-UTRA);E-UTRA物理层方面的进一步改进(第9版)，3GPP，2010，TR 36.814 V9.0.0。
etsi，宽带无线电接入网络（麸皮）;5 GHz高性能RLAN，etsi，2014，en 301 893。
B. Li，T. Zhang和Z. Zeng，“LBT，具有自适应阈值，用于未经许可的频谱中的细胞和WLAN的共存，”2016第八届无线通信与信号处理国际会议(WCSP)，pp.1-6，中国扬州，2016年10月。查看在：出版商的网站|谷歌学术
C. K.Kim，C.S. Yang和C. G.Kang，LTE和Wi-Fi系统的自适应倾听（LBT）计划，在未许可乐队中共存，“2016年13日IEEE年度消费者通信与网络会议（CCNC），第589-594页，拉斯维加斯，内华达州，2016年1月。查看在：出版商的网站|谷歌学术
C. S. Yang，C.K.Kim，J. Moon，S. Park和C. G. G.Kang，“渠道访问方案，具有对准参考间隔适应（ARIA）的频率重用，用于解除频段LTE：模糊Q学习方法，”IEEE访问，卷。6，PP。26438-26451,2018。查看在：谷歌学术
3GPP，华为，大猩猩，框架结构3与ELAA的DL和UL子帧设计， 3gpp, 2016, r1-162604。
3GPP，第三代合作伙伴项目;技术规范组无线接入网;发展中的通用地面无线电接入(E-UTRA);物理层程序（第14段），3GPP，2017，TR 36.213，v14.2.0。
G. Bianchi，“IEEE 802.11分布式协调函数的性能分析”，在通信中选定区域的IEEE日记帐第18卷第2期3，页535-547,2000。查看在：出版商的网站|谷歌学术
C. Chen，R. Ratasuk和A. Ghosh，“LTE和WiFi在未经许可的乐队中的下行链路性能分析，具有简单的倾向于谈话计划”，“2015 IEEE 81车辆技术会议（VTC Spring）2015年5月，英国格拉斯哥。查看在：出版商的网站|谷歌学术
Y.高，X.楚和J. Zhang基于Markov Chain的未经许可谱的LAA和WiFi共存的性能分析，“2016 IEEE全球通信大会(globecm)，华盛顿，直流，2016年12月。查看在：出版商的网站|谷歌学术
R.Karaki，J.-f.Cheng，E. Obregon等，“增强许可辅助访问（ELAA）的上行链路性能在未经许可的频谱中，”2017 IEEE无线通信与网络大会(WCNC)，第1-6页，加州旧金山，2017年3月。查看在：出版商的网站|谷歌学术
3GPP，LG电子、高通、中兴通讯《LAA多子帧调度的前进方向》， 3gpp, 2016, r1-161409。
3GPP，爱立信，关于PUSCH的UL通道访问程序， 3gpp, 2016, r1-163150。
S.-Y.Lien，J. Lee和Y.-C。梁，“随机访问或调度：最佳LTE许可辅助访问未许可频谱”IEEE通讯字母，卷。20，没有。3，pp。590-593,2016。查看在：出版商的网站|谷歌学术
T. Zhang，J. Zhao和Y. Chen，“许可辅助访问系统中的隐藏节点意识资源分配”Globecom 2017 - 2017 IEEE全球通信会议，pp.1-6，新加坡，2017年12月。查看在：出版商的网站|谷歌学术
Zhang J.， W. Chang, H. Niu, S. Talarico，和H. Yang，“无授权频谱的LTE无授权上行传输”2017年IEEE 28年度国际人士，室内和移动无线电通信（PIMRC）的国际研讨会，第1-6页，蒙特利尔，QC, 2017年2月。查看在：出版商的网站|谷歌学术
H. A. Suraweera, T. A. Tsiftsis, G. K. Karagiannidis，和A. Nallanathan，“反馈延迟对具有波束形成的放大和转发中继网络的影响”，车辆技术的IEEE交易，卷。60，否。3，pp。1265-1271,2011。查看在：出版商的网站|谷歌学术
h . Zarrinkoub用MATLAB了解LTE：从数学建模到仿真和原型， John Wiley & Sons, 2014。
r。s。萨顿和a。g。巴托，强化学习：介绍，麻省理工学院出版社，1998年。
V. Mnih, K. Kavukcuoglu, D. Silver等人，“通过深度强化学习实现人类水平的控制”，自然，第518卷，第5期。7540, pp. 529-533, 2015。查看在：出版商的网站|谷歌学术
I. Goodfellow，Y. Bengio和A. Courville，深度学习，MIT Press，2016年。
V. Nair和G. Hinton，“修正线性单元改进受限玻尔兹曼机”，发表于第27届机器学习会议（ICML-10）的诉讼程序，pp.807-814，麦迪逊，威尼斯，2010年，2010年。查看在：谷歌学术

无线通信和移动计算