WCMC 无线通信和移动计算 1530 - 8677 1530 - 8669 Hindawi 10.1155 / 2020/5937358 5937358 研究文章 分散和动态频带选择上行增强Licensed-Assisted访问:深强化学习方法 Tilahun Fitsum Debebe https://orcid.org/0000 - 0001 - 7965 - 2826 钟G。 Chowdhury Mostafa Z。 电气工程学院 高丽大学 首尔 韩国 korea.ac.kr 2020年 27 3 2020年 2020年 15 11 2019年 27 01 2020年 11 02 2020年 27 3 2020年 2020年 版权©2020 Fitsum Debebe Tilahun涌g·康。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

增强licensed-assisted访问(eLAA)是一个操作模式,允许使用许可的乐队来支持长期演进(LTE)服务通过载波聚合技术。额外的带宽的扩展是有益的,以满足日益增长的需求移动流量。上行eLAA,容易意外干扰的无线接入点,由基站资源调度,然后执行之前听谈话(LBT)机制,用户可以严重影响资源利用率。在本文中,我们提出一个分散的深层强化学习(DRL)的方法中,每个用户独立学习动态频带选择策略,最大化自己的速度。通过大量的模拟,我们表明,该DRL-based乐队选择方案提高了资源利用率同时支持特定的最低服务质量(QoS)。

大脑韩国21 +项目
1。介绍

快速移动交通需求导致的缺乏可用的无线电频谱。为了满足这种日益增长的需求,扩展系统,如长期演进(LTE)未经授权的频谱是一种有前途的方法来提高用户的服务质量,提供更高的数据速率( 1]。在这方面,行动如licensed-assisted访问(LAA) [ 2),LTE-unlicensed (LTE-U) [ 3],MulteFire (MF)系统( 4可以提到)。然而,本文的重点是对LAA系统,3 gpp最初引入和标准化在Rel.-13下行业务只( 2]。利用载波聚合(CA)技术,航空公司授权乐队主要是用于携带控制信号和关键数据,而其他二级运营商从未经授权的乐队用于说明提高用户的数据速率( 5]。服从区域范围等规定限制最大传输功率和信道占用时间 6]虽然相当与现有系统,如无线共存,这是强制性的LAA基站(BS)来执行之前听对话机制在传输前无照乐队( 7- - - - - - 9]。LAA的增强版,命名为增强licensed-assisted访问(eLAA),支持上行和下行业务后来在Rel.14[批准 10]。上行eLAA模式在没有执照的乐队是为了满足这两个乐队的信道访问机制,这意味着b执行LBT和分配上行资源预定的用户,然后将用户执行第二轮LBT之前检查是否通道是明确的上行传输( 11]。上行信道访问的退化由于两轮LBT机制研究[ 12- - - - - - 14]。如果预定用户感官积极的WiFi接入点(AP)这是隐藏的废话,那么通道无法访问,浪费了上行资源保留。在上行eLAA基于调度的方法,而有意外的干扰来源,可以显著影响上行资源的利用率。

为了提高授权频带资源的利用率,已经提出几种方法。在[ 15- - - - - - 17),multi-subframe调度(MSS),一个简单的修改传统的调度,提出了。海量存储系统(MSS)中使一个上行格兰特表示多个资源分配多个子帧。提供多样化的传播机会可能提高资源利用率;然而,仍然可以被浪费的资源如果用户无法访问渠道。在[ 14, 18),计划之间切换随机访问和调度提出了,但他们的重点是限于未经授权的频谱。联合许可和授权频带资源分配,提出了考虑了一个隐藏的节点( 19下行eLAA系统。此外在[ 20.),一个方案,不需要上行格兰特连同现有的LTE系统所需的增强算法。

在本文中,我们尝试一种新的学习方法,每个用户动态频带选择上行传输独立(许可或授权),而不必等待调度从BS。为此,我们实现了每个用户DRL代理,学习最优波段选择策略只依靠自己的地方观察,即。,没有任何先验知识的WiFi APs的活动和时变信道条件。通过不断与环境的相互作用,影响的潜在用户隐藏节点学习WiFi APs的活动和利用乐队选择过程。学习策略不仅保证通道访问,也确保了传输速率超过一定阈值,尽管存在不可预知的隐藏节点。这样的学习方法是一个有用的手段处理上行eLAA底层资源利用率问题。

剩下的纸是组织如下。部分 2描述了系统模型考虑。部分 3简要概述深度强化学习(DRL),其次是DRL乐队的配方选择问题。提出了深层神经网络结构和训练算法进行了讨论。仿真结果提出了部分 4,最后得出结论 5

2。系统模型

我们考虑一个单细胞上行eLAA系统,包含一个eLAA基站(BS)和 N 用户设备(UE),也可以在无证经营乐队通过载波聚合技术。让 N = 1 , 2 , , N 表示一组用户指标是均匀分布在细胞内 = 1 , 2 , , 指定一组未经授权频带干扰源,如无线访问点(APs)是位于外一定距离内细胞的覆盖范围。系统模型如图 1

上行eLAA系统模型。

为了得到上行接入,每一个问题 n N 调度请求eLAA BS,负责分配资源。授予上行资源之前,eLAA BS必须经历carrier-sensing过程在其覆盖范围限制。一旦通道是明确的,上行传输的储备资源。然后,听之前的预定用户执行新一轮谈话过程传输之前。如果用户从隐藏节点检测传输,附近的WiFi APs eLAA carrier-sensing范围外的废话,然后保留上行资源无照乐队无法访问。

我们假设BS和之间的通道 n th问题,表示 h n t ,根据高斯马尔可夫块衰落的发展自回归模型( 21)如下: (1) h n t = ρ n h n t 1 + 1 ρ n 2 e t , 在哪里 ρ n 是归一化通道槽之间相关系数 t t 1 。从杰克的衰落频谱, ρ n = J o 2 π f d , n τ o 在哪里 f d , n , τ o , J o 多普勒频率,槽时间,第一类零阶贝塞尔函数,分别。这个错误 e t 是一个圆对称的复杂的高斯变量,也就是说, e t C N 0 , ϒ d / d o α ,在那里 ϒ 相对应的路径损耗参考距离吗 d o α 路径损耗指数。初始化通道 h n 0 C N 0 , ϒ d n / d o α ,在那里 d n 的距离 n th b的用户。

W U W l 的总带宽授权和许可的乐队,分别。在时间槽 t ,让用户的数量与授权和许可的乐队 N U t N l t ,分别。如果所有问题授权频带上均匀分配到正交上行资源,然后问题是限制的带宽 (2) B l t = W l N l t

同样,期待,总没有执照的带宽是同样问题之间共享在一个虚拟的意义上,那么问题无牌照的带宽乐队可以约束 (3) B U t = W U N U t

表示 P N 0 上行传输能量和噪声谱密度,我们可以计算接收信号的信噪比(信噪比)BS的未经授权的用户 n (假设它占用通道) (4) 信噪比 n , U t = P h n t 2 B U t N 0

同样,为乐队授权用户信噪比 n 给药 (5) 信噪比 n , l t = P h n t 2 B l t N 0

每一个WiFi APs活动的动力学建模为离散时间两国马尔可夫链如图 2。每个AP可以活跃的( 状态 = 0 )或不活跃( 状态 = 1 )状态。状态的转移概率 j k 表示为 (6) P j , k = 公关 年代 t + 1 = k 年代 t = j , j , k 0 , 1

活动模式的无线AP作为两国马尔可夫链。

注意,用户没有WiFi APs的基本动力学的知识活动,即。,过渡概率。

τ 代表一个活跃的无线AP的传输概率。槽 t ,让 N n , t 的数量竞争活跃APs的感应范围之内 n th问题。假设无线AP的是独立的,所有活动的概率问题 n 至少有一个隐藏的节点 (7) P n , t = 1 1 τ N n , t

为了计算用户的上行速度(吞吐量),我们将查找表,表中给出 1地图接收的信噪比,频谱效率(SE) [ 22]。然后,上行速度问题 n 使用未经授权的乐队是给定的 (8) R n , U t = B U t SE t 1 P n , t

查找表SNR-to-spectral效率映射。

指数 最低信噪比(dB) 频谱效率(bps / Hz)
1 −6.7 0.1523
2 −4.7 0.2344
3 −2.3 0.3770
4 0.2 0.6016
5 2.4 0.8770
6 4所示。3 1.1758
7 5.9 1.4766
8 8.1 1.9141
9 10.3 2.4063
10 11.7 2.7305
11 14.1 3.3223
12 16.3 3.9023
13 18.7 4.5234
14 21.0 5.1152
15 22.7 5.5547

同样,上行速度问题 n使用许可的乐队是给定的 (9) R n , l t = B l t SE t

在每个时间段 t ,每个问题的目标是选择上行速率最大化的乐队。注意,如果一个特定的乐队,如许可乐队,由大量的问题,超载乐队的个人的用户将会显著降低。这将限制每个问题利用无照乐队当APs是不活跃的。因此,学习WiFi APs的活动和信道条件是至关重要的有效使用上行资源在促进个体数据率。

3所示。DRL-Based分散的动态范围选择 3.1。深入强化学习(DRL):概述

在强化学习(RL),代理顺序学习如何通过与环境的交互。如图 3,在每一个时间 t 代理观察状态 年代 t 年代 ,在那里 年代 是状态空间,执行行动 一个 t 一个 从行动空间 一个 。与环境的交互产生下一个状态 年代 t + 1 和标量奖励 r t + 1

强化学习框架。

代理的目的是学习最优政策,最大化长期累积折扣回报,表示为 (10) R t = t 1 T γ t 1 r t + 1 , 在哪里 γ 0 , 1 贴现因子和吗 T 是时间步的总数(层) 23]。

的一个最广泛使用的模范自由RL方法是q学习代理迭代学习政策评估政府行动的价值功能 年代 , 一个 ,定义为预期收益从状态 年代 ,采取的行动 一个后,然后,政策 π 。为了获得最优政策,在给定状态 年代 ,最大化的行动应该选择政府行动的价值函数,也就是说, (11) 一个 年代 = 参数 马克斯 一个 年代 , 一个 然后同样遵循最优行动的继任者。

在q学习,构造一个查找表,存储行动的价值 年代 , 一个 每一个政府行动对( 年代 , 一个 )。更新表的条目通过迭代评估贝尔曼最优方程为: (12) 年代 t , 一个 t 年代 t , 一个 t + β r t + 1 + γ 马克斯 一个 t + 1 年代 t + 1 , 一个 t + 1 年代 t , 一个 t 在哪里 β 0 , 1 是学习速率。然而,查表方法在q学习的不是可伸缩的大型国有和行动空间的问题。DRL接近价值函数与深层神经网络(款)。在深Q-network (DQN)、行为价值函数 年代 , 一个 ; θ 预计到款,参数化 θ 以国家作为输入。然后,根据下面的行动选择 ε 贪婪的政策: (13) 一个 t = 随机 行动 , 一个 概率 ε , 参数 马克斯 一个 年代 , 一个 ; θ , 一个 概率 1 ε

稳定的学习过程,通常使用一个回放缓冲区 D 存储转换 e = 年代 t , 一个 t , r t + 1 , 年代 t + 1 和小批样品是随机从缓冲区来训练网络。此外,一个单独的准静态目标网络,参数化 θ 是用来估计下一个状态的目标价值。损失函数计算 (14) θ = E 年代 , 一个 , r , 年代 D r + γ 马克斯 一个 年代 , 一个 ; θ 年代 , 一个 ; θ 2

θ 更新遵循随机梯度的损失 θ θ β θ l θ ,而目标参数 θ 据更新 θ θ 每一个 C步骤( 24]。DQN算法总结了算法的细节 1

<大胆>算法1。< /大胆> DQN算法。

初始化重播缓冲 D

初始化动作值函数 与参数 θ

初始化目标动作值函数 ^ 与参数 θ = θ

输入DQN的初始状态

t = 1 , 2 , 。。

执行动作 一个 t 使用 ε 贪婪的政策

观察 r t + 1 年代 t + 1 从环境中。

商店的过渡 年代 t , 一个 t , r t + 1 , 年代 t + 1 到重播缓冲区 D

样本的随机minibatch过渡 D

评估目标 y j = r j + γ 马克斯 一个 ^ 年代 j + 1 , 一个 ; θ

执行一个梯度下降步骤 y j 年代 j , 一个 j ; θ 2 关于 θ

每一个 C步骤,更新目标网络 ^ 根据 θ θ

结束了

3.2。DRL动态频带选择配方

每个用户被实现为DRL实验室,特别是由深Q-network (DQN)代理,依靠他们的深层神经网络的输出动态范围选择决策之间的许可和授权。下面是DRL配方。

行动

在每个时间段 t , n th剂样品一个动作 一个 n t 从行动组 (15) 一个 = 许可 , 未经许可的

状态

执行操作后 一个 n t 代理接收二进制观察和奖励从环境中。观察是 o n t = 1 如果选择乐队的上行速度超过最低阈值率或 o n t = 0 否则。代理的状态被定义为历史的action-observation对长度 H : (16) 年代 n t 一个 n , o n = t H t

奖励

根据所选择的行动,代理接收以下标量奖赏: (17) 如果 一个 n t = 未经许可的 , r t + 1 n = R n , U t , 如果 R n , U t R U , 最小值 0 , 否则 许可 , r t + 1 n = R n , l t , 如果 R n , l t R l , 最小值 0 , 否则 在哪里 R n , U t R n , l t 给出了根据方程( 8)和( 9),而 R U , 最小值 R l , 最小值 是上行最小阈值利率未经授权和许可的乐队,分别。

3.3。深层神经网络描述

对于动态频带选择,每个问题独立DQN列车。深层神经网络的结构如图 4

提出了深层神经网络的结构。

长期的深层神经网络由短期记忆(LSTM)层,完全连接层,解决线性单元(ReLu)激活函数。

长时间的短期记忆 (LSTM)是一类递归神经网络(RNNs)是为了学习一种特定模式的数据通过时间序列相关性考虑在内。他们最初引入克服RNNs的消失(爆炸)梯度问题过程中反向传播。受门功能,细胞(内存)的一个LSTM学习如何总输入隔开,即。经验,保持或扔掉 25]。在我们的配方,请注意美国的代理人,action-observation双的历史,长期依赖(相关性)来自WiFi APs的动态活动,遵循两国马尔可夫性质,根据高斯马尔可夫分配和时变信道条件自回归模型。LSTM至关重要的学习过程,因为它可以捕获实际的国家利用底层相关action-observation历史上对。因此,国家必须通过这个预处理步骤之前直接喂给神经网络。

深层神经网络由多个完全连接层,每个层抽象的某些特性的输入。让 x 输入层,而 W b 分别为权重向量,矩阵和偏见。一层的输出向量,表示 y ,在一个完全连接层可以被描述为以下操作: (18) y = f W x + b , 在哪里 f 是element-wise励磁(激活),增加了非线性。在我们的模拟中,我们输入美国LSTM层隐藏单位的64年,它的输出是美联储与128年和64年两个完全连接隐藏层神经元。输出层产生行动的价值观 年代 , 一个 两个动作。ReLu激活函数在所有层避免消失梯度问题( 26]。目标网络也采用相同的神经网络结构。

3.4。训练算法描述

代理的DQNs根据算法单独训练 2。的损失函数方程( 14)用于训练DQN。总结了hyperparameters表 2

<大胆>算法2。< /大胆> DQN训练动态波段选择算法。

每个代理 n N

初始化重播缓冲 D n

初始化动作值函数 n 与参数 θ n

初始化目标动作值函数 ^ n 与参数 θ n = θ n

生成初始状态 年代 n , 1 从环境模拟器

结束了

t = 1 , 2 , 。。

每个代理 n N

执行动作 一个 n , t n 使用 ε 贪婪的政策

收集奖励 r n , t + 1 和观察 o n , t + 1

观察下一个状态 年代 n , t + 1 从环境模拟器

商店的过渡 年代 n , t , 一个 n , t , r n , t + 1 , 年代 n , t + 1 D n

样本的随机minibatch过渡 D n

评估目标 y n , j = r n , j + γ 马克斯 一个 n , j + 1 ^ n 年代 n , j + 1 , 一个 n , j + 1 ; θ n

执行一个梯度下降步骤 y n , j n 年代 n , j , 一个 n , j ; θ n 2 关于 θ n

每一个 C步骤,更新目标网络 ^ n 根据 θ n θ n

结束了

结束了

Hyperparameters。

参数 价值
折现系数 γ 0.9
学习速率 β 0.01
探索 ε ε 贪婪的政策 0.05到0.01
目标网络的更新频率 C 300年
小批量大小 32
重放缓冲 D 大小 1000年

注意,代理没有一个完整的知识环境,如其他代理的作用,潜在的动态无线APs的活动,和不同信道条件。相反,通过顺序与环境的交互,每个代理决定带选择完全基于局部反馈从基站(奖励和观察)。这大大减少了训练复杂度(成本)在每一个用户。此外,由于可以在离线的方式进行训练,训练有素的权重可以在部署阶段使用。再培训的权重是很少;例如,如果环境的显著变化。

4所示。仿真结果 4.1。仿真设置

对于每一个实现,我们首先使10个用户能够均匀分布在一个正方形区域的 One hundred. × One hundred. 。30米距离内细胞的覆盖范围,WiFi APs分布在齐次泊松过程(PPP)率 λ 。图 5展示了一个实现节点部署的网络模型b,用户和APs。

网络模型节点部署(布局)。

我们每个无线AP的动力学活动根据以下转移矩阵: (19) P = 0.7 0.3 0.2 0.8 ,

我们进一步假设一个用户的上行传输无照乐队可以从任何活动干扰无线AP 30米范围内。表 3总结了所有仿真参数的值用于评估算法。

仿真参数。

参数 价值
总带宽无照乐队( W U ) 10 兆赫
总带宽授权乐队( W l ) 10 兆赫
上行传输功率( P ) 20. dBm
接收机噪声功率( N 0 ) 147年 dBm
路径损耗指数( α ) 3.76
参考距离( d o ) 1
通道增益在参考距离( ϒ ) 35.3 dB
通道相关系数( ρ n ) 0.95
多普勒频率( f d , n ) 70年 赫兹
传播的概率有源无线AP ( τ ) 0.7
4.2。绩效评估

我们比较政策学DRL代理两个基准方案:随机政策和固定的距离政策。在随机的政策,每个用户随机决定选择哪个乐队,在固定的政策,决定基于用户的位置。假设BS知道用户在每个槽的位置 t ;因此,BS的距离,只有用户 D 米使用未经许可的乐队从基站传输资源,因为他们更容易受到干扰无线ap。其他的传输使用授权频带资源。因为我们假定传输从一个无线AP会影响无证带上行传输的任何用户30米距离内,根据节点的部署图 5在固定用户提供的政策 D = 20. 从b被分配到未经授权频带资源。每个代理商的培训DRL政策应该学习这个距离没有任何先验的假设而选择的乐队。此外,通过学习APs的活动,代理应该动态选择。

6比较了每个用户的平均成功率不同阈值的用户在历史长 H = 5 , λ = 0.5 × 10 2 , R l , 最小值 = R U , 最小值 = 4 Mbps 。动态DRL代理接受大约90%的成功率,优于固定用户基于距离的政策我们设置的阈值。固定的基于距离的获得政策归因于两个因素。第一个是DRL代理商,之前没有任何假设,学习的最佳距离 d 从b波段选择做出决定。换句话说,如果用户 n N 坐落在最优距离范围 d n > d ,然后传送许可乐队从附近的WiFi APs避免干扰。第二个因素是,特工捕捉的动态时变信道和无线APs的活动,同时利用动态选择乐队。这意味着,在缺乏传播从附近的无线ap,即使 d n > d 、用户 n N 利用对无证带传输的机会;因此,避免重载其他用户授权频带。

每用户平均成功率的培训过程。

进一步调查获得来自动态决定带选择,我们评估每用户平均成功率不同用户的吞吐量阈值在图 7。随着阈值(超过两支乐队)从3增加到5,对性能的差距(每用户平均成功率)也会增加。这表明DRL代理的能力是至关重要的维持可观的成功率在严格的要求下的服务质量(QoS)。

每用户平均成功率不同阈值的训练过程。

在图 8,每用户平均吞吐量得到三个政策历史长度 H = 5 , λ = 0.5 × 10 2 , R l , 最小值 = R U , 最小值 = 4 Mbps 比较。描述,每用户平均吞吐量达到DRL代理优于其他两个方案。DRL适应不断变化的环境的能力和学习强有力的政策使代理超过一个固定的基于距离的政策不足时的乐队是超载。换句话说,即使有机会传输无牌照乐队,由于不活动附近的无线ap,细胞边缘用户固定的基于距离的政策未能充分利用它。进一步的获得可以通过调优hyperparameters。

每用户平均吞吐量政策的培训过程。

干扰无线APs的数量的影响的性能DRL代理人追究历史长度 H = 5 , R l , 最小值 = R U , 最小值 = 4 Mbps 在图 9。随着无线APs的数量增加(当 λ 增加),获得由于动态决定带选择减少了未授权频带资源由于竞争者的数量增加。然而,代理仍然保留获得来自学习的最佳波段选择的距离。固定的性能基于距离政策是影响无线APs的数量。

数量的WiFi APs对每个用户的平均成功率。

接下来,在图 10,我们比较历史的影响大小DRL代理的性能。我们观察到较短的历史大小往往收敛相对更快。学习策略的收敛时间的变化但是边际。这意味着的收敛时间学习历史政策通常是不那么敏感的大小。注意,所有的结果是平均三个数值模拟。

历史的大小对收敛的影响的培训。

5。结论和未来的工作

改善上行eLAA底层资源利用率问题,我们提出了学习型完全分散动态频带选择方案。特别是,采用深强化学习算法,我们实现了每个用户代理作出决定基于DQN的输出,而不必等待调度从BS。结果表明,尽管缺乏WiFi APs的基本动力学的知识活动,DRL代理成功地学习一个健壮的政策动态决定带选择。这样的动态和分散的学习方法可以显著提高资源利用率的问题与无照乐队,由于隐藏节点,在上行eLAA系统。在未来的研究中,我们希望将这项工作扩展到更复杂的场景,包括联合资源分配在两个乐队。此外,改善获得提出,不同的体系结构和hyperparameters应该调查。

数据可用性

我们没有使用特定的数据从其他来源的模拟结果。该算法实现与TensorFlow python库。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是支持的大脑2019年韩国21 +项目。

高通 高通研究LTE无照谱:WiFi的和谐共处 2014年 高通 3 gpp 第三代合作伙伴项目;技术规范集团无线接入网络;研究许可辅助访问未经授权的频谱;(13)发布 2015年 3 gpp TR 36.889 V13.0.0 R。 M。 l . X。 Z。 X。 l l。 LTE-unlicensed:频谱聚合为蜂窝网络的未来 IEEE无线通信 2015年 22 3 150年 159年 10.1109 / MWC.2015.7143339 2 - s2.0 - 84936863886 MulteFire联盟形成增强无线性能未授权的频谱 https://www.multefire.org/2015/12/16/multefire-alliance-formed-to-bring-enhanced-wireless-performance-to-unlicensed-spectrum/ 3 gpp 进化的通用陆地电台访问(进阶);进一步发展进阶物理层方面(版本9) 2010年 3 gpp TR 36.814 v9.0.0 ETSI 宽带无线接入网络(麸);5 GHz高性能RLAN 2014年 ETSI EN 301 893 B。 T。 Z。 LBT共存与自适应阈值细胞和WLAN的未经授权的频谱 2016年第八届国际会议上无线通信与信号处理(WCSP) 2016年10月 扬州,中国 1 6 10.1109 / WCSP.2016.7752637 2 - s2.0 - 85006760144 c K。 c·S。 c·G。 自适应listen-before-talk (LBT)方案LTE和wi - fi系统共存没有执照的乐队 13 IEEE 2016年度消费者通信与网络会议(CCNC) 2016年1月 内华达州拉斯维加斯 589年 594年 10.1109 / CCNC.2016.7444845 2 - s2.0 - 84966573773 c·S。 c K。 月亮 J。 公园 年代。 c·G。 信道接入方案与对齐参考区间适应(咏叹调)无照乐队LTE的频率复用:模糊q学习方法 IEEE访问 2018年 6 26438年 26451年 3 gpp、华为、HiSilcon 框架结构设计3 DL和UL eLAA子帧 2016年 3 gpp r1 - 162604 3 gpp 第三代合作伙伴项目;技术规范集团无线接入网络;进化的通用陆地电台访问(进阶);物理层过程(14)发布 2017年 3 gpp 36.213 TR, V14.2.0 比安奇 G。 性能分析的IEEE 802.11分布式协调功能 IEEE在选定地区通讯》杂志上 2000年 18 3 535年 547年 10.1109/49.840210 2 - s2.0 - 0033749075 程ydF4y2Ba C。 Ratasuk R。 戈什 一个。 LTE下行性能分析和WiFi共处无照乐队用一个简单的listen-before-talk方案 2015年IEEE 81车辆技术会议(职业训练局春天) 2015年5月 英国格拉斯哥 10.1109 / VTCSpring.2015.7145789 2 - s2.0 - 84940399338 Y。 X。 J。 性能分析LAA和WiFi共存的未经授权的频谱基于马尔可夫链 2016年IEEE全球通信会议(GLOBECOM) 2016年12月 华盛顿特区 10.1109 / GLOCOM.2016.7842129 2 - s2.0 - 85015397309 卡拉奇 R。 肯尼迪。 Obregon E。 穆克吉 一个。 d . H。 Falahati 年代。 Koorapaty H。 Drugge O。 上行性能增强的授权协助访问(eLAA)在未经授权的频谱 2017年IEEE无线通信和网络会议(WCNC) 2017年3月 旧金山, 1 6 10.1109 / WCNC.2017.7925553 2 - s2.0 - 85019698003 3 gpp LG电子(LG Electronics)、高通和中兴通讯“multi-subframe调度在LAA前进” 2016年 3 gpp r1 - 161409 3 gpp,爱立信 PUSCH UL频道访问程序 2016年 3 gpp r1 - 163150 留置权 S.-Y。 J。 研究。 随机存取或调度:最佳LTE licensed-assisted访问未经授权的频谱 IEEE通信信 2016年 20. 3 590年 593年 10.1109 / LCOMM.2016.2516527 2 - s2.0 - 84963614871 T。 J。 程ydF4y2Ba Y。 隐藏节点知道licensed-assisted访问系统资源分配 GLOBECOM IEEE 2017 - 2017全球通信会议 2017年12月 新加坡 1 6 10.1109 / GLOCOM.2017.8254613 2 - s2.0 - 85046423181 J。 W。 妞妞 H。 Talarico 年代。 H。 Grant-less为LTE上行传输光谱在无照经营 2017年IEEE 28日年度个人国际研讨会,室内,和移动无线电通信(PIMRC) 2017年2月 蒙特利尔,质量控制 1 6 10.1109 / PIMRC.2017.8292567 2 - s2.0 - 85045277051 Suraweera h·A。 Tsiftsis t。 Karagiannidis g·K。 Nallanathan 一个。 反馈延迟对amplify-and-forward继电器的影响与波束形成网络 IEEE车辆技术 2011年 60 3 1265年 1271年 10.1109 / TVT.2011.2112786 2 - s2.0 - 79952846691 Zarrinkoub H。 理解与MATLAB LTE:从数学建模、模拟和原型 2014年 约翰威利& Sons 萨顿 r S。 Barto a·G。 强化学习:介绍 1998年 麻省理工学院出版社 Mnih V。 Kavukcuoglu K。 D。 Rusu 答:一个。 Veness J。 Bellemare m·G。 格雷夫斯 一个。 Riedmiller M。 Fidjeland 答:K。 Ostrovski G。 彼得森 年代。 贝蒂 C。 沙迪克 一个。 Antonoglou 我。 H。 库玛 D。 Wierstra D。 莱格 年代。 哈萨比斯 D。 人类控制通过强化学习 自然 2015年 518年 7540年 529年 533年 10.1038 / nature14236 2 - s2.0 - 84924051598 25719670 格拉汉姆·古德费勒 我。 Bengio Y。 考维尔 一个。 深度学习 2016年 麻省理工学院出版社 奈尔 V。 辛顿 G。 修正线性单位提高限制玻耳兹曼机 学报》第27届国际会议上机器学习(ICML-10) 2010年 麦迪逊,美国WI 807年 814年