为了得到上行接入,每一个问题
n
∈
N调度请求eLAA BS,负责分配资源。授予上行资源之前,eLAA BS必须经历carrier-sensing过程在其覆盖范围限制。一旦通道是明确的,上行传输的储备资源。然后,听之前的预定用户执行新一轮谈话过程传输之前。如果用户从隐藏节点检测传输,附近的WiFi APs eLAA carrier-sensing范围外的废话,然后保留上行资源无照乐队无法访问。
我们假设BS和之间的通道
nth问题,表示
h
n
t,根据高斯马尔可夫块衰落的发展自回归模型(
21)如下:
(1)
h
n
t
=
ρ
n
h
n
t
−
1
+
1
−
ρ
n
2
e
t
,在哪里
ρ
n是归一化通道槽之间相关系数
t和
t
−
1。从杰克的衰落频谱,
ρ
n
=
J
o
2
π
f
d
,
n
τ
o在哪里
f
d
,
n,
τ
o,
J
o
⋅多普勒频率,槽时间,第一类零阶贝塞尔函数,分别。这个错误
e
t是一个圆对称的复杂的高斯变量,也就是说,
e
t
∼
C
N
0
,
ϒ
d
/
d
o
α,在那里
ϒ相对应的路径损耗参考距离吗
d
o和
α路径损耗指数。初始化通道
h
n
0
∼
C
N
0
,
ϒ
d
n
/
d
o
α,在那里
d
n的距离
nth b的用户。
让
W
U和
W
l的总带宽授权和许可的乐队,分别。在时间槽
t,让用户的数量与授权和许可的乐队
N
U
t和
N
l
t,分别。如果所有问题授权频带上均匀分配到正交上行资源,然后问题是限制的带宽
(2)
B
l
t
=
W
l
N
l
t
。
同样,期待,总没有执照的带宽是同样问题之间共享在一个虚拟的意义上,那么问题无牌照的带宽乐队可以约束
(3)
B
U
t
=
W
U
N
U
t
。
表示
P和
N
0上行传输能量和噪声谱密度,我们可以计算接收信号的信噪比(信噪比)BS的未经授权的用户
n(假设它占用通道)
(4)
信噪比
n
,
U
t
=
P
h
n
t
2
B
U
t
⋅
N
0
。
同样,为乐队授权用户信噪比
n给药
(5)
信噪比
n
,
l
t
=
P
h
n
t
2
B
l
t
⋅
N
0
。
每一个WiFi APs活动的动力学建模为离散时间两国马尔可夫链如图
2。每个AP可以活跃的(
状态
=
0)或不活跃(
状态
=
1)状态。状态的转移概率
j来
k表示为
(6)
P
j
,
k
=
公关
年代
t
+
1
=
k
∣
年代
t
=
j
,
∀
j
,
k
∈
0
,
1
。
活动模式的无线AP作为两国马尔可夫链。
注意,用户没有WiFi APs的基本动力学的知识活动,即。,过渡概率。
让
τ代表一个活跃的无线AP的传输概率。槽
t,让
N
n
,
续
t的数量竞争活跃APs的感应范围之内
nth问题。假设无线AP的是独立的,所有活动的概率问题
n至少有一个隐藏的节点
(7)
P
n
,
藏
t
=
1
−
1
−
τ
N
n
,
续
t
。
为了计算用户的上行速度(吞吐量),我们将查找表,表中给出
1地图接收的信噪比,频谱效率(SE) [
22]。然后,上行速度问题
n使用未经授权的乐队是给定的
(8)
R
n
,
U
t
=
B
U
t
SE
t
1
−
P
n
,
藏
t
。
查找表SNR-to-spectral效率映射。
指数
最低信噪比(dB)
频谱效率(bps / Hz)
1
−6.7
0.1523
2
−4.7
0.2344
3
−2.3
0.3770
4
0.2
0.6016
5
2.4
0.8770
6
4所示。3
1.1758
7
5.9
1.4766
8
8.1
1.9141
9
10.3
2.4063
10
11.7
2.7305
11
14.1
3.3223
12
16.3
3.9023
13
18.7
4.5234
14
21.0
5.1152
15
22.7
5.5547
同样,上行速度问题
n使用许可的乐队是给定的
(9)
R
n
,
l
t
=
B
l
t
SE
t
。
执行操作后
一个
n
t代理接收二进制观察和奖励从环境中。观察是
o
n
t
=
1如果选择乐队的上行速度超过最低阈值率或
o
n
t
=
0否则。代理的状态被定义为历史的action-observation对长度
H:
(16)
年代
n
t
≜
一个
n
我
,
o
n
我
我
=
t
−
H
t
奖励
根据所选择的行动,代理接收以下标量奖赏:
(17)
如果
一个
n
t
=
未经许可的
,
r
t
+
1
n
=
R
n
,
U
t
,
如果
R
n
,
U
t
≥
R
U
,
最小值
0
,
否则
许可
,
r
t
+
1
n
=
R
n
,
l
t
,
如果
R
n
,
l
t
≥
R
l
,
最小值
0
,
否则在哪里
R
n
,
U
t和
R
n
,
l
t给出了根据方程(
8)和(
9),而
R
U
,
最小值和
R
l
,
最小值是上行最小阈值利率未经授权和许可的乐队,分别。
深层神经网络由多个完全连接层,每个层抽象的某些特性的输入。让
x输入层,而
W和
b分别为权重向量,矩阵和偏见。一层的输出向量,表示
y,在一个完全连接层可以被描述为以下操作:
(18)
y
=
f
W
x
+
b
,在哪里
f是element-wise励磁(激活),增加了非线性。在我们的模拟中,我们输入美国LSTM层隐藏单位的64年,它的输出是美联储与128年和64年两个完全连接隐藏层神经元。输出层产生行动的价值观
问
年代
,
一个两个动作。ReLu激活函数在所有层避免消失梯度问题(
26]。目标网络也采用相同的神经网络结构。
我们比较政策学DRL代理两个基准方案:随机政策和固定的距离政策。在随机的政策,每个用户随机决定选择哪个乐队,在固定的政策,决定基于用户的位置。假设BS知道用户在每个槽的位置
t;因此,BS的距离,只有用户
D米使用未经许可的乐队从基站传输资源,因为他们更容易受到干扰无线ap。其他的传输使用授权频带资源。因为我们假定传输从一个无线AP会影响无证带上行传输的任何用户30米距离内,根据节点的部署图
5在固定用户提供的政策
D
=
20.
米从b被分配到未经授权频带资源。每个代理商的培训DRL政策应该学习这个距离没有任何先验的假设而选择的乐队。此外,通过学习APs的活动,代理应该动态选择。
图
6比较了每个用户的平均成功率不同阈值的用户在历史长
H
=
5,
λ
=
0.5
×
10
−
2,
R
l
,
最小值
=
R
U
,
最小值
=
4
Mbps。动态DRL代理接受大约90%的成功率,优于固定用户基于距离的政策我们设置的阈值。固定的基于距离的获得政策归因于两个因素。第一个是DRL代理商,之前没有任何假设,学习的最佳距离
d
∗从b波段选择做出决定。换句话说,如果用户
n
∈
N坐落在最优距离范围
d
n
>
d
∗,然后传送许可乐队从附近的WiFi APs避免干扰。第二个因素是,特工捕捉的动态时变信道和无线APs的活动,同时利用动态选择乐队。这意味着,在缺乏传播从附近的无线ap,即使
d
n
>
d
∗、用户
n
∈
N利用对无证带传输的机会;因此,避免重载其他用户授权频带。
在图
8,每用户平均吞吐量得到三个政策历史长度
H
=
5,
λ
=
0.5
×
10
−
2,
R
l
,
最小值
=
R
U
,
最小值
=
4
Mbps比较。描述,每用户平均吞吐量达到DRL代理优于其他两个方案。DRL适应不断变化的环境的能力和学习强有力的政策使代理超过一个固定的基于距离的政策不足时的乐队是超载。换句话说,即使有机会传输无牌照乐队,由于不活动附近的无线ap,细胞边缘用户固定的基于距离的政策未能充分利用它。进一步的获得可以通过调优hyperparameters。
每用户平均吞吐量政策的培训过程。
干扰无线APs的数量的影响的性能DRL代理人追究历史长度
H
=
5,
R
l
,
最小值
=
R
U
,
最小值
=
4
Mbps在图
9。随着无线APs的数量增加(当
λ增加),获得由于动态决定带选择减少了未授权频带资源由于竞争者的数量增加。然而,代理仍然保留获得来自学习的最佳波段选择的距离。固定的性能基于距离政策是影响无线APs的数量。