我们认为累积剩余熵(CRE)是一种最近引入的熵的度量。在以前的工作中,我们考虑了具有正支持的分布,我们将CRE的定义推广到具有一般支持的分布的情况。我们证明了早期CRE的几个有趣的性质仍然有效,并为诸如最大CRE功率矩问题提供了进一步的性质和见解。此外,我们还证明了这种广义CRE可以作为差分熵的替代来导出基于信息的优化准则,用于系统识别目的。
1.介绍
熵的概念对于在许多工程领域的研究中是重要的,例如热力学,力学或数字通信。早期定义熵的衡量标准是香农熵[<一个href="#B1">1一个>,<一个href="#B2">2一个>].在香农的方法中,离散值和绝对连续分布分别通过熵和微分熵以不同的方式处理。在微分熵的定义中,考虑互补累积分布函数(CCDF)代替概率密度函数,产生了一种新的熵测度——累积剩余熵(CRE) [<一个href="#B3">3.一个>,<一个href="#B4">4一个>].在[<一个href="#B3">3.一个>,<一个href="#B4">4一个>], CRE定义为
在哪里
是随机矢量的尺寸
.显然,这个公式对于离散的或绝对连续的随机变量(RV)都有效,或者对于离散的和绝对连续的部分都有效,因为它依赖于的CCDF
|
|
.此外,与香农差动熵不同,它总是积极的,同时保留香农熵的许多有趣的属性。CRE的概念在可靠性领域找到了很好的解释和应用程序(见[<一个href="#B5">5一个>],其中引入动态CRE的概念)和图像对齐[<一个href="#B3">3.一个>].
gydF4y2Ba当熵的阶数趋于1时,香农熵可以看作是指数熵的一种特殊情况。因此,在[<一个href="#B4">4一个>,是指数熵的一种修正版本,其中PDF被CCDF取代。<一个href="#B6">6一个>,从而产生了新的熵型度量,称为生存熵。
gydF4y2Ba然而,Rao等人都是Zografos和Nadarajah的CRE及其指数熵概括,导致熵类型定义,该定义假设积极有价值的RV或适用于
|
|
否则。尽管对许多应用来说正的情况是非常有趣的,但CRE和指数熵在处理支持不限于正值的rv时带来了困难。
gydF4y2Ba在本文中,我们证明了对于一个RV
, (<一个href="#eq1">1一个>)仍然存在有效的表达
(
|
|
>
)
取而代之的是
(
>
)
然后积分完成
ℝ
,除了在[<一个href="#B4">4一个>].此外,这个CRE定义扩展还支持一些理想的属性。我们也完成了功率矩约束的最大CRE分布问题。<一个href="#B7">7一个>],对于具有较低无界支持的分布类。最后,我们说明了所提出的广义CRE(GCRE)对基于互信息的估计问题的差分熵的潜在优势。
gydF4y2Ba本文的组织结构如下。部分<一个href="#sec2">2一个>介绍了GCRE的定义。第一部分讨论了GCRE的一些性质<一个href="#sec3">3.一个>.在部分<一个href="#sec4">4一个>,引入累积熵率和互信息率。部分<一个href="#sec5">5一个>研究最大GCRE分布。为了说明GCRE的潜力,在章节中<一个href="#sec6">6一个>,我们通过一个简单的例子展示了GCRE对系统识别的可能好处。
2.广义累积剩余熵(GCRE)
我们将表示
(
)
多元RV的互补累积分布函数(生存函数)
=
[
1
,
...
,
]
维度
:
(
)
=
(
>
)
=
(
>
,
=
1
,
...
,
)
.我们表示
(
)
的GCRE
我们所定义的
显然,像CRE一样,GCRE是一个正且凹形的功能
.此外,可以在没有进一步假设的情况下建立GCRE的存在,而不是在[<一个href="#B4">4一个>].
定理1。
如果由于某种
>
,
[
|
|
]
<
∞
.我>
证明。我>首先让我们备注从克雷存在的证明<一个href="#B4">4一个>时,证明结果是充分的
是标量RV,也就是说
=
1
,而对于
>
1
.然后,放手
−
1
<
<
1
,
我们使用以下不等式:
在哪里
1
我
(
)
=
1
如果
∈
和
1
我
(
)
=
0
否则。的存在
∫
ℝ
(
−
1
/
(
1
−
)
)
[
(
)
]
1
我
[
0
,
∞
[
(
)
可以证明是如此<一个href="#B4">4一个>].现在,让
=
−
, 我们有
因此,
最后,将所有件放在一起,最后证明了右侧的趋同(<一个href="#eq2">2一个>).
3. GCRE的几个属性
现在让我们展示一些更有趣的GCRE特性。首先,很容易检查像香农熵一样,GCRE相对于变量平移保持不变:
同样,很明显
什么时候
<
0
我们没有这么好的性质。然而,让我们考虑一个重要的特殊情况,其中的分布
有对称的形式吗
在本例中,我们得到以下结果。
定理2。对于一个房车
满足对称性(<一个href="#eq8">8一个>),一个人我>
证明。我>因为它很清楚所有
∈
ℝ
+
,
(
)
=
(
)
我们只需要检查一下
(
−
)
=
(
)
,其建立方法如下:
当矢量的条目时
是独立的,这已经在[<一个href="#B4">4一个>]如果
是负的,那么
但是,该公式不会延伸到RVS与携带的分布
ℝ
因为
(
)
可以在
ℝ
+
一般但永远不会结束
ℝ
.然而,如果
S是独立的,并且有各自下界的下界支持
1
,
...
,
,
因为
条件GCRE定义是条件CRE定义的直接延伸:条件GCRE
知道
等于
是由的
我们记得[<一个href="#B4">4一个>],表明条件反射减少了熵。
定理3。对于任何一个
和
,
当且仅当相等成立
是独立于
.我>
因此,如果
→
→
是马尔可夫链,我们有GCRE的数据处理不等式:
随机过程的GCRE
{
}
是由的
当极限存在时。
定理4。对于平稳过程,极限存在。我>
证明。我>考虑
第一行遵循调节减少熵,第二个是从实况性的下列(见[<一个href="#B2">2一个>],在香农熵情况下的等价证明)。
4.2。互信息
让
和
是两个旅游房车。我们定义了累积互信息之间
和
如下:
定理5。
是非负,如果才能才能消失
和
是独立的。我>
证明。我>很明显
由于定理是非的<一个href="#thm3">3.一个>.
对于一个随机向量
=
(
1
,
2
,
...
,
)
大小
,互信息定义为
在随机过程中
{
}
, 我们有
(
)
=
l
我
米
→
∞
(
|
−
1
,
...
,
1
)
静止过程存在限制。然后是相互信息率
{
}
被定义为
在哪里
(
)
是这个过程的边际GCRE吗
.
5.最大GCRE分布
在这一节中,我们只考虑一维RVs (
= 1).最大熵原理在许多科学领域都很有用,最重要的分布可以从它得到[<一个href="#B8">8一个>].已经研究了最大CRE分布[<一个href="#B7">7一个>].对于一个房车
对称的CCDF (<一个href="#eq8">8一个>),我们正在寻找最大的GCRE分布,即解决问题的CCDF问题:
在哪里
(
)
=
−
(
/
)
(
)
,
(
)
=
1
,
,
(
)
=
1
,
是固定的
1
实值函数和实系数。这个问题的解由下面的结果提供。
定理6。当对称性(<一个href="#eq8">8一个>)持有问题的解决方案(<一个href="#eq22">22一个>),当它能达到时,是形式我>
证明。我>
让我们定义
通过
然后,自
(
(
)
)
=
−
(
)
,Euler-拉格朗日方程[<一个href="#B9">9一个>]表示解决方案
的问题(<一个href="#eq22">22一个>)是等式的解决方案
在哪里
是偏导数吗
关于分量
.从(<一个href="#eq25">25一个>),我们得到
然后,
为
∈
[
,
∞
[
.
5.1.例子
我们设置约束条件
[
]
=
和
[
2
]
=
2
.然后是CCDF的最大GCRE对称解决方案<我>X是由
为
>
0
,是物流配送的CCDF。力矩约束导致
1
+
2
2
√
=
(
3.
/
)
(
−
)
.上定义了相应的PDF
ℝ
通过
5.2。正随机变量
它已在[<一个href="#B7">7一个>],最大CRE(即附加非负约束下的最大GCRE)分布具有CCDF形式
为
∈
[
0
,
∞
[
.在[<一个href="#B7">7一个>,这个结果是由对数和不等式推导出来的,当然也可以由欧拉-拉格朗日方程推导出来,这与定理证明的思路相同<一个href="#thm6">6一个>.
gydF4y2Ba在正支撑约束条件下,在一、二阶矩约束条件下,得出了最优CCDF的形式
(
)
=
e
x
p
(
−
1
−
2
2
)
,
为
>
0
.因此,如果解存在,它就是指数分布。事实上,第一和第二次幂矩约束必须是这样的
[
2
]
=
2
(
[
]
)
2
,否则问题就没有确切的解决方案。
6.仿真结果
为了强调GCRE的潜在实际兴趣,我们考虑一个简单的系统识别问题。在这里,我们考虑一个
(
1
)
过程中,用
=
(
)
∈
ℤ
由白噪声产生
=
(
)
∈
ℤ
被白噪音污染了
:
模型的输入
和输出
和系统模型(
(
1
)
)被认为是已知的。我们要估计系数
没有事先知道的分布
和
.因此,我们借助于互信息(MI)来进行估计
作为系数
这样旅游房车
=
−
−
1
和
显示最高的依赖。香农界之间
和
是由
(
)
=
(
,
)
=
(
)
−
(
|
)
, 在哪里
是香农微分熵。同样,对于GCRE, MI将被定义为
(
)
=
(
,
)
=
(
)
−
(
|
)
.我们比较估计性能
通过最大化
(
)
和
(
)
.因为真值
(
)
和
(
)
是不可用的,它们是根据经验分布估计的
(
,
)
.
gydF4y2Ba对于模拟,我们选择了
高斯和
拉普拉斯分布:
(
)
=
(
/
2
)
e
x
p
(
−
|
|
)
.我们考虑一个实验
=
0
.
5
噪声方差等于0。2。估计是根据观察来进行的
(
,
)
=
1
,
4
0
0
.这里,MIs的优化是在间隔为[0,1]的200个固定规则网格上实现的。通过200个连续实验计算估计性能。估计
从Shannon MI导致偏差和标准差分别为0.032和0.18,而GCRE MI分别为0.004和0.06。
gydF4y2Ba更重要的是,我们看到了图<一个href="//www.newsama.com/journals/jece/2008/fig1/" target="_blank">1(一)一个>Shannon MI估计比GCRE MI更不规则(图<一个href="//www.newsama.com/journals/jece/2008/fig1/" target="_blank">1 (b)一个>)的估计,这是由于密度积分在计算CCDF时带来的平滑。这种差异很重要,因为使用迭代局部优化技术通常无法找到Shannon估计的MI全局最优,因为它有许多局部极大值。
(一)
(b)