PG-HMI:一种基于互信息的特征选择方法

传统的基于样本的互信息估计方法不能直接处理离散、连续属性混合的情况。本文给出一种能够直接处理混合属性的互信息估计方法(PG法)。为了更好地考虑属性之间的关联,提出名为HMI的特征选择准则。结合PG互信息估计方法和HMI特征选择准则,给出一种新的特征选择方法(PG—HMI)。

互信息可以由熵表示,因此首先讨论统一型熵的计算.计算出相应的熵后,便可得到互信
息。传统的离散熵算法需要开辟额外的内存空间保存联合概率,导致算法的空间复杂度为属性个数的指数函数。通过研究发现,额外开辟内存空间保存联合概率是不必要的。本文提出一种“排序一遍历”式的离散熵算法。此外,特征选择准则既要考虑属性能够提供的新信息量,还要兼顾属性与类别标号属性的相关度。因此,本文提出混合互信息(Hybrid Mutual Information,HMI)特征选择准则。实验结果表明该方法能取得较好的特征选择结果。

PG—HMI法计算复杂度较高,在处理海量样本时能力不足。这时可以用“聚类一采样”的方法降低样本量;或者将连续属性离散化,然后采用较为快速的ST—HMI法。但无论那种方法都会一定程度影响特征选择的效果。如何改进PG—HMI,使之适于海量样本还需进一步研究。

 

anyShare分享到:
This entry was posted in 新闻动态. Bookmark the permalink.

发表评论