数学天元2017统计学青年骨干教师培训班-第三天

今天的课程,耿教授向我们介绍了针对“不完全数据”的处理方法。

微信图片_20170721042247

对于缺失数据处理的特别方法分为两种:删除有缺失数据的个体和填补缺失数据两种。当缺失数据比例很小的时候,删除个体也许是较为合理的方法。

但当数据缺失比例较高的时候,就需要使用填补数据的方法。[1]耿教授认为填补数据方法将会破坏观测数据的相关性。填补平均值将减小变量间的相关性,而用回归填补将增大观测的相关性。另外,进行缺失填补后,我们一般会把填补的数据视为真是的观测数据进行分析。采用标准的完全数据方法得到的标准误差,p值和其他不确定的度量也许会导致错误。

针对以上的情况,今天的课程介绍了两类不完全数据分析的统计方法:

第一类是关于基于似然的不完全数据的推断[2],特别是EM算法。EM算法根据给定观测数据条件下缺失数据和参数之间的相互依赖关系进行迭代计算,收敛速度呈线性,但是如果缺失比例大,其收敛速度可能会很慢。

第二类算法是MCMC算法。与EM算法收敛到参数空间的某一个点不同,MCMC算法是随机收敛到概率分布。

今天的学习对于我研究缺失数据的补缺受益匪浅,我对EM算法的数学原理有了更深的理解。


[1]Schlittgen R. Analysis of incomplete multivariate data[J]. Computational Statistics & Data Analysis, 1999, 30(4):478-479.

[2]Little, Roderick J A, Rubin, et al. Statistical analysis with missing data[J]. Journal of Marketing Research, 1987, 26(3):1322-39.

anyShare分享到:
This entry was posted in 博士生, 学习笔记, 新闻动态. Bookmark the permalink.

发表评论