数学天元2017统计学青年骨干教师培训班-第四天

耿老师由于赶赴项目验收会,结束了因果推断课程的教学,此后两天,由东北师范大学副校长、教育部“长江学者奖励计划”特聘教授郭建华老师,围绕高维数据分析的结构降维策略,为大家介绍实验室近年来的研究成果。

1

首先,郭老师介绍了目前文本、图像、时空、基因、视频等数据的基本研究情况,提出统计学与数据科学的一致性,并发出将统计学科更名为数据科学的倡议。通过分析椭圆数据的回归线与SD线的区别,强调统计学研究中,几何思维的重要性。进一步强调了随机数在统计学研究中检验环节所起到的重要作用。介绍变量选择这一参数降维核心问题的解决方法,如LASSO等。

随后,从统计学角度介绍了最近邻法、线性回归和朴素贝叶斯三类方法。引出郭老师提出的结构降维的概念,即,data+(underlying)structure,其中,structure是指对“data-generating机制”的描述。以亲身研究经历,告诉年轻科研人员,好的统计模型来源于实际问题,应用统计学家,要充分了解各学科专业知识,最有价值的研究是将多学科间共性问题抽象提炼成“core统计”。统计学家不应该被动获得data,应该利用统计原则,从以下三方面指导技术革新:1.实验设计;2.随机抽样;3.非随机观测。

最后,介绍了结构已知时的降维策略:1.可压缩性策略,即通过去除与问题无关的一些变量,把一个全局的问题在不损失任何信息的条件下,转化成一个只与局部的一些变量有关的统计问题。模型参数(关联测度)的可压缩性,估计可压缩性,模型可压缩性,检验可压缩性。2.可分解性策略,即,:把一个全局的统计问题转化成一系列局部问题,并通过整合这些局部问题的结果来解决原来的全局问题。分两步走:第一步,图的最优分解;第二步,统计问题与图分解的整合。

今天的学习,感受最深的是大数据时代,统计学与计算机科学中数据挖掘的边界日益模糊,应用统计学家已深入研究数据科学领域,他们的优势在于具有完备的理论储备,寻找优于统计学家的看家本领,是值得每个计算机学者深入研究和思考的。

anyShare分享到:
This entry was posted in 交流活动, 博士生, 新闻动态. Bookmark the permalink.

发表评论