参会学生:刘杰,江思源,韩朋,明鉷,肖勇博
请假人员:唐晨,景波,殷越,滕越,姚小慧,严金戈,陈绪,王雨婷,李雨龙
箱线图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱形图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
它于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
- 中位数(The Median)
- 上四分位点(Q1 )
- 下四分位点(Q2)
- 四分位矩(Interquartile Range/IQR) = Q2 – Q1
- 内限为Q1 – 1.5*IQR和Q3 + 1.5*IQR
- 外限为Q1 – 3*IQR和Q3 + 3*IQR
箱线图是以具有鲁棒性的数据为基础的。它们比基于正态分布的经典统计量更能抵抗离群值。对于一组数据,与均值比较起来,箱线图能更好的反应数据的集中趋势。例如,以下两组数据,箱线图能清晰的显示出数据的最值、四分位点和中位数,能清晰的反映出数据的集中趋势。
箱线图最明显的应用就是能够识别具有极端特征的样本,如Figure 1中的‘+’。但是不是所有的超出内限的样本都是不可用的,因此,又设置了一个外限,规定,超过内限但没超过外限的样本用‘°’表示,说明样本经过一定调整后还能使用,被称为温和异常值(mild outliers),超过外限的样本用‘*’表示,被称为极端异常值(extreme outliers)。
另外,箱线图的另一应用就是可以比较一系列结果,箱线图的并列是一个很好的方法来调查数据集之间是否存在差异,并且可以在没有任何统计假设的情况下应用。