【例会】用箱线图直观的表示数据

Picture3

参会学生:刘杰,江思源,韩朋,明鉷,肖勇博

请假人员:唐晨,景波,殷越,滕越,姚小慧,严金戈,陈绪,王雨婷,李雨龙

箱线图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱形图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

它于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。

  • 中位数(The Median)
  • 上四分位点(Q1 )
  • 下四分位点(Q2)
  • 四分位矩(Interquartile Range/IQR) =  Q2 – Q1
  • 内限为Q1 – 1.5*IQR和Q3 + 1.5*IQR
  • 外限为Q1 – 3*IQR和Q3 + 3*IQR

箱线图是以具有鲁棒性的数据为基础的。它们比基于正态分布的经典统计量更能抵抗离群值。对于一组数据,与均值比较起来,箱线图能更好的反应数据的集中趋势。例如,以下两组数据,箱线图能清晰的显示出数据的最值、四分位点和中位数,能清晰的反映出数据的集中趋势。

Picture2 Picture1

箱线图最明显的应用就是能够识别具有极端特征的样本,如Figure 1中的‘+’。但是不是所有的超出内限的样本都是不可用的,因此,又设置了一个外限,规定,超过内限但没超过外限的样本用‘°’表示,说明样本经过一定调整后还能使用,被称为温和异常值(mild outliers),超过外限的样本用‘*’表示,被称为极端异常值(extreme outliers)。

另外,箱线图的另一应用就是可以比较一系列结果,箱线图的并列是一个很好的方法来调查数据集之间是否存在差异,并且可以在没有任何统计假设的情况下应用。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论