第 67 节 分散(第1页)

散点图,是把数据的分布状况视觉化的一种工具。这一图表用于观察变量之间是否有特定的相关性,以及明确有其他倾向的两个以上集体的有无等情况。所谓的变量是指具有很多数值,可以改变的数量或文字。

相关系数,是指在制作散布图的时候用于研究变量之间线性相关程度的量。所谓的相关关系,是指当一方发生变化,另一方也会发生变化,相关关系能对相关性的强弱和「是正相关还是负相关」进行分析。但是,仅凭这些数字是说明不了什么的,因此,需要把这些数字通过散布图等来呈现。

在 Excel 中,我们经常可以看到一些在散布图中自动拉一根近似曲线的图表。例如一张纵轴为利益率,横轴为交易金额的图表,在拉近似曲线的时候,我们似乎能发现利润率随着交易金额的上升而上升,但是事实并非如此。

这组数据中有表示两个大趋势的集体存在。因此为了防止这种漏看,在使用散布图的时候,先不要拉近似曲线,要先单纯的看这个图表本身。

此外,图表的数轴的标尺大小设定也是十分重要的哦。数轴范围太大的话就很难看出趋势的变化。缩小数轴范围才能更进一步的去讨论趋势的变化。

接下来,我们一起来看看分析散点图时应该注意的 4 大要点。

分析要点 1 :包含异常值吗?

在散点图中,存在着偏离整体趋势的数值。就拿刚才提及到的交易金额和利润率的散点图来说,如果有些值偏离了我们的曲线,没有这些值的话,就能很轻松地讨论整体的趋势。此时,我们想要确认的是,这几个数值是否是特殊情况下所产生的「异常值」。假设我们事先知道这3个数值是表示「交易方是社长的好友所经营的企业,给了一个友情价,所以交易金额的利润率较低」。那么,毫无疑问我们会把这3个数值当做「异常值」来分析。

分析要点 2 :存在 2 个以上不同趋势的集体吗?

在散点图中虽然存在有不同趋势的集体,但如若把它们归结起来进行分析的话,就会诱导你得出错误结论。因此,为了防止错误结论的产生,我们必须要把握好两个前提:一,排除先入为主的观念。二,一般来说「在数据形成一定规模时,想用一个倾向就能分析整体是很少见的」。

分析要点 3 :数据范围合适吗?

散布图的数据范围是影响分析结果的一个重大因素。数据范围的设定法会影响我们观察散点图的结果。因此,我们要杜绝「散
(本章节未完结,点击下一页翻页继续阅读)