2020年7月

大数据集的探索性数据分析:西班牙社会保障数据中工资变动的例子

在线发表于:BRQ商业研究季刊,首次发布于2020年9月9日

当在分析中使用一个相当大的数据库时,数据可视化将面临新的挑战。在大量数据点的情况下,由于点的杂波,经典散点图是无信息的。相反,在小样本中使用有限的简单图,如箱线图,在大样本的情况下提供了极大的潜力,以促进群体比较。本文介绍了探索性数据分析(EDA)方法,当涉及到大型数据集时,这种方法非常有用。EDA方法(由Tukey在他1977年的开创性著作中提出)包含了一套统计工具,旨在使用简单的图形工具从数据中提取信息。在本文中,使用现代图形计算设备(如热图)重新考察和增强了一些EDA方法,如箱线图和散点图,并用西班牙社会保障数据说明了它们的使用。我们探讨了收入在年龄、性别、职业类型和合同等几个因素之间的变化,特别是,在与职业类型相关的各个维度上,工资的性别差距是可视化的。EDA方法也被应用于评估与收入作为因变量的竞争回归。讨论的方法应该有助于研究人员评估数据的异质性,跨群体变异,和传统诊断图的残差从替代模型适合。