Excel 数据集

2024年8月29日 | 阅读 7 分钟

引言

什么是“Excel 数据集”?

Excel 数据集是指存储和组织在 Excel 电子表格中的信息集合。Excel 是一款常用的软件,可以帮助用户以结构化的格式创建、管理和分析数据。这些数据集可以采用两种主要格式:“Excel(.xlsx)”和“逗号分隔值(CSV)”。Excel 格式提供了更高级的功能来组织和分析复杂数据,包括使用公式和图表,而 CSV 则提供了一种更简单的格式,与各种软件应用程序兼容,便于在不同程序之间共享数据。

我们为数据分析初学者收集了一些 Excel 数据集。这些 Excel 数据集涵盖了金融分析、市场分析和时间序列分析等主题,初学者可以通过这些数据集练习数据清理、数据透视表和图表等数据分析技术,并深入了解真实场景。

用于数据分析的 Excel 数据集列表

  • Superstore 销售额
  • 鸢尾花
  • 泰坦尼克号
  • 葡萄酒质量
  • 成人收入评估
  • 波士顿房价
  • Wisconsin 乳腺癌数据集
  • 在线消费者购买意向
  • 银行广告
  • 牛油果价格
  • 2009-2019 年亚马逊畅销书榜前 50 名
  • FIFA 世界杯
  • 纽约市 Airbnb 公开数据
  • 世界幸福报告
  • 股票价格

我们将介绍前 6 个

1. Superstore 销售额

Superstore 销售额数据集提供了虚构零售公司的销售数据,包括产品、订单和客户信息。它经常被用于练习数据分析。

此 Excel 数据集包含以下变量

  • 订单 ID - 每个订单的唯一标识符。
  • 客户 ID - 每个客户的唯一标识符。
  • 下单日期 - 下单日期。
  • 发货日期 - 发货日期。
  • 配送方式 - 订单的配送方式(例如:标准、特快)。
  • 细分 - 客户细分(例如:消费者、企业、居家办公)。
  • 地区 - 客户所在的地区(例如:西部、中部、东部)。
  • 类别 - 购买产品的类别(例如:家具、技术、办公用品)。
  • 子类别 - 购买产品的子类别(例如:椅子、桌子、纸张)。
  • 产品名称 - 购买产品的名称。
  • 销售额 - 购买产品的销售收入。
  • 数量 - 购买产品的数量。
  • 折扣 - 应用于购买产品的折扣。
  • 利润 - 购买产品产生的利润。

此 Excel 数据集包含以下变量

2. 鸢尾花

此数据集包含 150 朵鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度的测量值,这些鸢尾花属于 3 个不同的物种:setosa、versicolor 和 virginica。鸢尾花数据集有 150 行和 5 列,存储为数据框,包括每朵花的物种列。

其变量的描述包括

  • Sepal.Length - 花萼长度,以厘米为单位。
  • Sepal.Width - 花萼宽度,以厘米为单位。
  • Petal.Length - 花瓣长度,以厘米为单位。

Species - 物种变量表示鸢尾花的种类,有三个可能的值:setosa、versicolor 和 virginica。

在 Excel 中使用鸢尾花数据集的一个实例是分析鸢尾花不同特征之间的关系,并根据特征值对鸢尾花物种进行分类。这可以通过相关性分析、推断统计和预测建模等技术来实现。

3. 泰坦尼克号

这个著名的开源数据集提供了关于 1912 年 4 月 15 日沉没的泰坦尼克号上乘客的信息。数据分析初学者可以利用它进行数据清理和预处理、描述性统计、数据可视化和预测建模。

数据集中包含的一些变量

  • Passenger - 每位乘客的唯一标识符。
  • Survived - 显示乘客是否生还(0 = 否,1 = 是)。
  • PClass - 乘客的等级(1 = 头等舱,2 = 二等舱,3 = 三等舱)。
  • Name - 乘客姓名。
  • Sex - 乘客性别。
  • Age - 乘客年龄。
  • SibSp - 船上兄弟姐妹/配偶的数量。
  • Parch - 船上父母/子女的数量。
  • Ticket - 票号。
  • Fare - 票价。
  • Cabin - 船舱号。
  • Embarked - 登船港口(C = 瑟堡,Q = 皇后镇,S = 南安普敦)。

4. 葡萄酒质量

葡萄酒质量数据集包含红葡萄酒和白葡萄酒样本的数据。该数据集旨在根据化学特性(如 pH、密度、酒精含量和柠檬酸含量)对葡萄酒的质量进行分类。

此 Excel 数据集中包含的常见变量

  • 固定酸度 - 葡萄酒中固定酸的含量,以 g/dm^3 为单位。
  • 挥发性酸度 - 葡萄酒中挥发性酸的含量,以 g/dm^3 为单位。
  • 柠檬酸 - 葡萄酒中柠檬酸的含量,以 g/dm^3 为单位。
  • 残糖 - 葡萄酒中残糖的含量,以 g/dm^3 为单位。
  • 氯化物 - 葡萄酒中氯化物的含量,以 g/dm^3 为单位。
  • 游离二氧化硫 - 葡萄酒中游离二氧化硫的含量,以 mg/dm^3 为单位。
  • 总二氧化硫 - 葡萄酒中总二氧化硫的含量,以 mg/dm^3 为单位。
  • 密度 - 葡萄酒的密度,以 g/cm^3 为单位。
  • pH - 葡萄酒的 pH 值。
  • 硫酸盐 - 葡萄酒中硫酸盐的含量,以 g/dm^3 为单位。
  • 酒精 - 葡萄酒的酒精含量,以 % vol 为单位。
  • 质量 - 葡萄酒的质量评级,范围从 0 到 10。

5. 成人收入评估

此 Excel 数据集是从 1994 年人口普查数据集中提取的关于居住在美国的个人的数据集合。它包含了关于每个人的各种人口、社会和经济特征。

此数据集中包含的一些特征

  • 年龄
  • 工作类别 - 私营、个体经营(非政府)、个体经营(政府)、政府(联邦)、政府(地方)、政府(州)、无薪、从不工作。
  • 教育程度 - 学士、一些大学、11 年级、高中毕业、研究生院、副学士(学术)、副学士(职业)、9 年级、7-8 年级、12 年级、硕士、1-4 年级、10 年级、博士、5-6 年级、学前教育。
  • 教育年限
  • 婚姻状况 - 已婚(配偶在世)、离异、未婚、分居、寡居、已婚(配偶失踪)、已婚(外交配偶)。
  • 职业 - 技术支持、艺术修理、其他管理、销售、行政管理、专业技术、保护清洁工、机械操作检查、行政管理、农业渔业、运输搬运、私人家庭服务、保护服务、军事。
  • 关系 - 配偶、亲生子女、丈夫、非家庭成员、其他亲属、单身。
  • 种族 - 白人、亚洲人-太平洋岛民、美洲印第安人-爱斯基摩人、其他、黑人。
  • 性别 - 男性或女性。

6. 波士顿房价

波士顿房价数据集包含马萨诸塞州波士顿地区住房数据。它大约有 506 行和 14 列数据。

数据集中包含的一些变量

  • CRIM - 各城镇的人均犯罪率。
  • ZN - 每块超过 25,000 平方英尺的住宅用地比例。
  • INDUS - 各城镇非零售商业用地所占比例。
  • CHAS - Charles River 虚拟变量(如果地块邻近河流则为 1;否则为 0)。
  • NOX - 氮氧化物浓度(百万分之十)。
  • RM - 每处住房的平均房间数。
  • AGE - 1940 年之前拥有房屋的使用单元的比例。
  • DIS - 到五个波士顿就业中心的加权距离。
  • RAD - 辐射高速公路的可达性指数。
  • TAX - 每 10,000 美元的财产税率。
  • PTRATIO - 各城镇的学生教师比例。
  • B - 1000(Bk - 0.63)^2,其中 Bk 是各城镇黑人比例。
  • LSTAT - 低收入人口比例。
  • MEDV - 自有住房的中值价格(以千美元为单位)。

此数据集可用于数据分析,以分析房价与房地产市场各种因素之间的关系,执行数据分析并得出见解。

7. 在线消费者购买意向

在线消费者购买意向数据集是与在线购物的购买模式和消费者行为相关的数据集合。它通过对在线消费者进行调查并收集他们的反应数据而创建。

此数据集中包含的一些变量

  • Administrative - 用户访问网站用于行政目的的页面数量。
  • Administrative_Duration - 用户在网站行政页面上花费的总时间。
  • Informational - 用户访问网站用于信息目的的页面数量。
  • Informational_Duration - 用户在网站信息页面上花费的总时间。
  • ProductRelated - 用户访问网站用于产品相关目的的页面数量。
  • ProductRelated_Duration - 用户在网站产品相关页面上花费的总时间。
  • BounceRates - 用户进入网站后未查看其他页面而离开的访客比例。
  • ExitRates - 用户在访问特定页面后从该页面离开网站的访客比例。
  • PageValues - 用户在交易前浏览的页面的平均值。
  • SpecialDay - 访问日期是否临近某个特殊日期(例如:母亲节、情人节等)。

结论

Excel 数据集以 Microsoft Excel 文件的形式存储,为组织和分析平面数据提供了一个灵活的平台。这些数据集被广泛应用于各种应用程序,并且对所有技能水平的用户都易于访问。Excel 的电子表格格式便于数据的操作、计算和可视化,使其成为从基本数据管理到复杂分析的各种任务的热门选择。然而,对于更大规模或协作项目,用户通常会迁移到提供比 Excel 传统功能更高级的功能和灵活性的专用工具和平台。


下一主题Excel 数据表