什么是有效的数据
可靠的数据:来源可靠可信,数据基于事实
合适的数据:恰当的数据颗粒度,太粗意味着,无法挖掘到有用的信息,太细意味着数据量级几何倍数的增加,处理难度与数据获取的成本高。
什么样的数据格式适合用来分析
单行表头,不能有合并单元格
行和列不能有依赖关系(聚合关系),只能竖着扩展不能横着扩展。
举例:用“2018年销售、2019年销售、2020年销售……”的多列做数据表的表头不规范
数据表的每一个值都必须是不可拆分的
举例:Excel中常见的“100元”“200个”是不规范的表达
数据行不得重复,有唯一性,因此可以用唯一字段/主键分辨数据表