什麼是有效的資料
可靠的資料:來源可靠可信,資料基於事實
合適的資料:恰當的資料顆粒度,太粗意味着,無法挖掘到有用的資訊,太細意味着資料量級幾何倍數的增加,處理難度與資料獲取的成本高。
什麼樣的資料格式適合用來分析
單行表頭,不能有合併儲存格
行和列不能有依賴關係(聚合關係),只能豎着擴展不能橫着擴展。
舉例:用“2018年銷售、2019年銷售、2020年銷售……”的多列做資料表的表頭不規範
資料表的每一個值都必須是不可拆分的
舉例:Excel中常見的“100元”“200個”是不規範的表達
資料行不得重複,有唯一性,因此可以用唯一欄位/主鍵分辨資料表