在大数据年代,数据清洗越来越重要,也越来越复杂。

DATA-Cleaning

无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题。

大数据的价值在于挖掘和从数据中寻找规律,而数据作为大数据时代的 “原料”,其质量和完整性就显得尤为重要,可能一条数据的缺失或者偏差所影响的一个决策或者结论,就有可能带来巨大的损失。

所以这些数据在正式应用于数据科学的核心算法和数据可视化之前,数据往往需要经过迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。

只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可以让人放心的、可用于支撑决策的情报。

有时决策者似乎只需要一个简单的数,但是为了得到这一个数,我们需要搜集大量数据并进行有效的可视化分析与处理。

一般数据可视化都是和数据分析功能组合,而数据分析又需要数据接入整合、数据处理、ETL等数据功能,进而发展成为一站式的大数据分析平台。

big-data-review

首先得将你手里的数据规范化,在我接手的项目趋于稳定迭代的情况下,现分享了我在数据清洗领域的一些经验。

数据清洗认知

数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。

数据清洗并不是简单地选取优质数据,它同时还涉及到对原有数据的删除、添加、分解或重组等。

预处理阶段

数据清洗方法

数据缺失

格式内容规范

逻辑错误清洗

非需求数据过滤

关联性验证

数据规范与建模

大数据背景下的方案

设计清洗规则

数据分层

数据产品层

数据仓库层

数据应用层

编写中…