9号彩票开户

关注微信  |  微博  |  腾讯微博  |  RSS订阅
读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

大数据时代下,数据感知在数据质量管理系统中的应用

大数据

作者:风中纸鸢

关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理方面的公司真的是屈指可数。

由于本人所在的公司主要是为了解决发改委遇到的一些问题,而开展的1个项目。比如检验地市注册资金是否存在异常这么1个简单的例子。

而对于数据感知技术,大部分没有了解过。为了说明,大数据时代下,数据感知在数据质量管理系统中的应用,这里我们需要先解决几个问题:

  • 什么是数据质量管理系统?
  • 什么是数据感知技术?
  • 数据感知技术的用途?

下面我们分别来进行介绍。

什么是数据质量管理系统

我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。

但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。

而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。

而数据质量管理系统主要由如下一些部分组成:

  • 数据清洗与去重
  • 数据可视化
  • 数据评估
  • 数据治理
  • 数据挖掘
  • 数据分析

而当前系统主要采用纯Python来实现。对于发改委动不动就千万级别的数据还是可以很好的进行驾驭的。

什么是数据感知技术

对于感知的定义是客观事件通过感觉器官在人脑中的直接反映。而所谓数据感知,就是通过对数据的一些特征信息来对数据进行描述。比如,我们看到远处有1个人,长头发穿着红色衣服高跟鞋,那么我们就可以推测那个人是女的。当然,这个过程也可能会出现不准确的问题,比如那个人是个男的,就这样打扮。

而数据感知技术可以实现给我们1组样本数据,我们可以知道它是哪种类型。比如,给我们如下的100条记录1组数据:

13923123425

020-8876234

(0760)2347234 

...

3423456

通过我们的感知技术我们可以识别它为手机号码和电话号码,其中手机占据的比例假设为60.82%,而电话号码占据的比例为32.22%,而剩下还有6.96%的数据无法被识别出来,因此我们可以推断当前数据为联系方式为主。

需要注意的是,这100条记录需要满足随机性,不然感知出来的结果可能会差强人意。

当然,这是比较简单的1个例子。当然我们还可以识别中文姓名、地址信息、企业名称、工商注册范围、工商注册资金等类型,这里就涉及到概率论及统计学的一些内容了。

当然,还会涉及到一些线性代数的内容,比如贝叶斯网络转移矩阵的使用,会用到矩阵的相关知识。

数据感知技术的用途

一般情况下,数据质量管理系统都是基于规则库进行开展工作的,而对每组数据进行规则的配置是1个繁琐且耗时的工作,基本上没有人愿意进行这种工作。

而此时,通过数据感知技术,我们可以自动的感知规则,并为每组数据推荐最适合的规则,从而简化人员的工作量,提高效率。

另外通过数据感知技术,还可以找到数据库其他类似的类型的数据,进行数据关联性的关联,弥补一些认知上的缺陷。

总结

实际上,数据感知只是数据质量管理中的1个很小的环节,通过这种自动化的技术,可以节省人工的成本及提高效率。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 大数据时代下,数据感知在数据质量管理系统中的应用

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
友情链接:鸿利彩票  港龙彩票  北京赛车pk拾开户  幸运农场官网  幸运农场代理  

免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!