9号彩票开户

关注微信  |  微博  |  腾讯微博  |  RSS订阅
读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

知识本体与大数据处理

文本处理作者:赵丹

赵丹(Diana):1973年生于天津,1996年毕业于厦门大学法律系,做了二十年码农,写了百来万行程序,2014年作为技术合伙人加盟海云。业余时间爱好户外运动,曾攀登过5000米雪山,完成过北京马拉松全程。

最近总有人提Palantir,这家美国大数据分析公司,据说著名的“棱镜”就是他家开发的。上个月又爆出Palantir业绩不佳大裁员的消息,据说裁掉了上百名数据分析师。

俺在三年前研究过Palantir的技术路线和系统架构,P家实现了多种来源的结构化数据和文本数据的导入与集成,以及结合时空和人物线索的探索式数据分析,其核心技术中使用了动态本体(Dynamic Ontology)。

说起这个动态本体,背后还有深厚的哲学背景。本体 Ontology 可以追溯柏拉图的逻各斯,亚里士多德的形而上学。

拜啦图
这个图说的是著名的柏拉图的洞穴比喻。柏拉图认为现实世界都是理性世界的倒影,理性世界才是世界的本质,是完美的。就好比是在洞穴中,囚犯只看到了投在洞穴墙壁上的影子,只能通过这些影子推测理性世界的样子。

具体到“本体”(Ontology)这个词。

本体论(Ontology)是探究世界的本原或基质的哲学理论,该词是由17世纪的德国经院学者郭克兰纽(Goclenius,1547-1628)首先使用的。此词由ont(ντ)加上表示“学问”、“学说”的词缀——ology构成,即是关于ont的学问。ont源出希腊文,是on(ν)的变式,相当于英文的being;也就是巴门尼德(Parmenides)的“存在”。以上出自必应网典。

简而言之,本体意味着存在一个外在的完美的知识体系,不依赖人类的认识而存在。人类探索知识的过程就是不断从现实世界的现象中,摸索、推测这个完美知识体系的过程。人类的认识注定只能不断接近,却永远达不到这个完美的知识体系。

讲本体的哲学来源,和Palantir,和数据处理有什么关系呢?这就涉及到数据的本质到底是什么的问题了。

数据形式上只是一些有结构的数,仅仅有数是没有用的,使用数据首先需要对数据的结构作出解释。所谓解释,就是贴上概念的标签。

通常的关系数据库设计,每一列都有一个标签,每个表又有一个标签。如果这些标签是有意义的文字,那么通常文字的意义就是对列或者表的解释,如果不是,那就会有一个把标签转换为有意义文字的办法,这个办法通常是写在设计文档里。

当然如果数据的使用者就只有原始设计者一个人,也可以不加解释,这种情况下,实际上也是有解释的,只不过这种解释只存在于那个人头脑里罢了。有了解释,一个人设计的数据结构就可以被其他人利用。

标签使不同的人对数据所对应的概念达成共识,这个共识是基于对概念体系本身的共识而产生的。所以前提是数据的设计者和使用者拥有部分相同的概念体系。这些相同的概念体系的部分,如果可以形式化地记录下来,就形成了外在于这些参与者的公共知识,这些被形式化了的公共知识也被称作知识本体,由于表现形式主要是概念节点以及概念之间的关系组成的网络,是图结构,知识本体又被称作知识图谱。

共享同一套知识本体,使得数据设计者与数据使用者,对于数据的使用方式达成共识。这就保证了数据使用者可以按照数据设计者最初的意图去使用数据,去进行各种变换,计算。

不同来源的数据通常各自背后都有一套概念体系,如果各自的概念体系之间有交集,就可以把这些概念体系连接起来,如果连接起来之后的概念体系当中没有逻辑上的矛盾,就说这些概念体系融合到一起了,这就是知识融合。

达成了知识融合,多个来源的数据就可以混合起来,一起参加各种运算,这就是数据融合。因此数据融合是以知识融合为基础的,只不过知识融合有时候只发生在负责数据融合的人的头脑之中,没有外在的形式化表示,看起来好像并没有做知识融合这个步骤。

via:微信公众号 海云数据

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 知识本体与大数据处理

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
友情链接:重庆幸运农场  重庆幸运农场  98彩票  北京赛车pk拾网站制作  北京赛车pk拾现场开奖  

免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!