Quantcast
Viewing all articles
Browse latest Browse all 11063

LinkedIn开源数据挖掘软件WhereHow


Image may be NSFW.
Clik here to view.
LinkedIn开源数据挖掘软件WhereHow

商业社交网站 LinkedIn 宣布,将旗下数据挖掘软件 WhereHows 开源,从各资料来源收集数据,作为整合数据的储存库,主要用于企业资讯分析,未来计划整合其他资料工具,如Kafka、Samza、Gobblin、Nuage等。现在已放于 GitHub 上。

LinkedIn 表示 WhereHows 是整合所有 LinkedIn 的资料处理环境,并且从中萃取 Metadata,并加以管理,主要用于挖掘企业资讯。

WhereHows从各种资料来源收集数据,并且标准化和模型化这些 Metadata,以及作为一种整合 Metadata 的储存库(Repository),用于多种分析目的。

LinkedIn表示,WhereHows 已经获取5万个资料集的状态、1.4万个评论和3.5千万个工作实行和关联性资讯,而这些资料分别储存在 Hadoop、Teradata 或其他丛集,且佔了超过 15PB 的储存空间。

WhereHows 提供开发者从 API 或 Web 应用程序存取资料,其中API提供其他资料处理和应用程序的自动化,而 Web 应用程序则提供搜寻、视觉化资料集间的关系、註解、讨论、社群参与等功能。

Image may be NSFW.
Clik here to view.
LinkedIn开源数据挖掘软件WhereHow

WhereHows 完整架构图

而 WhereHows 主要由资料储存库、Web 服务器和后端服务器所组成,其中资料储存库用来储存所有 Metadata 内容,Web 服务器则是透过 UI 和 API 来呈现资料,另外,后端服务器则会定期从其他系统抓取 Metadata。

本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-03/129291.htm


Image may be NSFW.
Clik here to view.
LinkedIn开源数据挖掘软件WhereHow


Viewing all articles
Browse latest Browse all 11063

Trending Articles