用户登录
用户注册

分享至

apache storm 介绍

  • 作者: 站在坟头指挥孤魂野鬼
  • 来源: 51数据库
  • 2020-09-21
考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具。然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作。下面整理出一份包含十款工具的清单,从而有效压缩选择范畴。
1. OpenRefine
这是一款高人气数据分析工具,适用于各类与分析相关的任务。这意味着即使大家拥有多川不同数据类型及名称,这款工具亦能够利用其强大的聚类算法完成条目分组。在聚类完成后,分析即可开始。
2. hadoop
大数据与Hadoop可谓密不可分。这套软件库兼框架能够利用简单的编程模型将大规模数据集分发于计算机集群当中。其尤为擅长处理大规模数据并使其可用于本地设备当中。作为Hadoop的开发方,Apache亦在不断强化这款工具以提升其实际效果。
3. Storm
同样来自Apache的Storm是另一款伟大的实时计算系统,能够极大强化无限数据流的处理效果。其亦可用于执行多种其它与大数据相关的任务,具体包括分布式RPC、持续处理、在线机器学习以及实时分析等等。使用Storm的另一大优势在于,其整合了大量其它技术,从而进一步降低大数据处理的复杂性。
4. Plotly
这是一款数据可视化工具,可兼容JavaScript、MATLAB、Python以及R等语言。Plotly甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。这款工具常由新一代数据科学家使用,因为其属于一款业务开发平台且能够快速完成大规模数据的理解与分析。
5. Rapidminer
作为另一款大数据处理必要工具,Rapidminer属于一套开源数据科学平台,且通过可视化编程机制发挥作用。其功能包括对模型进行修改、分析与创建,且能够快速将结果整合至业务流程当中。Rapidminer目前备受瞩目,且已经成为众多知名数据科学家心目中的可靠工具。
6. Cassandra
Apache Cassandra 是另一款值得关注的工具,因为其能够有效且高效地对大规模数据加以管理。它属于一套可扩展NoSQL数据库,能够监控多座数据中心内的数据并已经在Netflix及eBay等知名企业当中效力。
7. Hadoop MapReduce
这是一套软件框架,允许用户利用其编写出以可靠方式并发处理大规模数据的应用。MapReduce应用主要负责完成两项任务,即映射与规约,并由此提供多种数据处理结果。这款工具最初由谷歌公司开发完成。
8. Bokeh
这套可视化框架的主要目标在于提供精致且简洁的图形处理结果,用以强化大规模数据流的交互能力。其专门供Python语言使用。
9. Wolfram Alpha
这是一套搜索引擎,旨在帮助用户搜索其需要的计算素材或者其它内容。举例来说,如果大家输入“Facebook”,即可获得与Facebook相关的HTML元素结构、输入解释、Web托管信息、网络统计、子域、Alexa预估以及网页信息等大量内容。
10. Neo4j
其官方网站将这款工具称为图形数据库技术的下一场革命。这种说法在一定程度上并不夸张,因为此套数据库使用数据间的关系以操作并强化性能表现。Neo4j目前已经由众多企业用于利用数据关系实现智能应用,从而帮助自身保持市场竞争优势。



  在大数据处理分析过程中常用的六大工具:

hadoop
hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。hadoop 还是可伸缩的,能够处理 pb 级数据。此外,hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

hpcc
hpcc,high performance computing and communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为hpcc计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。hpcc是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。

storm
storm是自由的开源软件,一个分布式的、容错的实时计算系统。storm可以非常可靠的处理庞大的数据流,用于处理hadoop的批量数据。storm很简单,支持许多种编程语言,使用起来非常有趣。

apache drill
为了帮助企业用户寻找更为有效、加快hadoop数据查询的方法,apache软件基金会近日发起了一项名为“drill”的开源项目。apache drill 实现了 google's dremel.
据hadoop厂商mapr technologies公司产品经理tomer shiran介绍,“drill”已经作为apache孵化器项目来运作,将面向全球软件工程师持续推广。

rapidminer
rapidminer是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

pentaho bi
pentaho bi 平台不同于传统的bi 产品,它是一个以流程为中心的,面向解决方案(solution)的框架。其目的在于将一系列企业级bi产品、开源软件、api等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如jfree、quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
软件
前端设计
程序设计
Java相关