用户登录
用户注册

分享至

数据之美:可视化会给你意想不到的答案!

  • 作者: 回忆里的那个人丶92152756
  • 来源: 51数据库
  • 2021-11-04

 

作为数据科学家或分析师、人工智能或机器学习工程师,我们大部分的工作都是向同事或主管解释事物,报告个人的工作和发现,数据可视化已经成为我们生活中必不可少的一部分。

而对于不了解或不感兴趣的人来说,原始数据就是长串随机数字、图像或音频文件。我们的工作是让这些人理解数据,并引导他们从这些数据中作出有用的推论。

罗伯特·科萨拉说:“数据可视化是挖掘和利用数据的关键。即便是最简单的可视化,也能够消除数据提供者对自己的数据被低估、误解或歪曲的忧虑。数据可视化能够改变人们对数据的理解方式,提高大众对数据的兴趣,并推动更多更好的数据开发。”

我们用数据描述历史和未来,但如果没有可视化,在外行眼里就和预言家或古老先知无甚区别。本文将带你了解数据可视化的重要性,分享一些专业的可视化技巧,以及一些创建精美可视化的工具、库和软件。

数据可视化的定义及其重要性

数据可视化是将数据视觉化或图像化的过程。这个过程很重要,它可以通过图像表达不同数据之间的关联。人脑善于理解信息图表,而电子表格、CSV文件或数据库中上百行的原始数据则往往令人焦头烂额。

数据可视化可以让趋势和模式显而易见,这在数据科学的探索性数据分析阶段尤为重要。数据可视化不仅对数据科学家、分析师和人工智能/机器学习(AI/ML)工程师很重要,在技术领域内外所有和数据打交道的人都应该学习这一技能。

数据可视化的应用

正如约翰·图基所说:图像最大的价值在于迫使我们关注到意想不到的东西。

数据可视化可以应用于几乎所有领域,每当需要洞察或推断数据时,就离不开数据可视化。但是,数据可视化并不仅仅是为了美观。以图像形式展示数据有如下几个原因:

寻找关联:在没有数据可视化的情况下,尝试确定两个或多个事物之间的相关性是非常困难的。在数据分析中寻找关联是非常关键的,因此,若想对数据做出最深刻的理解,数据可视化是至关重要的。 观察变化:通过数据可视化,可以使用时间序列图观察既定时间内的趋势或模式变化。这有助于回顾历史数据,对未来可能发生的事件做出关键的预测或假设,这可以帮助组织或个人调整产品或服务。 识别频率:频率识别是视觉图表最基本的作用之一。它有助于我们确定自己的办事频率,以便知道要在哪里投入更多的努力、时间和精力,而在哪里可以放松。企业也可以使用频率图表来核对并洞悉特定时间的销量,调整营销流程,以满足消费者的需求。

可视化图表类型

既然知道了什么是可视化,那么就必须了解各种可视化图表的类型,以便讲述数据背后的故事。可视化图表有成百上千种,有些我们很可能永远不会碰到。我将分享几种我所了解的热门图表,排名不以重要性和兴趣为先后。

折线图:又称线条图、线状图或曲线图,是一种将一系列数据点(即“标记”)用直线段连接来呈现信息的图表。它是许多领域中常见的一种基本图表类型。它与散点图类似,但是它的测量点是有序的(通常按x轴排序),并用直线段连接。折线图通常用于将数据在一段时间(时间序列)内的趋势可视化,因此,线条通常是按时间顺序画的。在这种情况下,它们被称为趋势图。 条形图:亦称条状图,是一种用矩形条表示分类数据的图表,矩形条的高度或长度与其所代表的数值成正比。条形图可以横置或纵置,纵置时也称为柱形图。条形图可比较不同类别的离散数值。一个轴表示比较的类别,另一个轴显示数值。一些条形图有多组聚合的矩形条,可显示多个变量的值。 直方图:直方图可以大致显示数量分布的情况。它形似条形图,但衡量的是频数而非走势。 散点图:散点图是一种图表或数学图形,通常使用笛卡尔坐标系(Cartesian coordinate,又称直角坐标系)来显示两个变量下的两组数据。如果为数据点编码(设置颜色/形状/大小),则可以添加其他变量。数据显示为一组点,每个点都有两个变量,分别确定其在水平轴和垂直轴上的位置。 饼图/圆环图:饼图是一种圆形的统计图,它被分成多个区块来说明数字比例。在饼图中,每个区块的弧长(以及相应的中心角和面积)与其所代表的数值成正比。虽然饼图因形似一个被切成块的饼而得名,但它有多种呈现方式,比如圆环图就是一个空心的饼图,不仅能清楚地显示区块或比例,还美化了传统的饼图样式。 热力图:热力图是一种数据可视化技术,这种二维图像用颜色显示某现象的量级。颜色可能有色调或深浅的不同,使读者对某现象的聚集情况,或其在空间上的变化情况一目了然。 地图:利用包含位置信息的数据,可以绘制精美的可视化世界地图。这类地图用颜色编码,以较暗的阴影显示强度更高的区域,反之亦然。它非常适用于可视化病毒的传播情况,广泛应用于新冠病毒影响区域的可视化。

数据可视化的注意事项

“通过可视化,我们把信息变成了一个可以用眼睛探索的景观,一种信息地图。当你迷失在信息里时,信息地图能有所帮助。”——大卫·麦坎德利斯

有效的数据可视化是数据分析的最后关键一步,否则你可能会丢失重要的理解和信息。有很多事是寻求专业可视化的人必须知道的:

选择最合适的可视化类型:在可用于数据可视化的多种图表中,你需要选择出最能代表数据的图表。如果想从数据中获得有用的见解,这一点非常重要。这就意味着你必须善于挑选颜色,色彩编码的可视化对于轻易地识别强度、模式和群集有很大帮助。 运用对比:这也许是最简单的数据可视化方法,但其用处却不可小觑。在展示自己的信息和见解时,你应该尽可能多地进行具体的比较。同时展示两幅图表,每个图表都显示了同一信息在特定时间段内的对比版本,例如并排呈现的2016年和2017年的月度销售记录,这样就能清晰地指出该数据的影响,突出优势、劣势、趋势、峰值和低谷,以便斟酌并行动。 了解受众:在进行可视化时,确定需要从中得出推论或见解的目标受众。谁会看这些数据?他们面临哪些挑战,有哪些障碍阻止他们克服这些挑战?了解这些,并努力构建有足够吸引力的可视化,使受众能够最大限度地洞察或理解数据。

最佳的数据可视化工具和软件

只有运用好的工具或软件,才会有好的可视化效果。下面推荐几款个人使用过的最好的工具和软件:

开源库:有很多免费的编程语言开源库可以用来做数据可视化,它们通常能轻松上手,并且快速操作,因其灵活性而备受喜爱,是多数程序员首选的可视化方法。热门的开源库包括Matplotlib、Seaborn、Bokeh、Plotly和GGPlot。 电子表格应用程序:虽然总被忽略,但是像Microsoft Excel和Google Sheets这样的电子表格应用程序有内置的可视化工具,确实非常适合以图形或视觉形式展示数据。对于那些几乎没有编程技能,也无力负担可视化工具的人来说,这应该是最好的选择。 Tableau:若要制作各种高级而美观的可视化和分析仪表盘,Tableau是最值得推荐的软件。使用Tableau可以轻松快捷地制作精美的气泡图、饼图、折线图、热力图或地球投影图。Tableau易于使用,有许多教程可以指导你如何更好地使用它来让工作效率最大化。 Power BI:Power BI是微软的一项业务分析服务。它旨在提供交互式可视化和商业智能功能。其界面简洁,终端用户可以创建自己的报表和仪表盘。

数据可视化不是锦上添花的“外衣”,而是讲好故事的关键,希望本文分享的方法和资源能让你利用可视化更好地描述数据。

  

软件
前端设计
程序设计
Java相关