基本信息
文件名称:大数据可视化 第2版 课件 第3章 工具与数据资源.pptx
文件大小:7.12 MB
总页数:89 页
更新时间:2025-06-25
总字数:约1.32万字
文档摘要

;;数据墨水比是耶鲁大学教授爱德华·塔夫特引入的一个概念,他是数据可视化领域的一位专家,对设计有效的数据呈现做出了重大贡献。在他1983年出版的《定量数据的视觉显示》一书中,阐述了这样一个目标:

·最重要的是显示数据。

·图形上的大部分墨水应该用于呈现数据信息,墨水随着数据的变化而变化。数据信息是图形的不可擦除的核心,非冗余的墨水根据所代表的数字的变化而排列。;要使数据分析真正有价值和有洞察力,选择高质量的可视化工具很重要。作为应用软件,数据可视化工具可以帮助用户以可视化、图形化的格式呈现数据的完整轮廓。像饼状图、曲线图、热图、直方图、雷达/蜘蛛图等,这些方法可以简单地表示数据并展示特点和趋势。;;PART01;在实际业务层面上,可视化可以分为两类:信息可视化、数据可视化,它们之间的最大区别在于:数据可视化的“数据是可变的、不固定的、可更改的、具象的”,信息可视化的“信息是固定的、不变的、不可更改的、抽象的”。

(1)数据可视化。例如公司高层想要掌握销售部门的情况,就需要从数据库或者数据平台中抽取出销售部门的数据,然后通过数据可视化方法制作一张“驾驶舱”,或者,很多公司会制作大屏显示,比如生产项目进展大屏(见图3-3)。;

图3-3数据可视化;数据可视化所抽取的数据,都是具象的结构化数据,比如销售额情况、毛利率情况等等,结构化数据可以通过程序或者BI工具生成各种图形图像,这些程序和工具应用不同的数据,当数据变化后,数据可视化的结果也是变化的。所展示的是一个个的“数据”,比如“销售额下降了50%”“成本上升了20%”,从数据可视化中得到的结果也一定是数据。;(2)信息可视化。如果想展示一下近几年来北极冰层的消融情况,这时用结构化的数据很难表达,对于地理信息、音频视频数据、文字等非结构化数据,展示的只能是“信息”,而非数据。一般认为,信息可视化囊括了数据可视化、信息图形、知识可视化、科学可视化、视觉设计方面的所有发展。;可视化的定义是:利用计算机图形学和图像处理技术,将数据转换成图形或图像,在屏幕上显示,并进行交互处理的理论、方法和技术。因此,无论是数据可视化、还是信息可视化,二者的对象都是原始数据,而图形和图表只是数据的表现形式,也就是载体,不能作为二者的区分要素。信息可视化的基础图表也是柱状图、折线图、饼状图等简单图表类型。;为选择合适的可视化工具,需要关注以下几点:

(1)清晰、简洁和可定制的界面。一个好的数据可视化工具应该具有良好的用户界面,清晰且保持适当的平衡。其次,能在一个视图界面准确展示所有关键信息。比如用户关注的KPI、重要趋势或重要业务相关数据集等,内容一目了然。界面还有一个非常重要的品质,就是可定制化。在不同时间段内,可能需要跟踪不同的数据集,需要自定义重点显示的数据。;(2)嵌入式。要利用数据可视化的强大功能,将可视化报告无缝集成嵌入到其他应用程序中。为了实现高效协同,跨平台共享报告,数据可视化软件应该兼容不同的应用程序。并不是所有部门都需要分析所有数据。大多数人只希望数据的一部分与他们特定的应用程序无缝集成,从而帮助提高工作效率。;(3)交互性。生成的可视化报告必须具有较强的人机交互性。调整一些变量或者参数,应该能够看到趋势/结果的随之变化。用户能够移动、排序、筛选相关变量,获得相应的效果。分析师和决策者需要的是能够处理各种来源的数据并生成有价值内容的分析工具。可视化分析报告支持不同格式打开,可以根据需要突显不同部分。;(4)数据采集与共享。将原始数据导入可视化工具,然后以各种不同的形式导出可视化报告,这一过程要按照用户喜好的方式进行。一些数据集可以以原始形式输入到工具中,而另一些太大的数据集则需要先进行聚合。有时,数据可以从一个数据源中获取,而有时需要从不同的数据源收集数据,并通过工具可视化地显示在同一个界面上。;(5)地理标记和智能定位。如果所处领域关注地理位置,那么可能会需要地理和位置数据的可视化工具。比如这些数据来自哪里?哪些地区更积极?哪些领域需要拓展?对需要跟踪基于位置KPI的业务来说,按时间和空间分层数据集的能力非常重要。

(6)数据挖掘。这是研究大型数据集以识别其中的模式和趋势的过程。如果处理大数据集,并且希望能提取其中的潜在信息并生成可视化报告,那就需要可视化工具能提供数据挖掘功能。;(7)人工智能。许多可视化工具使用人工智能来分析、探索和预测趋势,并根据过去的变化预测未来的趋势。;;如今,大数据可视化领域已经有了一些优秀的可视化运作的基础平台和架构,以及研发过程中涉及的一些工具和开源数据资源。按可视化的对象来区分,这些软件系统可以分为面向医学可视化、科学可视化、信息可视化等类别。;临床医学影像数据是医学可视化领域最早、较成熟的应用对象。其中,VolView、3DSlic