让我们了解一下常见数据类型和如何通过选择最适合的图表来讲述故事。
常见的数据类型:
1. 文本数据
当数据以这种形式发现时,通常很容易找出一个词被使用的频率或文本情感。使用这种形式的数据可以最好地讲述故事。
文本数据最适合的可视化方式之一是“文字云”。它的机理是,将更频繁的词放到中心并放大它们,让我们清楚地了解文本的一般概念所描绘的内容。
例如,上面显示的文字云给出了Twitter数据集的表示。这表明dismal和miss是最常用的消极词。
2. 混合数据
当我们的数据由数字或者其它各种格式组成时,我们需要知道哪些格式是重要的,并从数据集中得到好的见解。
这种数据的首选视觉效果可能会有所不同;这里我将向你展示如何使用“平面网格”来处理数据。我将使用的是泰坦尼克号的乘客数据。
正如这张图所示,女性和头等舱乘客的生存几率高于机组成员或较低舱位的男性。
这不正是泰坦尼克号上真正发生的事吗?
另一种可视化此类数据的方式是尝试使用“多变量图”。下面是关于汽车性能和规格的数据集。
这里我们能看到,拥有更重车身的汽车比那些拥有更轻车身的汽车慢。有道理,对吗?
3. 数字数据
当我们遇到这种数据时,通常会寻找描述数字的线条或趋势。折线图会是不错的选择。
这里我们可以很清晰地看到,成人和儿童在当地景点的价格上涨。很容易就看出每年的增长幅度。
4. 股票
我们还会碰到与股票有关的数据集。股市数据主要是一个数值数据的时间序列,但作为一个交易员或投资者,我想谨慎地了解每个日期和下跌信息。
在这方面,最具吸引力的可视化方式是“烛台图”。
这里我们以特斯拉股票为例。烛台图可以在每个日期上操纵,并单独查看股票的高低。这有助于我们根据当前或过去的市场趋势做出更好的投资决策。
如图所示,2016年2月特斯拉股票下跌。我们可以利用这些信息来了解其它市场情况和经济状况,从而对它们的股票做出决策。
5. 地理数据
当我们有关于特定位置和区域的数据时,我们使用地图来增加分析的清晰度和意义。
在这个例子中,我们可以看到各国在2002年世界杯前后的表现。德国队进球最多,是世界足球史上最具统治力的球队之一。
我们经常被问到,故事和视觉效果在创建数据模型时,是如何起作用或提供帮助的。在预测建模的所有阶段中,讲述故事可能是对分析的重要补充。
让我们了解从数据中创建模型并在其中讲述故事的基本步骤。
1. 数据探索
建模的第一步是了解你的数据。我将向你展示如何在不计算复杂的统计数据的情况下,探索数据。
这是一个关于葡萄酒质量的数据集。该数据集的结构如下:
这里是对该数据集的相关统计摘要:
所以,如果我们需要看酒精量和葡萄酒质量间是否有任何关系时,该怎么做呢?
可以计算Pearson的‘r’。它将帮助我们建立模型,但不会帮我们分析太多。
这表明酒精含量与葡萄酒质量之间存在很强的相关性。 但它会告诉你其他什么吗?
理想情况下,它没有。 那么,有什么用呢?
让我们看看,如何从可视化中了解更多。
首先,我们看红酒质量是怎样和酒精含量相关的。
可以看出,酒精含量越高,葡萄酒质量越好,这有助于我们更好地了解我们的数据。在这种情况下,我们还能发现异常值。
接下来,你会想知道葡萄酒中的酸含量是如何影响其质量的吗?
这是可视化酸效应的一种方式。随着Violin Plot横向扩展,表面在这些区域中有更多的数据点。
2. 特征可视化
在你生成特性后,如何看出一个预测的好坏。
图表告诉我们,预测点离拟合线的距离。
另一个我们必须创建的视觉效果的例子是“主成分分析”(Principal Component Analysis)。如果您想深入了解PCA,可以阅读下面链接中的文章。
Practical Guide to Principal Component Analysis (PCA) in R & Python
https://www.analyticsvidhya.com/blog/2016/03/practical-guide-principal-component-analysis-python/
这是在Rstudio中的Iris数据集:
当我们对该数据集运行主成分分析时,会发现这些统计信息。
当我们绘制这个时,我们会发现视觉化结果比统计数据更具信息性。
3. 模型创建与比较
到了模型创建阶段,我们会发现需要了解数据的拟合方式。
这是一个根据道路坡度和颠簸程度预测汽车该快还是慢的模型。
如你所见,决策边界清楚地对大多数数据进行了分类,但88.21%的准确率并不能说明问题。图中我们甚至可以看到错误分类的点离决策边界有多远。
我们可以通过查看决策边界来比较某些算法和技术。
下面显示了使用Iris数据集的另一个示例:
这里没有太多信息来获取关于模型的有价值的见解。
想了解更多关于向量机的信息,可以阅读下面这篇文章:
Understanding Support Vector Machine algorithm from examples (along with code)
https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/
另一方面,该图向我们展示了一个清晰的物种的分类边界。
现在你已经知道可以用“讲故事”的方式来解释我们的观点,当你自己解决这个问题是,我将给你一些实用的提示:
-
始终在图中标记轴并给出绘图标题;
-
必要时使用图例;
-
使用眼睛看起来较浅并且比例适中的颜色;
-
避免添加不必要的细节,比如不具备良好可读性的背景或主题;
-
只有一个点可以根据水平和垂直位置同时编码两个定量值;
-
如何你正在进行时间序列的编码,不要使用点进行可视化。
讲故事的方式不仅仅是它的用法。它能帮你从你过去遗漏的数据中发掘新见解。数字永远无法清晰的描述特征和数据之间的关系,故事和图表将是很好的替代。
本文中我们已经详细阐述了故事是如何在各种途径中被使用的。从它们在模型构建步骤中的使用方式开始,我们逐渐了解哪些图表适合哪些特定的数据类型。
希望你读完这篇文章很开心。 期待听到你的数据故事!
原文标题:
The Art of Story Telling in Data Science and how to create data stories?
原文链接:
https://www.analyticsvidhya.com/blog/2017/10/art-story-telling-data-science/?utm_source=11stepsBItoDSarticle&utm_medium=blog