Menu

12. 数据新闻学基础

在线新闻编辑室自 21 世纪中期开始发展,随之兴起的实践之一就是数据新闻学,事实核验也在其列。数据新闻学能挖掘当前可用的所有在线话题相关数据的丰富性。

数据新闻学简史

过去十年左右出现了很多关于数据新闻学的舆论,但它还远远不算新闻实践。最悠久的例子可追溯到十九世纪中叶。在克里米亚战争期间,作为记者和护士的弗洛伦斯.南丁格尔在 1858 年发布了英国士兵死亡数据。

此后发生的变化有电脑诞生、公共数据民主化。每位记者手上都有一个极度高效的计算和搜索工具,用来处理极其巨大的数据量。剩下要做的就是专心致志(当然是虚拟的)。

何为数据?

说道数据新闻学,人们通常想到的是失业率。这很正常,失业率可能是报纸上最常出现的图表。但要注意的是,数据不同于统计。例如,中国失业率来自人力资源和社会保障局数据,然后国家统计局统计员利用特定公式重新计算。

一个数据就是一个独一无二的精准清晰元素。数据的四种类型:

  • 文本数据:你的名字是一个数据
  • 数字数据:你的年龄是一个数据
  • 真实或虚假内容数据,商界称为 Boolean 数据类型:你是中国人吗?是?否?答案就是一个数据。
  • 数据可以是几个其他数据的集合,称之为数组:“克利夫,18 岁,不是”就是一个包含文本数据、数字数据和 Boolean 数据的数组。

电子表格和透视表

理论之外,数据新闻学首先是指使用你肯定知道的一个软件,但这通常很吓人:Excel(或任何其他电子表格软件类型)。Excel 是数据新闻学的卓越工具。如果你学习一点它的使用知识,你就能轻松地进行非常复杂的运算,计算平均值、计算发生次数、搜索文本特定部分等。

如果你深入点探究这个话题,你能够掌握透视表(我们保证没有那么难懂)。有了这个工具,包含千百行列的大型数据库就能帮你分类,然后集中有助你调查的核心资料。

如果你确实想更进一步,OpenRefine 可以帮你。有了这个工具,你一眼就能浏览百万单元格。