数据科学中的“数据智慧”*
关键词:数据智慧 应用统计学
作者:郁 彬
译者:张心雨 吕 翔
在大数据时代,学术界和工业界的大量研究都是关于如何以一种可扩展和高效率的方式对数据进行储存、交换和计算(通过统计方法和算法)。这些研究非常重要。然而,只有对数据智慧(data wisdom)也给予同等程度的重视,大数据(或者小数据)才能转化为真正有用的知识和可被采纳的信息。换言之,我们要充分认识到,只有拥有足够数量的数据,才有可能对复杂度较高的问题给出较可靠的答案。“数据智慧”对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的。
“数据智慧”一词是我对应用统计学核心部分的重新定义。这些核心部分在伟大的统计学家(或者说是数据科学家)约翰·图基(John W. Tukey) 的文章1 和乔治·伯克斯(Geogre Box) 的文章2 中都有详细介绍。将统计学核心部分重新命名为“数据智慧”非常必要,因为它比“应用统计学”这个术语能起到更好的概括作用。对于这一点,最好让统计学领域之外的人也能了解到。因为这样一个有信息量的名称可以使人们意识到应用统计作为数据科学一部分的重要性。
依据维基百科对“智慧”词条进行解释的第一句话,我想说:“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合,思辨性地理解数据并依据数据做决策的一种能力。
“数据智慧”是数学、自然科学和人文主义三方面能力的融合,是科学和艺术的结合。如果没有实践经验者的指导,仅通过读书很难学习到“数据智慧”。学习它的最好方法就是和拥有它的人一起共事。当然,我们也可以通过问答的方式来帮助你形成和培养“数据智慧”能力。我这里有10 个基本问题,我鼓励人们在开始从事数据分析项目或者在项目进行过程中要经常问问自己这些问题。这些问题是按照一定顺序排列的,但是在不断重复的数据分析过程中,这个顺序完全可以被打乱。
这些问题也许无法详尽、彻底地解释“数据智慧”,但是它们体现了“数据智慧”的一些特点。
详见原文:
转载本文请联系原作者获取授权,同时请注明本文来自魏瑞斌科学网博客。
链接地址:https://wap.sciencenet.cn/blog-113146-953652.html?mobile=1
收藏