什么是数据科学

活着就是恶心2023-02-04  21

过去几年,“数据科学”和“大数据”的概念被媒体炒得热火朝天。对于这种现象,人们一开始难免疑惑,甚至怀疑。事实上,这就是Cathy和我当时的反应。

对于这些概念,Cathy和我在很长一段时间里都感到迷茫,直到我们俩相识。我们一般会在星期三共进早餐,每当谈起这种现象,都有一种不安的感觉,总觉得在这喧嚣背后确然有一股新潮流在涌现,这股潮流或许是意义深远的,代表着我们整个文化范式在数据的影响下都会产生深刻的改变。Cathy和我都是干这行的,觉得应该发挥我们的强项,去探索这些现象背后的原因,而不是置之不理。

在深入探索之前,我们有必要先介绍一下媒体所炒作的大数据时代,也许你和我们一样,也认为那些概念难以理解、语焉不详。然后,本章会进一步讲解我们是如何拨开迷雾发现背后的真相,以至于Rachel决定在哥伦比亚大学开设数据科学导论课程,而Cathy则在她的博客上同步记录该课程的内容,乃至上述所有内容终于结集成书送到你手中。

1.1 大数据和数据科学的喧嚣

让我们抛开炒作,因为很多人可能和我们一样,都对数据科学心存怀疑。之所以一上来就讲这些,是想让你知道:我们也和你一样!假如你也心存疑虑,说明你也很可能会贡献一份力量,推动数据科学的健康发展,使其对社会产生积极的影响,也使数据科学这门学科趋于正统,在众多学科中能占有一席之地。

让我们先来细数大数据和数据科学之所以这样让人如坠云里雾里的原因。

1. 大多数基本的术语都缺乏严格定义。究竟什么是大数据?数据科学又是什么意思?大数据和数据科学之间有什么关系?数据科学就是关于大数据的科学吗?只有像谷歌和Facebook这样的高科技企业才用得到数据科学吗?为什么有人认为大数据是一个交叉学科(比如天文学、金融学、科技等),但数据科学却只是科技界的事儿?大数据,多大才是大?这些术语及概念如此含混不清,简直毫无意义。

2. 对于数据科学领域的研究者,不管是在学术界还是工业界,公众都缺乏敬意。事实上,他们在这一领域内辛勤工作了很多年,而这些工作是继承了各个领域的前辈们数十年甚至数百年的工作成果,这些领域包括统计学、计算机科学、数学、工程学以及其他学科。而媒体传播给公众的信息却是这样的:机器学习算法是上个礼拜才发明出来的,谷歌出现之前都不存在所谓的大数据。这简直荒谬,很多正在使用的方法和技术,还有我们面临的挑战,都不过是在过去已有的方法、技术和挑战上演变而来的。我们并不否认新事物和新技术的出现,只是觉得应该对历史和前人的研究成果保持必要的敬意。

3. 媒体疯了。人们将各种各样的桂冠加诸数据科学家的头上,人们形容他们是掌握了宇宙奥秘的魔法师,其疯狂程度堪比金融危机之前。天花乱坠的宣传很容易掩盖真相、歪曲事实。这些宣传的噪声越多,真正有效的信息就越少。因此,若“大数据”被媒体吹得越久,公众越容易被误导,越难获知这一概念背后真正有益于社会的一面(如果有的话)。

4. 统计学家觉得他们正在干的事就是数据科学。换句话说,这本来就是他们的饭碗。亲爱的读者们,请设身处地替统计学家们想想,有人抢自己的饭碗是什么感受。媒体也常常将数据科学轻描淡写为统计学和机器学习在科技界的简单应用。我们会在书中阐明,不是说将统计学和机器学习这些“旧酒”装进新瓶里,就叫作数据科学。它绝对有资格作为一个独立的学科存在。

5. 所有自称为科学的都不是真正的科学。这句话或许有些道理,但不代表数据科学这一术语毫无意义,它代表的可能不是科学,而是某种技术。

1.2 冲出迷雾

Rachel取得统计学博士学位到她在谷歌工作的这段经历,或许能帮我们解答一些疑惑,她说:

进入谷歌之后,我很快就意识到工作中用到的东西和我读统计学博士学位时学到的东西差别很大。并不是说我的统计学知识毫无用武之地,相反,我在学校学到的东西为我思考问题提供了一个框架,统计学的很多知识都为我的日常工作提供了坚实的理论和实践基础。

工作期间,我发现必须掌握很多在学校没学到的东西,比如计算、编程、数据可视化技能和许多领域知识。这种经验既特殊又普遍,我拥有统计背景,因此需要补充前面提到过的那些知识,而若换作一位计算机、社会学或者物理学背景的人,他们也需要根据自己的知识缺陷去补充相应的知识。每个人都拥有自己独特的知识结构,重要的是大家能够紧密合作,取长补短,组成一个团队去解决数据问题。

一般人对上述故事肯定会有这样一种想法:你走上工作岗位后就会发现,在学校学到的知识,远远不能满足实际工作的需要。因此,本书中教授的统计学知识与业界所应用的统计学方法,肯定也是不尽相同的。对此,我们有一些自己的看法。

为什么学校里的统计要和工业界的统计如此不同?为什么很多学校的课程要和现实如此脱节?

这种差异不仅存在于学校里的统计和工业界的统计之间。很多数据科学家的一个共同感受是,工作时他们需要接触更多的知识、方法论和工序(详见第2章),而这些东西都是以统计学和计算机科学为基础的。

抛却这些媒体给予数据科学的光环,只有一件事是实在的:数据科学是一个新生事物。它刚刚诞生,却被赋予了太多荣耀,使人们对其充满了很多不切实际的幻想,而幻想最终是会破灭的。我们要保护数据科学,过分吹捧可能会让这个新兴领域过早夭折。

Rachel决定去研究数据科学这一文化现象,她想了解其他人对数据科学的感受。她开始和谷歌的人接触,和很多创业公司和高科技公司的人接触,和大学(特别是统计系)里的老师们接触。

从这些接触中,Rachel觉得数据科学的轮廓渐渐清晰起来,她进一步深入,决定在哥伦比亚大学开设一门数据科学导论课程,与此同时Cathy在博客上连载了该课程的讲义。我们期望在这门课程结束时,我们和学生们能对数据科学的本质有一个清晰的理解。现在我们把课程的内容集结成书,也是希望帮助更多的人去了解数据科学。

数据科学的定义:一个跨学科领域,它结合了统计学、信息科学和计算机科学的科学方法、系统和过程,通过结构化或非结构化数据提供对现象的洞察。

数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。

数据科学家综合利用一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。数据是创新的基石,但是只有数据科学家从数据中收集信息,然后采取行动,才能实现数据的价值。

知识科普:数据学(Dataology)和数据科学(DataScience)是关于数据的科学,定义为研究探索Cyberspace中数据界奥秘的理论、方法和技术。

主要有两个内涵:一个是研究数据本身;另一个是为自然科学和社会科学研究提供一种新方法,称为科学研究的数据方法。

数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理,数据科学的知识体系。

数据科学一个过程(process),而非事件。在这个过程中人们使用数据来了解事物,了解这个世界。比如说当你有一个问题的模型或假设,你会试着通过数据来验证这个假设或模型。

数据科学是一门艺术,揭开那些隐藏在数据背后的观点和趋势,将数据编译成一个故事,以说故事的方式(storytelling)激发新的视角,再利用这些视角、观点、想法为企业或机构做出战略选择。

数据科学是一个领域,是关于从各种形式中进行数据提取的过程和系统,无论数据是非结构化还是结构化的。

数据科学是对数据的研究,正如生物科学是研究生物,物理科学研究物理反应一样。数据是真实的,具有实际属性,是需要我们对其进行研究的。

数据科学涉及数据(data)和一些科学(science)。其定义或名称于上个世纪80至90年代开始出现,当时一些教授正在研究统计学(statistics)课程,而他们认为最好称之为数据科学。

什么是数据科学?简言之,相比科学,更多的是关于数据的。如果你有数据,并且有好奇心,你就会开始使用数据、控制数据、探究数据,通过分析数据、试图从中得到答案的这样一个过程就是数据科学。

数据科学与当今世界息息相关,因为可以获取到大量的数据源。与过去担心数据不足不同,如今数据汹涌而至。过去没有算法,如今有了;过去软件昂贵,如今开源免费;过去无法存储大量数据,如今获取大量数据集只需花费很小的成本。在这个时代,数据处理工具,数据源易得,以及存储和分析数据的能力,都是成本较为低廉、易获取且无处不在的。


转载请注明原文地址:https://juke.outofmemory.cn/read/2889866.html

最新回复(0)