众所周知,算法、计算能力和数据是人工智能(AI)发展的“三驾马车”。吴恩达和其他学者常说:以数据为中心的人工智能或数据驱动的人工智能。
可见,近年来数据的激增是AI腾飞的动力之一,数据在AI中扮演着重要的角色。
那么,人们常说的“大数据”的规模是多少呢?出于好奇,意大利物理学研究员卢卡·克里萨(Luca Clissa)调查了几个知名大数据源(谷歌搜索、脸书、网飞、亚马逊等)的规模。),并将它们与大型强子对撞机(LHC)的电子设备检测到的数据进行了比较。
地址:https://arxiv.org/pdf/2202.07659.pdf
毫无疑问,LHC的数据量是惊人的,高达40k EB。然而,商业公司的数据量不容小觑。比如亚马逊S3存储的数据量已经达到了500 EB左右,大致是谷歌搜索(62 PB)的7530倍。
此外,流数据在大数据市场也占有一席之地。网飞和电子通信等服务产生的流量比纯数据生产商多一两个数量级。
1,LHC的数据量
根据Luca Clissa的调查,2021年主要知名数据源的容量如下:
图注:2021年大数据规模
右上角(灰色部分)是CERN的大型强子对撞机(LHC)实验的电子设备探测到的数据,是最大的。
在最后一次运行(2018年)中,LHC在四大实验(ATLAS、ALICE、CMS和LHCb)中的每一次都产生了每秒约24亿次粒子碰撞,每次碰撞可以提供约100 MB的数据,因此原始数据的估计年产量约为40kb(= 10亿千兆字节)。
但是按照现在的技术和预算,是不可能存储40KB的数据的。而且,其实只有一小部分数据是有意义的,没必要把所有数据都记录下来。记录的数据量也减少到了每天1 PB左右。2018年只收集了160 PB的真实数据和240 PB的模拟数据。
此外,收集的数据通过WLCG(全球LHC计算网络)持续传输,2018年产生了1.9k PB的年流量。
然而,欧洲核研究组织(CERN)正在努力加强LHC的能力,并升级HL-LHC。这一过程产生的数据量预计将增长5倍以上,到2026年,预计每年将产生800 PB的新数据。
2。大厂数据量对比
大公司的数据量很难跟踪,数据通常不会公开。对此,卢卡·克里萨(Luca Clissa)采用费米估计,将数据生产过程分解为其原子成分,进行了合理的猜测。
例如,对于特定的数据源,检索给定时间窗口内生成的内容量。然后,我们可以通过合理猜测这些内容的单位大小来推断数据总量,比如平均邮件或图片大小,一个小时视频的平均数据流等等。
他估算了谷歌搜索、YouTube、脸书等数据来源,得出如下结论:
谷歌搜索:最近的一项分析估计,谷歌搜索引擎包含30到500亿个网页。根据Web Almanac提供的信息,假设Google的年平均页面大小约为2.15 MB,那么到2021年Google搜索引擎的总数据量应该在62 PB左右。
YouTube: 根据Backlinko的数据,2021年,用户每天在YouTube上上传的视频时长为72万小时。假设平均大小为1 GB(标清),2021年YouTube的数据大小约为263 PB。
脸书和Instagram : Domo的数据从不睡觉9.0报告估计,2021年,脸书和Instagram每分钟上传的图片数量分别为240k和65k。假设平均大小为2 MB,总计约为252 PB和68 PB。
DropBox:虽然DropBox本身不产生数据,但它提供云存储解决方案来托管用户的内容。2020年,该公司宣布新增用户1亿,其中付费用户117万。通过猜测免费和付费订阅的占用率分别为75%(2 GB)和25%(2 TB),2020年Dropbox用户将需要约733 PB的存储空间。
电子邮件:根据Statista的数据,从2020年10月到2021年9月,用户发送了近13,100亿封电子通信(其中包括7,100亿封电子邮件和6,000亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为75 KB和5 KB,我们可以估算出邮件总流量约为5.7k PB。
网飞: Domo预计2021年网飞用户每天将消耗1.4亿小时的流媒体,假设每小时1 GB(标清),总计约51.1k PB。
亚马逊:亚马逊网络服务(AWS)的首席传道者杰夫·巴尔(Jeff Barr)表示,截至2021年,亚马逊S3(简单存储服务)中存储了超过100万亿个对象。假设每桶的平均对象大小为5 MB,存储在S3的文件总大小约为500 EB。
一般来说,科学数据在数量上可以与商业数据源相媲美。
参考链接:
1 . https://towards data science . com/how-big-are-big-data-in-2021-6 DC 09 aff 5 ced
2 . https://first site guide . com/Google-search-stats/
3.https://backlinko.com/
4 . https://MMS . business wire . com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200 px . jpg?下载=1
5 . https://back linko . com/Dropbox-users
6.https://www.statista.com/
7 . https://AWS . Amazon . com/cn/blogs/AWS/Amazon-s3s-15岁生日仍在5475天之后1天100万亿对象/
8.https://atlas.cern/
编辑的责任:随意纠正错误。
主题:谷歌大数据搜索