大数据技术是啥?

活死人系列2022-07-12  8

以问答百科为例,讲述大数据的故事。以下数字不真实,都是我的假设。

比如每天有1亿用户在问答百科上回答问题或者阅读问答。

每天产生的内容假设每天平均有1000万用户回答一个问题。一个问题平均1000字,一个汉字平均占2字节,三张图,一张图平均占300KB。那么一天的数据量是:

总文本:10,000,000 * 1,000 * 2 B = 20 GB

图片总数:10,000,000 * 3 * 300KB = 9 TB

为了收集用户行为,所有进入和离开测验页面的用户。点击、查询、停留、喜欢、转发、收集记录并存储。这个量级比较大。

所以粗略估计一天20TB的数据量。一般PC配置1TB左右,一天需要20台PC的存储。

如果有一个月的数据或者一年的数据,就可以算出有多少。传统的数据库系统很难在数量上实现。

另外,这些数据都是文档类型的数据。需要多种存储系统支持,如NoSQL数据库。

需要分布式的数据存储,比如Hadoop的HDFS。

以上1000万个回答,会有1亿人阅读。有数百个系统提供服务。这些数据需要在互联网上的各个系统之间来回传输。需要一个像Kafka这样的消息系统。

同时在线人数高峰时可能达到数千万。如此高的流量需要多台前端服务器同时提供一致的服务。为了给用户提供二级服务表示,需要redis这样的缓存系统。

机器学习,智能推荐所有的内容,包括图片,也会用机器学习分析,从而得到每个用户的喜好,给用户推荐合适的内容和广告。还有这么大的数据量,必须实时分析、审核、审批,才能发布。人工审核肯定做不到,必须用机器进行智能分析,这需要模式识别、机器学习和深度学习。实时计算需要Spark、Flink等流计算技术。

服务器管理数以千计的服务器,协同工作。而且网络硬件也会经常出问题。这么多资源的有效利用,需要使用云计算技术、K8S等容器管理工具。还需要分布式系统的可靠性和容灾技术。

我,@小马过河Vizit,重点分享分布式系统的原理和实践。希望动画能生动准确的演示抽象的原理。欢迎关注。

关于我的名字。小马过河Vizit的意思是一切都像小马过河,需要自己去尝试。只有探索,才能有乐趣和新知。Vizit指的是Visualize it的缩写。一张图胜过千言万语。希望可以用动画把一些抽象的原理形象化。

转载请注明原文地址:https://juke.outofmemory.cn/read/695746.html

最新回复(0)