大数据处理流程包括哪些
系统:Windows 10
软件版本:
大数据处理流程包括:数据采集、数据预处理、数据入库、数据分析和数据呈现。
1.数据收集的概念:目前业内有两种解释:一是数据从无到有的过程(web服务器打印的日志,用户收集的日志等。)称为数据收集;另一方面,使用Flume等工具将数据收集到指定位置的过程称为数据收集。
2.数据预处理:利用mapreduce程序对采集的原始日志数据进行预处理,如清洗、格式化、过滤掉脏数据等。,并将其整理成点击流模型数据。
3.数据仓库:将预处理后的数据导入到HIVE仓库中相应的数据库和表中。
4.数据分析:项目的核心内容是根据需求开发ETL分析报表,获取各种统计结果。
5.数据展现:将分析得到的数据可视化,一般通过图表展示。