阿里云odps是什么？

南海农商银行2023-01-29 22

ODPS（Open Data Processing Service），是阿里巴巴通用计算平台提供的一种快速、完全托管的GB/TB/PB级数据仓库解决方案，现在已更名为MaxCompute，MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

1. 什么是ODPS

简单讲就是数据仓库，可以存储海量数据，可针对海量数据进行分析、计算。

本命其实叫 MaxCompute ，本文介绍统称为ODPS

官方文档链接： https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.542.17ae65d4wAeKXV

DataWorks 开发套件

是数据工场，对ODPS数据进行加工处理，主要提供了：数据集成、数据开发、数据管理、数据治理、数据分享等功能。

官方文档链接： https://help.aliyun.com/document_detail/73015.html?spm=a2c4g.11186623.2.13.5ef65b9cBmTZdQ#concept-wqv-qbp-r2b

2. 登录篇（阿里云子账号）

子账号登录地址： https://signin.aliyun.com/login.htm

产品列表：数加 · DataWorks

账号赋权：如需要进行数据开发，需要根据业务需求，赋对应的工作空间的对应权限。

进入DataWorks> 工作空间列表页面，单击对应项目中的进入工作区，即可进入数据开发页面。（如下图）

2.使用篇

目前数据仓库的整体概况

目前承载的业务

业务操作日志备份分析

其他日志：系统运行日志

BI 数据分析相关（市场部BI）

开发前环境准备

开通DataWorks 权限的子账号

创建项目（1）

官方的文档： https://help.aliyun.com/document_detail/27815.html?spm=a2c4g.11186623.6.568.60d01df0XvZAoh

目前我们的工作空间

新建调度资源（2）

一般进行简单的数据分析只需要默认的调度资源就满足业务需求（目前的模式就是按量付费）

需要进行特殊的数据集成、数据操作时会用到自定义资源

PyOdps 资源组：执行py脚本的资源组

mongoDB 资源组：进行MongDb -->ODPS 时会用到资源进行数据同步。

新增数据源（3）

路径：选择项目 ->选择数据集成 ->同步资源管理 ->数据源

按照官方文档新增即可

数据源列表

批量数据上云（4）

路径：选择项目 ->选择数据集成 ->同步资源管理 ->数据源 ->整库数据迁移

数据开发前准备工作完成，可以进入开发阶段。

3 开发篇

数据开发

基本概念：

业务流程：解决一个业务的抽象模型，可以是一个问题的处理流程。

解决方案：多个业务流程组合成一个解决方案，在同一个解决方案里面可以复用相同的业务流程。

其他的概念： https://help.aliyun.com/document_detail/73017.html?spm=a2c4g.11186623.6.543.3b757c78aHPhAD

数据开发流程：

选取两个现有的业务进行数据开发演示

财务部门需求

数据埋点分析

流程图如下

4 运维

运维中心：

命令格式如下：

其中，各字段代表含义如下：

• Owner（表的属主）。

• Project：表所属的项目空间。

• CreateTime：创建时间。

• LastDDLTime：最后一次DDL操作时间。

• LastModifiedTime：表中的数据最后一次被改动的时间。

• InternalTable：表示被描述的对象是表，总是显示YES。

• Size：表数据所占存储容量压缩后的大小，压缩比一般为5倍，单位Byte。

• Native Columns：非分区列的信息，包括列名、类型和备注。

• Partition Columns：分区列信息，包括分区名、类型和备注。

• Extended Info：外部表StorageHandler 、Location等信息。

转载请注明原文地址:https://juke.outofmemory.cn/read/2818510.html

00 生成海报

阿里云odps是什么？

数据

数据源

资源

业务

项目

日本历史年表

法国葡萄酒五大名庄是什么？