万字长文揭秘：阿里如何实现海量数据实时分析？(2)

2018-12-18 23:14:29

事实表创建时至少要指定Hash分区列和相关分区信息，并且指定存放在一个表组中，同时支持List二级分区。

[转载出处：www.11jj.com]

[原文来自：www.11jj.com]

Hash Partition将数据按照分区列进行hash分区，hash分区被分布到多个Compute Node中。

List Partition(如果指定List分区列的话)对一个hash分区进行再分区，一般按照时间(如每天一个list分区)。

一个Hash Partition的所有List Partition默认存放于同一个Compute Node中。每个Hash Partition配有多个副本（通常为双副本），分布在不同的Compute Node中，做到高可用和高并发。

维度表可以和任意表组的任意表进行关联，并且创建时不需要配置分区信息，但是对单表数据量大小有所限制，并且需要消耗更多的存储资源，会被存储在每个属于该DB的Compute Node中。

下图描述了从Database到List分区到数据模型：

万字长文揭秘：阿里如何实现海量数据实时分析？(2)

对于Compute Node 来说，事实表的每个List分区是一个物理存储单元（如果没有指定List分区列，可认为该Hash分区只有一个List分区）。一个分区物理存储单元采用行列混存模式，配合元数据和索引，提供高效查询。

海量数据

基于上述数据模型，AnalyticDB提供了单库PB级数据实时分析能力。以下是生产环境的真实数据：

阿里巴巴集团某..应用单DB表数超过20000张

云上某企业客户单DB数据量近3PB，单日分析查询次数超过1亿

阿里巴巴集团内某单个AnalyticDB集群超过2000台节点规模

云上某业务实时写入压力高达1000w TPS

菜鸟网络某数据业务极度复杂分析场景，查询QPS 100+

导入导出

灵活的数据导入导出能力对一个实时数仓来说至关重要，AnalyticDB当前既支持通过阿里云数据传输服务DTS、DataWorks数据集成从各种外部数据源导入入库，同时也在不断完善自身的数据导入能力。整体导入导出能力如下图（其中导入部分数据源当前已支持，部分在开发中，即将发布）。

万字长文揭秘：阿里如何实现海量数据实时分析？(2)

★ 数据导入

首先，由于AnalyticDB兼容MySQL5.x系列，支持通过MySQL JDBC方式把数据insert入库。为了获得最佳写入性能，AnalyticDB提供了Client SDK，实现分区聚合写的优化，相比通过JDBC单条insert，写入性能有10倍以上提升。对于应用端业务逻辑需要直接写入AnalyticDB的场景，推荐使用AnalyticDB Client SDK。

同时，对于快速上传本地结构化的文本文件，可以使用基于AnalyticDB Client SDK开发的Uploader工具。对于特别大的文件，可以拆分后使用uploader工具进行并行导入。

另外，对于OSS，MaxCompute这样的外部数据源，AnalyticDB通过分布式的Connector Service数据导入服务并发读取并写入到相应DB中。Connector Service还将支持订阅模式，从Kafka，MQ，RDS等动态数据源把数据导入到相应DB中。AnalyticDB对大数据生态的Logstash，Fluentd，Flume等日志收集端、ETL工具等通过相应插件支持，能够快速把数据写入相应DB。

今天在阿里巴巴集团内，每天有数万张表从MaxCompute导入到AnalyticDB中进行在线分析，其中大量导入任务单表数据大小在TB级、数据量近千亿。

★ 数据导出

AnalyticDB目前支持数据导出到OSS和MaxCompute，业务场景主要是把相应查询结果在外部存储进行保存归档，实现原理类似insert from select操作。insert from select是把查询结果写入到内部表，而导出操作则是写入外部存储, 通过改进实现机制，可以方便地支持更多的导出数据源。

核心技术

高性能SQL Parser

AnalyticDB经过数年的发展，语法解析器也经历了多次更新迭代。曾经使用过业界主流的 Antlr（http://www.antlr.org），JavaCC(https://javacc.org)等Parser生成器作为SQL 语法解析器，但是两者在长期、大规模、复杂查询场景下，Parser的性能、语法兼容、API设计等方面不满足要求，于是我们引入了自研的SQL Parser组件FastSQL。

★ 领先业界的Parser性能

AnalyticDB主打的场景是高并发、低延时的在线化分析，对SQL Parser性能要求很高，批量实时写入等场景要求更加苛刻。FastSQL通过多种技术优化提升Parser性能，例如：

快速对比：使用64位hash算法加速关键字匹配，使用fnv_1a_64 hash算法，在读取identifier的同时计算好hash值，并利用hash64低碰撞概率的特点，使用64位hash code直接比较，比常规Lexer先读取identifier，在查找SymbolTable速度更快。

高性能的数值Parser：Java自带的Integer.parseInt()/Float.parseFloat()需要构造字符串再做parse，FastSQL改进后可以直接在原文本上边读取边计算数值。

分支预测：在insert values中，，出现常量字面值的概率比出现其他的token要高得多，通过分支预测可以减少判断提升性能。

以TPC-DS99个Query对比来看，FastSQL比Antlr Parser（使用Antlr生成）平均快20倍，比JSQLParser（使用JavaCC生成）平均快30倍，在批量Insert场景、多列查询场景下，使用FastSQL后速度提升30~50倍。

万字长文揭秘：阿里如何实现海量数据实时分析？(2)

★ 无缝结合优化器

上一篇：【专访】奇点汽车联合创始人杜宝南：汽车变酒吧？未来的智能汽车生活长这样
下一篇：华登区块宠物狗系统开发

小编推荐

1
数字易经0到9代表什么卦（数字易经测算）
大家好，小伟今天来为大家解答数字易经0到9代表什么卦以下问题，数字易经测算很多人还不知道，现在让我们一起来看看吧！1、数字1代表坎水、数
2
苹果手机呼叫转移怎么设置（苹果手机呼叫转移怎么设置无法接通）
大家好，小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题，苹果手机呼叫转移怎么设置无法接通很多人还不知道，现在让我们一起来看看
3
中国红十字会标志简笔画（中国红十字会标志简笔画）
大家好，小豪今天来为大家解答中国红十字会标志简笔画以下问题，中国红十字会标志简笔画很多人还不知道，现在让我们一起来看看吧！1、保护性
4
八年级下册语文书人教版电子书（八年级下册语文书人教版电子书2022）
大家好，小美今天来为大家解答八年级下册语文书人教版电子书以下问题，八年级下册语文书人教版电子书2022很多人还不知道，现在让我们一起来看
5
古伊尔（魔兽古伊尔）
大家好，小丽今天来为大家解答古伊尔以下问题，魔兽古伊尔很多人还不知道，现在让我们一起来看看吧！1、古伊尔是魔兽世界里面部落的一个酋长
6
唯一极值点问题
在高档数学的进修中，我们经常会碰着独一驻点的问题，在非常宽松的前提下，这个独一的驻点也就是极值点。今天我们稍微改变一下前提，商量如
7
三公九卿制是什么（三公九卿制是什么朝代的制度）
大家好，小乐今天来为大家解答三公九卿制是什么以下问题，三公九卿制是什么朝代的制度很多人还不知道，现在让我们一起来看看吧！1、三公九卿
8
订房网哪个平台好（订房什么网最便宜）
大家好，小娟今天来为大家解答订房网哪个平台好以下问题，订房什么网最便宜很多人还不知道，现在让我们一起来看看吧！1、携程、美团、艺龙、

万字长文揭秘：阿里如何实现海量数据实时分析？(2)

核心技术

热门文章

小编推荐