博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
创建ORC结果表
阅读量:7043 次
发布时间:2019-06-28

本文共 639 字,大约阅读时间需要 2 分钟。

创建ORC结果表

ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩,以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。

DDL定义

Flink支持使用ORC格式文件作为输出,示例代码如下。

 
  1. create table orc_source(
  2. id int,
  3. user_name VARCHAR,
  4. content VARCHAR,
  5. primary key(id)
  6. ) with (
  7. type='orc',
  8. filePath='hdfs://hdfshome/orcpath/test'
  9. );

WITH参数

参数 注释说明 备注
filePath 文件路径 目前支持hdfs、oss两种文件系统。
writeMode 默认为None
compressionCodecName 压缩格式
本文转自实时计算——

转载地址:http://pqhal.baihongyu.com/

你可能感兴趣的文章
C# 控制台程序如何输出Messagebox
查看>>
UGUI 的多分辨率适配
查看>>
史上最全: svn与git的对照(二):svn与git的相关概念
查看>>
第38周星期六小结
查看>>
一个用于整体移动文件夹的方法,简练实用
查看>>
中国将QFII总额度增至3000亿美元
查看>>
WWDC2016 Session笔记 - iOS 10 UICollectionView新特性
查看>>
[译] 在大型应用中使用 Redux 的五个技巧
查看>>
【译】你不知道的 Chrome 调试工具技巧 第二十一天:Snippets(代码块)
查看>>
css3媒体查询简介
查看>>
Dubbo超时控制源码分析
查看>>
iOS10下使用AutoLayout动画失效解决
查看>>
Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)
查看>>
Android 性能优化(十二)之我为什么写性能优化
查看>>
软技能-代码之外的生存指南7(精神)
查看>>
Omi 树组件 omi-tree 编写指南
查看>>
Kubernetes 准入控制 Admission Controller 介绍
查看>>
Kotlin协程快速入门
查看>>
AudioKit 入门教程
查看>>
日吞吐万亿,腾讯云时序数据库CTSDB解密
查看>>