GP SQL 优化
2018-06-17 20:01:36来源:未知 阅读 ()
1、收集统计信息
vacuum full analyze ZCXT.ZCOT_PS_PROJECT;
2、检查表的数据量分布
select gp_segment_id,count(*) from fact_table group by gp_segment_id;
3、表结构上
建议创建表的时候,分布键放在最前面,接着是分区键,接着是大字节的字段到小字节。
4、分布键
把连接键定义为数据分布键(如果多个列作为数据分布键,他们应该都出现在连接中,否则还是会造成无效广播),常用于join和where条件的列作为分布键,最典型的例子是两张做join的表都用需要连接的列作为分布键。
5、写法上
(1)、不用distinct,改用group by
(2)、UNION操作应该用UNION ALL加GROUP BY的方式进行改写
(3)、一般不使用Index,索引的操作不超过5%
(4)关于or语法gp的OR语法效果很差,用
in (select 1 union all select 2) 代替 in (select 1 from t1) or in (select 2 from t2),
exists (select 1 union all select 2) 代替 exists (select 1 from t1) or exists (select 2 from t2),
特别是子查询中,括号内引用括号外的字段作为条件的情况,这种时候,同一张表多次引入来改写OR语句效率都比 or高
(5)关于并列查询
不要使用 (column_1,column_2) in (select c1,c2),而采用 exists,单字段没关系,2个及以上字段效率可能存在问题
6、执行计划上避免大表的广播
执行计划广播会显示 broadcast
GreenPlum有三种数据的移动操作,会体现在执行计划上
(1)、BroadCast Motion(N:N),广播数据。每个节点向其他节点广播需要发送的数据。
(2)、Redistribute Motion(N:N),重新分布数据。利用join的列值hash不同,将筛选后的数据在其他segment重新分布
(3)、Gather Motion(N:1),聚合汇总数据,每个节点将join后的数据发到一个单节点上,通常是发到主节点master。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:hive的join查询
下一篇:SQL基本语法
- 链接 Mysql 创建 数据库和创表,增加数据 2019-08-13
- 10道Python常见面试题 2019-07-24
- Django对接SQL Server服务 2019-07-24
- python虚拟环境virtualenv下安装MySQL-python(1.2.3) 2019-07-24
- python数据库-MySQL与python的交互(52) 2019-07-24
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash