10 个你不知道的 PostgreSQL 功能

发布时间：2018-09-16 19:52:49 所属栏目：MySql教程来源：开源中国编译

导读：技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战英文原文：The Postgres 10 feature you didn't know about: CREATE STATISTICS 如果你曾使用 Postgres 做过一些性能优化，你或许已经使用过 EXPLAIN 。EXPLAIN 向你展示了 Postgre

planner 的估计减少了100倍！让我们试着理解为什么发生这种情况。
第一个列的选择性约为 0.001（1/1000），第二个列的选择性为 0.01（1/100）。要计算将由这两个“独立”条件过滤的行数，planner 会将它们的选择性相乘。所以，我们得到：

选择性= 0.001 * 0.01 = 0.00001。

当它乘以我们在表中的行数即 10000000 时，我们得到 100。这就是 planner 对 100 的估计值的来源。但是，这些列不是独立的，那么我们如何告知 planner ？

在 PostgreSQL 中创建统计信息

在 Postgres 10 之前，没有一种简易的方式去告诉 planner 采集捕捉列之间关系的数据统计。但是， Postgres 10 有一个新特性正好解决了这个问题，可以使用 CREATE STATISTICS 来创建扩展统计的对象，告诉服务器去采集这些有意思的相关列的额外的统计信息。

函数依赖统计

回到我们先前评估的问题，col2 的值仅仅是 col1/10 。在数据库的术语中，我们会说 col2 是函数依赖于 col1 ，也就是说，col1 的值足以决定 col2 的值，并且不存在有两行数据拥有相同的 col1 值的同时有不同的 col2 值。因此，在 col2 列上的第二个过滤筛选并没有移除任何行！但是，planner 捕捉到了足够的统计信息去知道这件事情。

让我们来创建一个统计对象去捕获这些列和运行分析（ANALYZE）所依赖的函数统计。

CREATE STATISTICS s1 (dependencies) on col1, col2 from tbl;  
ANALYZE tbl;

让我们来看看现在的计划是怎么来的。

EXPLAIN ANALYZE SELECT * FROM tbl where col1 = 1 and col2 = 0;                             
                                                QUERY PLAN                                                  
----------------------------------------------------------------------------------------------------------- 
 Seq Scan on tbl  (cost=0.00..194247.76 rows=9584 width=8) (actual time=0.638..629.741 rows=10000 loops=1) 
   Filter: ((col1 = 1) AND (col2 = 0)) 
   Rows Removed by Filter: 9990000 
 Planning time: 0.115 ms 
 Execution time: 630.076 ms 
(5 rows)

很好！让我们看一下对计划的测量。

SELECT stxname, stxkeys, stxdependencies                                                   
  FROM pg_statistic_ext                                                                    
  WHERE stxname = 's1';    
stxname | stxkeys |   stxdependencies     
---------+---------+---------------------- 
 s1      | 1 2     | {"1 => 2": 1.000000} 
(1 row)

看这里，我们可以看到， Postgres 意识到 col1 完全决定 col2 ，因此用系数1来捕获这些信息。现在，所有的查询都过滤这些列之后，计划将会得到更好的评估。

ndistinct 统计

函数依赖是你可以在列之间捕获的一种关系。你可以捕获的另一种统计信息是一组列的不同值。我们之前指出，planner 可以获取每列不同值的统计数字，但再次合并多列时，这些统计数据往往是错误的。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页