您现在的位置是:主页 > 数据存储 >

北京大数据研究院-雪花中的自动聚类、物化视图和自动维护

2020-10-27 15:10数据存储 人已围观

简介雪花中的自动聚类、物化视图和自动维护2018年11月13日|3分钟读取作者:阿丁·阿凡斯工程,雪花新闻性能和规模是雪花的核心。从第一天开始,创建团队就专注于构建一个快速、零维...

雪花中的自动聚类、物化视图和自动维护

雪花中的自动聚类、物化视图自动维护2018年11月13日|3分钟读取作者:阿丁·阿凡斯工程,雪花新闻性能和规模是雪花的核心。从第一天开始,创建团队就专注于构建一个快速、零维护的云构建数据仓库。由于并发性限制,云主机服务器,雪花用户专注于分析任务,而不是不断优化数据仓库或投资于复杂的工作负载管理。从今天起,雪花将提供两种新的自动化和性能功能。它们是雪花在无需客户管理或维护的情况下提供最佳性能和可扩展性的最新改进。它们也为未来几个月内的一系列新特征奠定了基础。 自动聚类雪花的自动聚类功能现在可用于所有区域和云。自动集群是一个标准特性,客户可以通过联系雪花技术支持来实现。对于遗留的内部部署和云数据仓库,不断优化底层数据存储是用户的负担。这包括更新索引和统计信息、加载后清空过程、选择正确的分布键、处理由于倾斜增大而导致的分区缓慢以及需要在新数据到达或修改时手动重新排序数据。使用Snowflake,如果在存在各种数据访问模式的情况下,自然的摄取顺序不够,用户可以定义集群表。现在,我们引入了Snowflake的自动集群,它不断地维护定义为集群表的表的最佳集群,而不会对生产工作负载产生任何影响。好处包括:不需要运行手动操作来重新群集数据。当新数据到达或大量数据被修改时,教育大数据,免费大数据,增量聚类。由DML操作(INSERT、DELETE、UPDATE、MERGE)组成的ETL管道可以并发运行,并且不会被阻塞。用户可以根据每个表恢复和挂起自动集群,并且只为所使用的计算资源付费。物化视图与自动维护雪花的物化视图(MVs)是基于每个请求的公共预览,在我们的企业版中提供。当我们看到一个古老的数据库和优化挑战时,我们关注了一些我们想要实现的关键设计原则,以避免传统方法的痛点:确保在MVs存在的情况下快速执行DML操作—在针对基表发出DML语句时不会减速,这在传统数据仓库系统中很常见。在访问MVs时提供始终、最新和一致的查询结果。通过提供一个在后台持续运行和更新MVs的维护服务来确保易用性,并且对最终用户是完全透明的。我们在这个雪花MVs的初始版本中启用的主要用例是:使用不同的集群键定义大量mv,从而提高不同访问模式的查询性能具体化单表聚合。 使用扁平化或近似查询(抽样)对半结构化数据进行物化查询结果和分析。 可伸缩计算服务:无需管理基础设施这两个特性都建立在我们可扩展的多集群虚拟仓库技术之上,淘客推广联盟,完全由雪花管理。这意味着雪花可以在后台高效地自动执行重新聚类或MV refresh语句。无需创建、调整或调整虚拟仓库的大小。在后台集群的情况下,compute服务连续监视所有注册的集群表的集群质量。它从最不受信任的微分区开始,淘客网店推广平台,迭代地执行集群,直到达到最佳的集群深度。对于MVs,compute服务监视基表,并在检测到重大更改时启动相应mv的刷新语句。所有依赖的mv的维护过程是异步的。在用户访问尚未更新的MV时,Snowflake的查询引擎将与基表执行组合执行,以始终确保查询结果的一致性。与Snowflake的自动集群功能类似,它可以根据每个表恢复或挂起,用户可以在每MV的基础上恢复和挂起自动维护。结论和承认我们感谢众多的预演参与者,感谢他们在整个测试过程中为我们提供了宝贵的反馈。我们的客户群的早期采用是令人鼓舞的,我们将继续听取他们的反馈。这只是一系列与性能、自动化和可管理性相关的附加功能的开始,我们将在未来几周和几个月内宣布。在这里了解有关物化视图、自动集群和自动维护的更多信息。附加链接用物化视图解决多聚类性能问题就像你读的?通过喜欢和分享来表达你的感激之情!Facebook推特LinkedIn

Tags: 维护  中的  聚类  视图  物化  自动  雪花 

站点信息

  • 文章统计3903篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们