延云YDB基于spark进行数据分析的一种新方式

xiaoxiao2021-03-25 73

YDB全称延云YDB，是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎，具有万亿数据规模下的秒级性能表现，并具备企业级的稳定可靠表现。

YDB是一个细粒度的索引，精确粒度的索引。数据即时导入，索引即时生成，通过索引高效定位到相关数据。YDB与Spark深度集成，Spark对YDB检索结果集直接分析计算，同样场景让Spark性能加快百倍。

YDB的主要特性

YDB的即席分析（Ad Hoc）概念的解释

1：当场，就是当场去查询，现场随意、即兴查询。

2：响应时间要求为几秒才能称为即席。

即席分析与普通分析的区别

1.普通的应用分析是定制开发的，大多是预先计算好的。

2.即席分析是用户在使用时临时生产的分析，查询条件事先未知，系统无法预先优化这些查询，在现场没法预先准备，所以即席查询的性能也是评估数据仓库的一个重要指标。

按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中，我们改变了传统的暴力排序方式，通过索引技术，可以超快对数据进行单列排序，不需要全表暴力扫描，这个技术我们称之为BlockSort。

1.传统关系型数据，已经无法容纳更多的数据，查询效率严重受到影响的用户。

2.目前在使用SOLR、ES做全文检索，觉得solr与ES提供的分析功能太少，无法完成复杂的业务逻辑，或者数据量变多后SOLR与ES变得不稳定，在掉片与均衡中不断恶性循环，不能自动恢复服务，运维人员需经常半夜起来重启集群的情况。

3.基于对海量数据的分析，但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。

4.需要对用户画像行为类数据做多维定向分析的用户。

5.需要对大量的UGC（User Generate Content）数据进行检索的用户。

6.当你需要在大数据集上面进行快速的，交互式的查询时。

7.当你需要进行数据分析，而不只是简单的键值对存储时。

8.当你想要分析实时产生的数据时。

转载请注明原文地址: https://ju.6miu.com/read-34226.html

最新回复(0)