PetaBase
近年来,实时大数据快速发展,并扎根于科技金融、车联网、物联网、电商、智慧城市等应用场景,创造新的价值。毋庸置疑,数据越实时价值越大,秒级甚至毫秒级的实时流式大数据计算场景层出不穷。并且当下,从数据产生到分析结果的计算,数据时效性对业务的蓬勃发展起到更至关重要的作用。
而针对当前大数据领域分析场景需求各异而导致的存储问题,亿信华辰则提供了一种新的融合数据存储方案,能融合不同架构的统一数据管理平台即PetaBase-s实时大数据平台。与早期的分布式数据库产品相比,PetaBase-s全面升级为实时大数据平台。它基于开源Hadoop框架开发,融合MPP、SQL on Hadoop、流处理等大数据技术,支持海量数据的高效储存和统一管理,为企业决策提供实时的数据支撑。
这些年,我们一直在致力于解决两个问题:
1)数据量不断快速增长,期望获取、处理和存储要求的时间越来越短;
2)用户对即时查询(hoc query)响应的要求越来越高。
在经过近一年紧张有序的开发和大量测试之后,PetaBase-s在功能和性能上都实现大幅度的提升。它就可以解决星形模型、企业数据仓库以及集成的先进分析混合模型分析等应用场景,从传统数据仓库用例到敏捷快速的实时数据智能平台,PetaBase-s实时大数据平台都很适合。
△产品架构图
下面让我们一起来看看 PetaBase-s 实时大数据平台都有哪些重要特性:
01全面扩展开源软件
早期的PetaBase分布式数据库集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共计5个主流组件,主要面向海量数据集的交互式联机分析场景。
新版的PetaBase-s实时大数据平台采用了全新的企业级平台框架,以开源的Ambari作为平台统一管理工具,集成了诸多主流开源组件,数量总计近20个。其中包括:YARN(统一资源管理)、HBase(列存NoSQL数据库)、Spark(快速通用的、基于内存的、分布式的计算引擎)、Kudu(支持单条记录级别的增删改查的存储系统)、Kafka(分布式发布订阅消息系统)、Flume(分布式的海量日志采集系统)、Sqoop(关系型数据库与hdoop之间的数据ETL工具)等。
无论你需要处理的数据结构是哪种:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,PetaBase-s都能处理。在海量的非结构化/半结构化/结构化数据集上同时进行离线计算和流式处理,还能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
02支持单行记录级的增删改查
PetaBase-s实时大数据平台引入了新的存储系统——Kudu。Kudu是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。Kudu引擎不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。
本文由搜财资讯网发布,不代表搜财资讯网立场,转载联系作者QQ 841991949,并注明出处:https://www.ncrw.com.cn/news/keji/51718.html