杠杆实盘配资平台 走向现代化的数据仓库
数据仓库的诞生
自计算机诞生之初,其便以强大的计算能力在科学计算领域崭露头角。1946年,ENIAC的问世,主要用来满足美国军方对火炮弹道计算的迫切需求,这也标志着计算机时代的正式开启。然而,随着计算机技术的不断成熟,特别是对数据处理的需求日益增长,其应用领域逐渐扩展到商业领域。
起初,数据通过打孔卡片、穿孔纸带及顺序读写的磁带进行存储与处理,效率低下且容量有限。直至 20世纪 70年代,大容量磁盘技术的诞生,以其支持随机读写的特性,极大地提升了数据存取的效率,为数据库系统的诞生奠定了坚实基础。数据库系统迅速成为在线事务处理(OLTP)的核心工具,广泛应用于航空预订、银行系统等关键业务领域。
在这一过程中,企业逐渐认识到数据背后蕴藏的巨大价值,以及通过数据分析提取有价值信息的重要性。
正是这一认知的转变,催生了数据仓库技术的诞生与发展。
数据仓库的演进历程
数据仓库的发展已历经三十余年,其间经历了两次显著的技术选代,目前正步入全面现代化与革新的新阶段。
第一阶段:传统数据仓库(约1990年-2005年)
这一阶段,主要以存算一体的分析型数据库为底层核心技术,提供面向结构化数据、SchemaonWrite 的存储系统,并基于 MPP架构提供高性能查询系统。
20世纪 80年代末,Teradata 和 Gamma 项目开创了 MPP 并行数据处理架构在海量数据处理中的广泛应用。1992年,Teradata 公司为沃尔玛构建了全球第一个超过TB级别的数据仓库系统。1993年,“关系数据库之父”Edgar Codd 在他的白皮书《Providing OLAP to User-Analysts;An IT Mandate》中首次提出了 OLAP 这个名词。列式存储的普及,提升了查询效率与存储空间的利用率,在 2005 年新创建的 Vertica和 Greenplum 都全面采用了列式存储格式。
第二阶段:大数据平台(数据湖分析)(约2005年-2020年)
随着互联网的蓬勃发展,大数据时代的到来对数据处理提出了更高的要求。存算分离的大数据平台或数据湖成为主流的数据分析基础设施。在存储上,提供Scheme on Read 的存储系统,以便灵活存储结构化、半结构化和非结构化数据;在计算上,支持各种批量或者流式分析和计算引警,并支持机器学习和 AI计算引擎。
从 2003年到 2006年,Google 先后发布了GFS、MapReduce 和 Bigtable 三篇论文,标志着大数据平台的正式登场。从2006年到2014年,Apache Hadoop、Apache Hive、Apache Spark、ApacheKafka、Apache Flink等多个项目相继启动。
第三阶段:现代化数据仓库(约2020年-2035年)
当前,数据仓库正步入第三个发展周期,致力于在实时性、湖仓融合及云原生化三个方面实现现代化提升。
实时性:实时主要是指降低数据延迟和查询延迟。现代化数据仓库需要实现秒级别的数据导入和高并发的毫秒级查询。实时数仓主要倡导者有 Doris/SelectDB、ClickHouse、Elasticsearch 等。
湖仓融合:融合传统数据仓库的高性能和数据湖的开放性。现代化数据仓库需要灵活应对半结构化/非结构化数据的存储和分析;查询引擎可作为联邦查询引擎,访问除内表之外的其他数据源;存储引擎除了支撑 SQL查询分析接口,还需提供高吞吐的开放数据读写 API,以便各类查询或计算引擎能够高效访问所存储的数据。湖仓(Lakehouse)的主要倡导者有Databricks、Dremio、Trino/Starburst 等。
云原生化:随着云计算基础设施的成熟,现代化的数据仓库不仅需要支持在物理机上的存算一体部署也需要提供基于云原生的存算分离服务。云数仓的主要倡导者有Snowflake、Redshift、BigQuery等。当数据仓库同时具备上面三个能力,那么就可以称之为真正的现代化数据仓库了。
三、Apache Doris与SelectDB的创新实践
作为开源的现代化数据仓库项目,Apache Doris自 2013年诞生以来便以其强大的实时分析能力著称。2022年,其原创团队成立了飞轮科技公司并推出了商业化产品SelectDB。SelectDB提供面向私有化部署的 SelectDB Enterprise 和云原生存算分离的 SelectDB Cloud 云数仓服务。
·在实时能力上:提供秒级别的实时数据导入,并支持超过10000 0PS的高并发小查询快速响应。在ClickBench、TPC-H和 TPC-DS 性能测试中,均处于全球领先位置。
在湖仓融合上支持半结构化(ISON)和非结构化(Text)数据的高效存储和处理:可通过 Multi-Catalog实现对外表的联邦查询;提供高吞吐的数据读写 API,方便与 Spark、Flink和机器学习/AI 生态对接。云原生化:SelectD8 Cloud 支持在全球主流的七大云平台上部署,具备存算分离、多计算集群和灵活弹性的能力。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得杠杆实盘配资平台,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
湖仓数据Doris仓库Apache发布于:广东省声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。