分享

数据库行业背景及发展趋势分析

本帖最后由 停渡 于 2022-9-28 18:01 编辑

中国数据库市场将迎来高增长态势,原因有四点:首先是政策利好,国家大力支持国产数据库厂商的发展;其次是需求拉动,国产化和数字化转型带动需求的爆发式增长;同时,供给端传统、初创和跨界各类型厂商厚积薄发,产品和技术经历了多年工程实践的打磨走向成熟;此外,国内企业对基础软件的付费意愿和 IT 支出占比在逐年提升,有利于市场的长期发展。

可以预见的是:未来,中国数据库多场景现状与融合需求长期并存,云数据库 ( 包括公有、非公有各种形式 ) 成为主流;开源成为产业互联网时代数据库厂商的破局之刃;人工智能延伸 DBA 的能力半径,优化数据库性能,是数据库下一步发展的目标。

数据库市场现状如何?未来有什么发展趋势?在哪些细分方向值得投资?最近,钛资本投研社邀请南虹资本 VP 董宇进行分享,他主要负责南虹资本数字化、新材料、新能源方向,拥有复旦大学本科、硕士学位。南虹资本由市场团队和国有公司共同发起成立,是集科创投资、资产管理于一体的综合平台,聚焦于先进技术与产业升级的科技创新投资领域。本次分享主持人是钛资本董事总经理王勇,以下为分享实录:

行业背景

数据库是按照一定数据模型和组织形成的,具有冗余度小、独立性高和拓展性强的特点。数据库全称为数据库管理系统(DBMS),正如其名,它是负责维护数据库底层的管理系统,而负责维护管理系统的人则被称为 DBA。数据库管理系统由线程和内存池组成,如果客户要看数据库中的数据,它会通过实例(Instance)来实现,而不是直接读取硬盘上的文件。数据库系统之上还有一层应用系统,就是我们平常看到的交互界面,平常用户在这个界面上进行操作,给数据库发动一个指令,数据库系统就会把实例发放给数据库进行读取工作,再经过一系列后台分析,将数据提取到用户面前。

根据统计,数据库全球市场规模大概在八百亿美元左右。比较突出的是,数据库在全球范围内市场集中度非常高,近五年内全球 top5 企业常年占市场份额的 80% 以上,而位列 top3 的微软、甲骨文和亚马逊常年占比更是达到 70% 左右。

整个数据库行业的产业链上游主要是硬件厂商,比如国内的中兴和华为。中游分为 DB(数据库底层开发商)、数据库 DBMS(管理系统开发商),以及为他们配套实施服务的服务商。下游分为应用开发商和行业用户。整个数据库行业有多种参与方式,比如华为同时参与了上游的硬件,又开发推出了中游的华为云数据库 DBMS 系统。

发展趋势

数据库诞生于 20 世纪 60 年代,经历近十年蝶变,到了 70 年代,IBM 提出了商用的关系型数据库,此后,这种商用数据库经过包括 Honeywell、IBM、微软等主流厂商的迭代更新,逐渐推广于市场。随着数据化趋势的发展和大数据时代的到来,数据库逐渐从灯光边缘来到舞台中心,成为了大数据时代最为重要的基础设施之一。自商业化后,长期以来,商用关系型数据库始终处于本地化部署阶段,直到 2010 年以后,数据库逐渐发展出了以下三大新趋势:第一,数据库的多元化。随着人们的需求逐渐多元化,一些非关系型的数据库得到了蓬勃发展,可以适应更多应用场景。第二,数据库上 " 云 "。随着云技术、通讯和网络技术的大发展,数据库逐渐从本地部署向云上转化。第三,数据库的开源。最早的数据库是以闭源为主,后来逐渐有更多开源的数据库入场。

微信截图_20220928175654.png
第一个发展趋势是数据库的多元化。当下,关系型数据库仍然是市场主流。什么是关系型数据库?最常见的就是我们常用的 excel,非常直观地用二维的行列来排布数据。非关系型数据库即储存形式不是二维结构的数据库,从实时性来看,数据库还分为两类:一个是事务性的数据库,特点是要求有互动行为,对于响应的时间要求比较高;另一种是非事务性数据库,单纯把这些数据储存在里面,后续再进行分析。

关系数据库中的数据,彼此之间的关系一目了然,理解起来轻而易举。由于它的储存性能比较好,所以有易于维护、便于理解、使用方便等优点。但它有几点问题:一点数据库的灵活性较差,数据只能以规定的形式来填取,一旦一个数据库成型之后,想更改它的形式非常困难;二是它的数据储存方式非常讲究数据关系,对海量数据的处理非常不友好。

随着数据行业的大发展,数据要求的应用场景越来越多,出现了不以二维结构而是其他一些关系来储存数据的数据库,这些统称为非关系型数据库。它们的特点是格式灵活。由于不通过关系处理数据,所以它的响应速度和性能比较优秀。

但是非关系型数据库也有一些问题:第一,它的逻辑比较难,比如图数据库就是以图形或者网络作为储存的结构,以网络结构勾结起数据之间的关系,在理解和学习上需要投入较高成本;第二,不适合进行复杂操作,由于不是通过强关系性来储存,在调取复杂查询的时候,需要从一个表跳到另外一个表,再跳到后一个,以此类推,效率比关系型数据库要低。

常见的非关系型数据库包括键值数据库、文档型数据库、时序数据库和图数据库。

以 Redis 键值数据库为例,经典应用场景是微博上的发帖功能,因为微博是个超大规模应用,经常会出现高并发的状态,所以适用键值数据库。其他的数据库也都有自己特定的应用场景。

关系型数据库有一个比较权威的评价社区叫做 "DB-Engines"。作为一种比较成熟的数据库形式,关系型数据库还衍生出了诸如分布式数据库、云关系数据库等分支形式。但该类数据库近年发展面临挑战,在 2022 年 8 月受关注程度最高的前 20 个数据库产品中,非关系型数据库占了 9 个,相关技术更是发展迅速,正逐渐取得市场认可。

第二个发展趋势是云数据库。通常来说,传统的本地数据库是把数据库以及 DBMS 这些软件都部署在本地的服务器上。云数据库就是把数据库和大部分的 DBMS 管理软件、总环管理系统放在了云端。它主要有两种模式:一个就是通过虚拟机映象在云上独立运行,数据库实际上是一种比较常见的私有云形式;另外一种就是将数据库的硬件系统和 DBMS 的大部分功能都交由云数据库厂商来提供,而用户只需获得访问权限,通过网络去访问数据库的服务。随着云计算技术以及通讯技术的发展,云数据库已经步入了商业化进程。根据统计,本地数据库每年的增长只有 4% 左右,而云数据库每年的平均增长大概为 16%。

据统计,截至 2021 年,全球本地化部署的和云数据库系统的 DBMS 的收入情况方面,Oracle 常年处于霸主地位,2019 年之前一直保持第一。但继 2020 年微软凭借微软云的增长夺走魁首之位后,2021 年,亚马逊也凭借亚马逊云 AWS 超过 Oracle 跃居第二。国内有三个厂商进入排名榜单,分别是位列第 7 的阿里云和位列第 9 的华为云以及第 12 的腾讯云。传统本地部署数据库的占比排名都有所下滑,新兴云数据库厂商排名上升。这是云数据库的大势所趋。

为什么会有这样的发展趋势?因为本地部署的数据库存在一些不足之处:最突出的一个缺点就是成本高。数据库跟仓库有一定的相通之处,用仓库来打比方,本地化部署的数据库其实相当于厂商租用仓库的用地,这是一笔投入;还要在里面安装各种的货架、服务设施,这是初始投入;同时还需要为这样的一个数据中心配备员工,为一些系统在使用的时候提供电力系统,整体来说初期投入很大、决策很重,而且后续的运营也需要持续投入,成本比较高。第二点是可靠性需要冗余,需要额外的部署储存作为备用。第三点是扩容和迭代比较困难,数据库本身是本地部署的数据库,有硬件系统和软件系统,硬件系统要扩容的话要买更多的服务器。另外一点就是因为老系统用着比较舒服,导致没有那么强的动力去更新发展,导致在扩容和迭代方面比较困难。

相比之下,云数据库就有不少优势。它最大的特点是服务器硬件和维护服务是云数据库厂商提供的,初始成本投入比较小,而且不需要提供太多的维护。由于冗余的备份都是由云数据库厂商来提供服务,因此这一方面的成本又进一步下降。既能满足需求又成本低,就逐渐产生了数据库上云的大趋势。但云数据库也有的一些问题,其中最大的问题就是其成熟程度。本地化的数据库,从商业化到现在经历了近 50 年的发展,有大量的功能和代码的丰富积累,功能比较完善,而云数据库厂商由于业态、业务形式都比较新颖,因此它的工艺积累不如已经成熟的本地化部署方案。而且在升级和迭代方面,其系统的兼容性也不如本地化部署。

第三个发展趋势是数据库开源。首先,什么是闭源数据库?大家所熟知的一些商业化数据都是闭源的,源代码对于这些厂商来说属于商业机密,不对客户开放。开源数据库正相反,其数据库代码向公众开放。

它有几个特点:第一,由于开源的授权费没有商业化数据库那么高,成本相对来说要低一些。第二,也是最重要的一点,它的源代码完全公之于众,客户在使用的时候能够清晰地看到里面数据的情况,对数据的流向、指令了如指掌,不用担心数据库里面是否存在 " 走后门 " 的情况,可以满足自主化和信息安全的需求。第三,由于传统的商业数据库集中度比较高,对于用户来说是比较强势的一方,它本身不提供额外的定制化开发,仅由第三方服务商提供应用层面的二次开发;而开源数据库不仅可以自行开发,还可以在 DBMS 代码层面直接进行开发。

开源数据库收费方式遵循开源数据库的开源许可证,一般由一家公司来运营,以 MySQL 为例,它的代码在一个开源平台上面公布,由各个成员单位和成员进行定期维护。它的准则是,如通过开源的代码二次开发的数据库产品也是开源系统,就不用收费,反之则要收取一定的授权费用。

开源数据库已经成为了数据库行业发展的趋势。DB-Engines 在 2022 年统计过,发现开源数据库的许可证数量在 2021 年反超了商业化闭源数据库的许可证数量,并在 2022 年 8 月呈逐渐扩大态势。现在就数量来说,开源的数据库比闭源的数据库更多。

回到国内市场,我国数据库市场也是以关系型数据库为主,根据信通院的测算,2020 年数据库市场行业的整体规模大概是二百四十亿,根据 IDC 的统计,2021 年关系型数据库大概有一百八十亿,占比 70% 左右。但我国比较特殊的一个特点是上云的系统比本地化部署的系统要更多。

IDC 对国内的数据库市场份额进行的统计显示,实际上,国内厂商如阿里、腾讯和华为在云数据库市场合计占比已经超过了 70%。就本地化部署模式来说,虽然 Oracle 还是占有最大的比例,但从 2019 年的数据来看,海外四大厂商的市场份额已经从原来的接近 70% 降到 40% 多,而国内的如华为的本地部署模式的数据库的份额有一定程度的上升。

国内数据库有几个特点:第一,比较重视应用层面而轻数据库,大部分的存量数据库还是 Oracle 和 IBM 的数据库,但是随着 " 去 IOE" 积极推进,国有四大行的新构建的核心系统已经改为国产的数据库。那么就出现一个问题,它们现有的数据库还有相当比例的 Oracle 和 IBM 老数据库,但新系统又是各种国产厂商的数据库,为了统合原有的商业化数据库和开源数据库,只能在上层的应用层面来进行修改,这就形成了所谓的重应用和轻数据库的模式。

第二,国产的数据库大部分是关系型数据库。国产数据库有 58% 是基于 MySQL 这类开源的数据库二次开发得来。事实上,国内数据库的市场规模在全球的占比其实并不高,只有 5%,但是国内数据库的厂商数量在全球占比相当高,达 32%,远超过国内数据库市场规模占比。这显示出小数据库厂商现在也处于蓬勃发展的状态。

同时,国内的数据库在云数据方面是私有云、公有云、混合云多种模式并存,未来是以组合形式为主。主要原因在于数据库涉及到数据安全。政企、金融这类数据高度敏感的客户有监管合规的要求,需要把那些数据库部署在本地的服务器上面,而不是放在云服务器上面。除了混合云模式以外,还有把云模式以及本地部署的原有的数据库打通,产生的一种组合形式。
(特别声明:文章来自互联网,如有违权请联系删除)


没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则