分享嘉宾:孟子涵-中国华能集团信息中心平台架构师
2021年华能就与Alluxio建立了合作,共同写了整个华能统一纳管的架构方案。这个方案我认为是现在我们在央企里边比较核心的一套体系,能让全集团所有我们认为重要的数字化资源实现真正的统一集中,让存储、计算、数据、应用、技术能力,能够在全集团范围内最大化的流动起来,让大家最大化使用这些资源。
01 背景
华能集团作为一家能源央企隶属于国务院国资委,是一个比较传统的能源企业,也是全球最大的清洁能源供应商之一。华能的装机容量在全球占比排名第二,发电量占全国的10%(占全世界的2%),体量还是比较大的。
华能大概有58家二级单位,480家三级单位,以及涉足包括能源、科技、交通、运输、港口等很多产业链,有大概14万的员工。
2020年华能提出了"十四五"战略规划,这个规划主要是“2111工程”,其中2是包括左右两边两个支撑:
1、一个是安全可控——现在在提的国产化替代。华能在做的是响应国家的号召,从软硬件一体化所有的东西都在做国产化替代。
2、第二是治理管控要求我们央企有一个高效高水平的发展,所以要做到治理现代化。
其中最核心的一个“1”就是我们的数字平台,华能有一个统一数字平台,包括底层企业云平台是华能比较大的数据中心,上面架了一个统一技术平台,是整个集团内部统一的技术框架,再往上是数据共享平台、流程应用平台以及门户。这一套统一数字平台支撑了整个华能集团一体的应用,这个应用可能分各种业务板块,它下面其实我们要发展的是一套互联生态,包括工业互联以及我们的共享生态。
上图是华能的整个IaaS层,因为华能的数据中心建的比较早,2018年的时候已经完成整个青岛主要的master阶段数据中心的建设。每期我们也在做扩容,现在也建成了包括master在青岛的一个大的数据中心,以及在二级各个省分布了14个小的二级云接点。而且这些云接点建成了一朵云的体系,它与整个集团的主流数据中心形成一个公有云的网络。
虽然能源央企使用的内网专线传输的带宽很低,但是我们通过一个技术建立了一个公有云,相当于华能内部的一个公有云体系。现在我们上边的部署计算节点是358个,3PB的存储,56000多核的一个VCPU,目前跑在上面的智能应用大概4600+,上云的系统41个,以及我们现在连接的设备数是1664万,大量的设备已经把数据传输到云上。在工业互联网累积采集的设备实时数据已经超过了12万亿条,我们的数据体量足够大,同步我们也配备了一个相对比较专业的运营团队在管理这个机房。
上图是PaaS层,这里底层就是上文提及到的分底层的几大业务板块,主要的是电力生产,包括水电、火电、新能源,以及例如冷煤炭、金融的这些业务板块的数据,它可能是分布在我们各种二级架构和三级架构里边,把数据上传到云上。
在总部的云平台或者总部的建设当中还有一些管理系统,比如:ERP、OA、采购、生产实时监控、其他其实就是相当于一上一左,整个统一平台打通。
统一技术平台包括数据平台、技术开发平台,上面其实主要支撑两条线:BI、AI,再上面支持我们各种业务板块:营销、财务、生产、融资、供应链等,这就是华能整个PaaS大概的架构。
02 架构
华能整个信息化系统建设如上图可以看到一个很大的趋势:从横向来说,我们各个业务系统都是独立的:像以中间偏左侧这块,以ERP为主,人资、财务、物资、燃料。这一块是指现代集团侧,集团有这些数据,相当于这些板块也是比较独立的。
中间这一块位置相当于是生产的核心业务——从电厂直接连到集团侧。其次包括生产监管、新能源监控、工业互联网、核电。大家可以看到,第一:业务板块之间没有完全打通,第二:在整个区域中间第二层的区域公司,他们拿不到核心的经营管理数据,比如像财务、人资、物资这些数据,在需要这些数据的时候要从集团的ERP往下给他们发,这其实是很大的麻烦。这些数据在集团内部没有被管控,导致数据没有发挥它真正的价值,我们目前建立这个平台就是为了解决上述问题。
华能集团的数据终端平台分了4层:
- IaaS
- PaaS
- DaaS
- SaaS
PaaS层是指包括数据集成、传统的ETF、实时数据库。中间这块是大数据的环境,包括像Alluxio的数据编排,主要是跟我们大数据环境,大数据HDFS体系集成在一起的,包括数仓,我们的数据治理,以及往上就是我们DaaS的服务。
DaaS服务就是相当于一套敏捷化的开发报表体系(主要是BI)。再往左就是管理我们整个DaaS一系列的服务,比如像数据目录、发布,对数据的订阅、权限等,这就是我们大概数据平台的体系。
上图是华能技术开发平台的架构,其实相当于把集团整个技术开发框架统一在一起了。由于华能集团单位数太多的现状我们决定制定一套统一的技术开发框架。其实底层就是传统的devops的微服务开发、运维、管理的底层架构,上面就是包括前端、后端的开发工具。这套框架出来以后,集团内部未来可能都要基于这套框架来开发,华能逐步从传统企业往云原生的企业一步一步在迭代。
华能58家二级单位、480家的三级单位应该怎么建?基于这些问题和现状,在2021年的时候我们跟Alluxio进行合作,共同写了整个华能统一纳管的架构方案。这个方案我认为是现在我们在央企里边比较核心的一套体系,能让全集团所有我们认为重要的数字化资源能够真正的统一集中,它的统一集中并不是要掌管它、监控它,而是让存储、计算、数据、应用、技术能力,能够在全集团范围内最大化流动起来,让大家最大化使用这些资源,这才是我们的最终目标。
基于现在集团统一的数字化平台,包括现有的数据共享平台、技术开发平台,把他们一些核心组件以及技术标准固化到一个技术产品中心件上放到二级区域的建设框架里面。
大家可能会问,为什么二级单位不统一建呢?
1、体量不同:二级单位里面比如说像山东有16家电厂,但是贵州只有两个风电厂,它的体量不一样。
2、发展业务模式不同:有的区域公司赚钱主要是靠现货,它就只做电力交易,有的公司赚钱就靠传统的火力发电,有的公司赚钱就靠物资检修以及运输,所以它的业务模式也不一样。
所以很难用一套特别标准化的东西把所有东西固定到一起,每家二级单位的投资也不一样,大一些的二级单位一上来可能投几千万,有的二级单位可能只有三百多万的预算。
在这种差异特别大的情况下想纳管只能提供一套技术框架,制定一套标准保证集团整个技术体系的统一性。
上图就是我提到如何在专网环境下建一个公有云的体系架构图。我们要在青岛云上面有统一的云管平台,每一个区域建云必须要使用OpenStack的环境,这是我们硬性规定的。
1、想要与云管平台对接需要把自己建成一个region和云管平台对接,让我能查询到整个服务器的数据。
2、与云管平台的调度对接调度存储算力,需要在数据层面做到区域之间的交互。
与数据层面做区域交互其实主要有两种方式:第一种方式是集团的数据官网平台上有数据目录可以将财务报表、指标类的数据让二级单位订阅下来后使用。也可以基于Alluxio与集团的大数据湖集成在一起建数据的高速通道,每个区域有自己的数据湖,通过集群到集群的方式调用数据。
数据目录通过API的方式调度只能调用小批量的数据或者指标类经过深度数据治理以后的数据,如果一旦数据量过大比如说一个P两个G的这种明细数据的话,通过API调用无法实现,所以我们使用Alluxio构建了集团与区域之间数据流通的高速通道。
技术开发平台是我们在区域之间区域侧部署的底座,我们不要求区域有一个特别强的开发能力,不需要有非常多的开发工具,完全集中在集团上面开发,使用Alluxio调取上来数据后通过现有的开发工具,再用容器镜像分发下去,达到一种云边协同的方式。使得开发的所有业务集团都可感知,并能共享,方便进行大批量推广。
关于PaaS的运维管理其实在传统央企、能源央企里边存在一个很大问题是人员。二级单位做信息化的人可能只有一到两个,对于他们来说建立一个云平台管控机房都会非常累。要建立一个统一的PaaS运维管理,相当于把他们的业务分发给我们专业化的信息公司,让信息公司去接管所有PaaS运维的内容,帮忙监管应用、资源、做版本升级、统一内容分发...你只需要管好硬件基础措施。
我们把所有的技术管理要求固化到中间件上,上图所有标蓝色的是集团强制要求必须使用与集团所有平台互联的中间件,黄色是可以按区域业务发展自行选择。
03 应用
首先是介绍一个关于智慧脱硫优化的案例,在火电厂像锅炉燃烧、检修,规范业务流程已经非常规范。能做到更精益的管理提升到底在哪儿?其实我们发现,比如说脱硫优化,传统的火电厂是三班一倒,员工值班8个小时后特别到晚上1点钟后上班的时候会特别困。而脱硫是一个特别慢的化学反应,需要投放定量的氧化钙等着二氧化硫慢慢的过来进行中和反应,数量不太可控会浪费了好多氧化钙的资源。
后来我们发现可以用AI来操控,只要预测出晚上机组负荷及使用一些化学机理模型去模拟这个氧化钙和二氧化硫中和的过程,大概就可以知道排放负荷(有多少二氧化硫会排出来),就可以知道需要投多少氧化钙,这样我只需要把阀门和AI模型直接连在一起,每15分钟调一次绝对比人工精准,所以这个模型基本可以帮我们在火电厂管理过程中节省成本。一年像玉环电厂大约能节省70多万,小点的机组能省个三四十万,但是我们体量特别大,像这种机组在华能有247台,这一个应用给华能一年能带来8000万的成本节约。所以这就是AI的场景在华能火电管理的典型案例。
锅炉掺烧比较复杂,因为锅炉本身是一个特别混沌的体系,它受比如煤成分等很多因素影响。所以锅炉掺烧很多的能源企业都在研究包括华能。后来我们发现锅炉的燃烧效率跟人的操作有很大关系,比如在电厂里面经验特别丰富的老师傅他们操作这个炉子能控制得特别好,因为他们知道什么时候风门加多少,什么时候水加多少,什么时候把烟气调到什么程度。所以后来我们就用AI模拟的方式把人的一些经验以及大数据结合在一起去做锅炉调节,把各个参数主要是挡板的开度和风之间根据火焰燃烧的中心位置做上下调动,上下调动完整个锅炉的热值效率是绝对不一样的。这个应用能够给整个电厂提高效率,比如有的电厂能降5克,有的电厂能降8克,收益非常大,因为我们一年要燃烧掉将近好几千吨、上万吨的煤,所以每一克的煤其实能给我们省出来特别大的利益。
传统水电检修一年反正不管机组坏没坏会把机器停机把所有部件都拆开来看一遍。但是通过机体学习的AI模型,我们发现设备的运行趋势是可以通过大数据判断的,随着这个趋势会慢慢往往下降。所以后来我们建立整个工业互联网AI体系之后就不再做那种定期的检修模式了。有些机组除非当裂化趋势裂化到一定程度以后我们才去做检修,其余的时间正常运行,因为能够正常运行不停机带来的收益就是持续的可观的收益。在澜沧江我们有大概44台机组都在利用这种检修体系,帮我们直接节省了检修成本大概3500万元,如果还要计算整个减少的检修天数,整个澜沧江公司三年来为华能带来大概三点多个亿的利润。
国家在大力发展整个新能源体系,华能在这一点走的可能比较靠前的是我们最早建了华能的统一智慧能源平台。我们把华能集团现在15000多根风机所有的实时数据都上传到我们的运营商平台上,每秒钟都是上千万的实时数据在云平台上跑。
目的主要还是为了整个新能源体系的集约化管理。因为大家知道,火电厂、水电厂基本可能都在一个厂区范围很有限,但新能源不是,新能源光伏基本都在戈壁滩、沙漠、深山以及海上,基本有的风厂稍微大一点,去过一次实地从早跑到晚一个风厂是跑不完的,一直开车一直在看。它的检修和管理就特别成问题,如果不做这种远程的集中式故障诊断,就不能精准的判断它到底坏在哪儿以及够精准的判断它需要什么备件的话,那它的管理成本会特别特别高。
所以建立新能源智慧运营中心平台,或者说做信息化技术支撑的目的就是为了改变原来风厂光伏的运营模式、检修模式、供应链模式、管理模式,这是我们整个信息化在为管理赋能比较重要的体现之一。
04 展望
我们希望后续持续加强与Alluxio的合作,现在我们跟Alluxio已经建了所谓的虚拟数据湖,下一步我们希望跟Alluxio能够在传统数据库里面再去建一个虚拟的数仓,结合现在华能这套数据体系的发展建一个真正把我们数据湖以及数据库所有数据能够涵盖在一起的一套虚拟数据底座,让华能数据真正达到所谓的逻辑统一。通过Alluxio实现虚拟数据源的连接、实现多元异构数据查询、实现数据缓存计算,这样我们才能形成一个数据可用空间,未来可以更好的支撑华能业务向AI和BI两个方向加速转型。
掣肘于华能发展大模型的很大一方面就是算力。但其实我们也在考虑能源和算力之间到底是什么样的关系,全世界75%的比特币都是从四川小水电挖出来的,相当于他们用四川廉价的水电去挖了比特币,其实就说明我们的大量能源被转化算力其实是很成功的,能源和算力是有一个天然的关系,为什么说储能技术还处于发展阶段?是因为储能的成本太高,比如建的很多大型能源中心存储两个小时的储能,大概造价要14个亿。为什么这些能源它不能转化为算力呢?
现在我们大规模在铺新能源的发展,但新能源的发展靠的不是规模,而是靠它的新能源消纳能力,所以新能源消纳能力才是新能源发展最重要的核心。算力可能是未来能源行业也要考虑布局的一件事情,是不是能够有效的把现在多发出来的电转化为算力,能够作为一种新的业务模式进行输出。
最后终极的目标是响应国家发展互联网,其实华能现在在做的以及未来要做的都是围绕国家关于整个新型工业化的建设,真正打造所谓的制造强国、工业强国。大力发展能源基地,风光水火储以及多能互补的协同方式,通过AI计算出全局最优化成本。相信随着我们通信技术、算力以及模型逐渐向前发展,会实现工业强国、现代化强国。