ABC(商业智能、大数据、云计算)等新技术的应用正在加速金融与科技的融合。如今,金融科技正在成为传统银行业集体转型的大势所趋。百度的技术积累将如何帮助银行业转型?一起听听百度副总裁怎么说。
人工智能时代,打造智慧数字银行已经成为中国各大银行转型的方向,特别最近两年随着人工智能,大数据、云计算的发展,让传统银行业产生了沉重的危机感。
银行不能成为二十一世纪的恐龙,银行必须走在金融科技发展的前列,成为业界共识。当前,中国经济进入新常态,告别跑马圈地、粗放式发展的中国银行业更是将科技视为推动银行业转型的助推器,各主要银行纷纷加大科技投入,希望通过拥抱新一轮技术革命,继续保持领先优势。
但知易行难,虽然中国银行业科技水平近年来得到飞速发展,智能化水平显著提高,但是从全球范围来看,银行业并不是新技术的创新者,引导新一轮技术革命的企业并不是银行业,而是谷歌、百度等大型互联网科技公司,银行业一般是在其技术成熟时,通过技术引进,在金融业加以应用。
如何能让新科技革命尽快服务银行业,推动中国银行业科技水平引领国际银行业成为业界关注的焦点。
2017年12月,在银行业科技年会上,百度公司副总裁、百度云总经理尹世明告诉与会的中国银行业科技部门主要负责人,传统的技术架构已经跟不上智能时代的需求,银行要开始准备打破数据围墙,迎接ABC时代(AI人工智能、Big Data大数据、Cloud Computing云计算)的来临。
百度公司副总裁、百度云总经理尹世明
以下是演讲内容全文:
各位银行界的专家以及同仁,非常高兴今天来参加这个会议。去年的12月,当时百度内部有个会议,这个会议在讲云计算、人工智能、大数据到底会怎么发展?当时在想一个问题,就是有大量的企业其实是不愿意上云的。有人说是因为保守,也有人说是因为对于数据丢失的恐惧,还有可能是因为对数据的恐惧,对上云之后到底能带来什么质的变化,能带来业务流程的新变革吗?心存疑虑。也许能够带来一些服务器资源的节省,但即使节省一半,那其实也没多少钱,所以很多人会说为什么要上云。但是在我们看来,云计算的核心是说它很有可能是一个新的时代,就是因为云的产生,所以才有了大量的数据,因为有大量数据的产生才有了今天的人工智能,这三者是三位一体的。所以说从2016年11月份开始百度提出 ABC(AI人工智能、Big Data大数据、Cloud Computing云计算)三位一体,应该是以这样的一种方式去探讨未来的技术架构,所以我们提出Cloud2.0 。
今天我们谈这个问题的时候,先来看几个案例,这是国家开发银行的授信评审的连接数据,大家可以看到很重要的一点就是引入了外部的数据。百度的爬虫每天对全球的网页进行抓取,某一个钢铁企业是不是发生了一些问题,或者这个钢铁企业可能在一个很偏远的法院里面,已经被人诉讼了,这是不是个风险信号?这是不是比财务报告更加直接的一个风险的预警?显然是的。另外一点,开始有一个集中区域里面有人员在说某一家钢铁或者另外一个放贷企业的老总的身体状况,或者有人说欠薪怎么办,那是不是一个风险的预警?这是非常显性的风险的预警,但这些靠传统的企业内部的数据是无法获取的。这个案例就是大数据的应用。
什么叫大数据?如果我们定义大数据是企业内部的数据,它就不叫大数据。今天企业内部的数据量其实是很有限的,百度每天处理的数据量在100PB量级,这还是去年年初的一个数据。今年视频一来之后,这个数据可能要成倍增长。那么大数据的核心是什么,大数据的核心在我们看来有可能是要开始突破企业的围墙,不能够再以一个企业作为数据来源维度,应该是要放宽视野,在更大的范畴里面去寻找数据的来源,所以要突破企业的边界。
那么这里面,我在讲这个架构的过程里面,我首先讲两个案例,一个案例是我们跟某一个银行合作,在传统的信用卡申请时,你担心申请人不合规,不合法,之前的算法是基于规则引擎,大量的程序设计员或者算法设计员设计一个规则,由这个规则定义申请人是不是合规、合法,所以这些人的思想和想法,就限定了这个规则本身只能达到这个水平。但是,人工智能改变了这个游戏规则,怎么改变呢?可能是基于一个深度学习的平台,比如Google的Tensor Flow,百度的PaddlePaddle,以这个进行训练,然后产生一个能够科学评估并不断根据新数据来进行自我修正的模型,我们跟这个银行合作,作为一个试验性的项目,其实训练只花了一个礼拜的时间,模型的成功概率就达到了90%以上。以往最高也只能达到80%。人工智能基于对数据的学习和训练,可以帮助你找到基于无穷变量的一个规则,而以前所有计算的规则是基于一个有限变量的规则,这是不一样的。
再讲一个实际的案例,我们跟首钢(北京首钢自动化信息技术有限公司)合作了一个基于计算机视觉的质量检查,来提高首钢在品控方面的效率和精度。以前是要通过一个非常昂贵的做法才能去辨别的。首钢给了我们20万张质检车间的钢材图片,我们在四天之内完成了图片所有特征的标注,在标注之前,在数据产生价值之前是纯人工的智能,你要人工去标注它;标注完了之后,对这些数据进行了学习训练,最终这个模型对瑕疵钢材的识别准确率是99.8%。以前的我们会预定一些规则,我喜欢把它叫做pre-define,然后以预定的规则去指导我们的业务,但今天可能会发生变化,这个pre-define像pre-train,就是预训练的规则。这个预训练的规则你是不知道其所以然的,你只知道它确实管用,而且你只需要了解它管用就可以了,里面到底什么原因?不知道,也不需要知道。那么意味着什么?意味着我们要改变一种方法,这种方法就是我们的规则没有必要靠人为去制定,而规则是要靠学习出来,靠训练出来的,这是第二个重大的变化。
那么第三个变化,百信银行今年二月底的时候我们开始为他做一个系统,我记得当时提的一些要求还是觉得蛮挑战的。第一就是它一定要坚决地去掉Oracle,全部基于分布式架构搭建一套基于X86的架构,后来我们实现了,底层架构是完全基于分布式X86的架构,计算能力是完全可以灵活扩展的。另外一点,它基于X86和那个分布式系统之后,它的成本也就变得非常低。我们在上线的时候做到的TPS是4800,但其实对于我们来讲,如果它要乘以10倍,做到五万,对我们来说技术上完全没问题。如果要更多的我们也可以探讨,因为这个其实计算的算力以及算的方法已经完全不一样了。
服务的连续性和可靠性,我们正在努力,希望使RTO和RPO两者都接近于零。但是现在可能还不能完全做到,计算这个领域也发生了变化,可以看到它整个的架构搭建,底层是计算虚拟化了,存储虚拟化了,网络也虚拟化了,也完全符合监管的要求。而且一个海量的数据分析平台可以完成各种各样大数据的处理。
第三个方面是什么?目前对于算力的理解和计算的理解应该是不一样的,算力如果乘以10倍之后还是用老方法做原来的事情,好像是有点儿不太对,对吗?因为你已经有了本质的提升,但你却还是用老的方法在做所有的事情。刚才其实我通过三个案例,一个是讲了B,也就是Big Data领域的一些内容,一些变化;一个案例讲了AI,就是通过数据形成智能;讲了C,Cloud Computing的案例,三个领域的三个案例。所以三大特征,第一个是数据,我觉得一定是要打破数据的围墙。对于银行业有各种各样的监管的要求,这一块还是需要探讨的,但是外面的数据实在是汹涌澎湃的,怎么去利用它?以传统的架构利用它,还是用新的架构利用它?我觉得这是个问题。第二个,算法的规则已经发生变化,我们的规则应该既要涵盖预定义的规则,也要涵盖预训练的规则,而预训练的规则将可以打开一扇完全不同的窗。第三个,就是算力的边界,所以ABC三者三位一体能有一些新的变化。但是刚才我讲到所有的案例,从百度来看根本的变化在哪里?看到有C的变化,有B的变化,有A的变化,因为计算能力的提升产生了大数据,因为大数据的提升产生了一个人工智能新的一个时代,更核心的在哪里?1992年之前是大机的时代,大机的时代是非常封闭的,1992年之后可以发现整个IT行业迎来一股春风,也就是Client Server,客户服务器架构,而客户服务器架构开始在硬件软件和服务这块进行解耦,你会发现硬件方面有IBM,也有Unix服务器,也有Dell。软件方面你会发现ERP方面有SAP、有Oracle,数据库方面有SyBase、Oracle和MySql。服务方面,你会发现有了埃森哲这种企业。
Client Server造就了一个时代,这个时代持续到了2011年,在我个人看来,但随后突然发现这个时代受到了巨大的挑战,最佳业务实践好像已经不再可以成为最佳了,咨询公司的建议好像已经不再可以满足快速发展的需求了,为什么?因为世界发生变化了。大机时代和客户服务器时代是是企业级的时代,企业级还可以在里面说,我把企业这一环节统一起来之后,把企业的数据统一起来之后,可以产生巨大的红利。但是今天突然发现一个分布式的时代来临了,一个区域中心化时代来临了,这个时候你突然发现,企业就是自建的围墙,如果你在围墙之内去运行的时候,你有很大的阻力,你的思维打不开,为什么?你是企业级的,企业级就是很大的问题。传统的挖潜,已经达到一个相对极致的地方了。传统的企业流程再造已经不足以去完成企业更大程度的优化了,这个时候要向外挖潜、向外整合,但是传统的架构限制了我们的数据只能是企业级的,我们的流程只能是企业级的,我们的做法只能是企业级的,但是我们坚信ABC的时代来临了。ABC的时代,计算这个环节是cloud,基于cloud的核心不在于是说做了几个计算词节省了一点,cloud的核心是说计算的资源可以没有边界。我可以在一个很大的一个范畴之内,完全计算。计算首先没有边界,而计算没有边界之后,随后带来一点,数据逐渐的就开始没有边界了,数据已经开始在各个领域里面流动,虽然不是一个有序的流动,但是已经是有大量的数据在外面流动,而这些数据并没有被很好的利用起来,也没有很好的规范把它做起来。有了这些数据之后,就会产生新的意思,就是AI,新的意思意味着新的业务流程。
同样的一个人,如果他诈骗了一个地方,为什么其他的所有银行没有反应?因为这数据没有触发所有的信号,因为我们原来所有设计的软件就是企业级的,所以我坚信一点,ABC(AI人工智能、Big Data大数据、云计算Cloud Computing)或者新的架构可能会开启下一个20年,除了云计算之外随后一定会带来软件这个层面设计的变化,随后形成新的意识和新的做法。这是我们认为说它背后的逻辑在里面,正是因为背后的逻辑,那以后的银行应该怎么搞?我们也不知道,我们只是说我们应该是那个ABC(AI人工智能、Big Data大数据、云计算Cloud Computing)组合起来的。那么A这一块,就是说你要能兼容传统的技术架构,基于CPU的计算,你要能基于创新的技术架构,什么叫创新的技术架构?假如说你是分步式的计算架构,你基于深度学习你应该怎么做。今天有很多企业可能会发现,你的机房可能就放不了GPU的服务器,因为功率不够。那是很悲催的一件事情,也就是说你没有办法去尝试所有的新一代的基于深度学习的这样的一个框架。那进入到安全也是不一样的,在大数据这个层面应该是基于大数据的风控。你可以有大量的数据可以用,还有可以去进行智慧网点布置,可以进行大数据营销。其实现在的一些营销的技术像百度因为做广告出身的,刚才也说了像Google一样在这个精准营销用户画像、企业画像方面积累了大量的经验。随后智能的金融,简单一点像呼叫中心的这个创作,像新的业务的一个创新。这一块其实在座的各位你们是专家,我们只是一个技术的提供方,我们深信这一点有可能带来新的一种架构,然后支撑的业务在这里不再细讲了。
这是我们相信的地方,我们在跟一些金融机构在合作的过程中也发现一个问题,就是说这个时候确实数据要开始突破企业的边界了,但是监管方面到底应该怎么做能够达到监管的要求,或者监管方面我们应该做一些不一样的新的规定来确保安全性、保密性和稳定性,同时又能享受到这种开放的红利。这一点其实百度不是专家,在座的各位是专家,我们只是说技术的趋势已经汹涌而至,但是我们也希望得到在座各位的一些建议和引导,将来如果可以在技术上进行探讨也非常好。百度方面也做了一些探讨,这也是百信银行的东西,利用机器学习规则实现在线的阻断和离线的审计分析这样一件事情。基于Giano(百度分布式安全系统)的统一身份管理,等等。
我相信这只是非常非常抽象的一个抛砖引玉,就是说,如果说数据开放已经成为一个汹涌澎湃的趋势,是不是应该有一个机构去构建一个共享的数据平台。你那个数据平台真得不是任何一家可以构建的,然后使它比较安全的运行出来,这是第一个想法。第二点就是说,如果你的银行、你的基础架构,完全还是基于企业结构,我刚才说的企业级的核心说你才是基于企业级的,其实你就很难享受到一种新时代的技术的红利,所以这一块也是说基于全新的云服务架构,有没有一种可能性建成一套,就是说既能够满足监管,又能够实现对这种新技术的红利的分享的一种新的云服务的一种模式?如果这也是能有一些碰撞的话,我觉得其实中国的银行业可能发展会远超国外,现在其实已经超过国外了,会大幅度的加快,这是我们希望探索的一点。
那可以看见的未来之路在哪里?我简单举一个例子。就说我刚刚讲了ABC(AI人工智能、Big Data大数据、云计算Cloud Computing)三位一体,我们2016年11月提的ABC三位一体这样一个概念,在2017年大概是九月份,我们提出了ABC的技术栈,就是如何施行一个完整的ABC技术栈。AI方面刚刚谈到了人脸识别、语音识别、文字识别、图像识别,深度学习的平台、机器学习的平台、自然语言的处理,那么这些东西都是很基础性的工作。那百度我觉得还是比较自豪的,在AI方面我们基本上是有最全面的AI技术。
在大数据平台也是一样,如何实现一些基础数据,包括像用户画像,还有其他的一些舆情的监控。云计算平台就刚刚讲的异构计算和同构计算,我其实也跟一些银行沟通过一些云计算的可能性,我相信一点,银行业可能真的是要开始思考异构计算这个方向了,有些企业已经在开始思考异构计算一定会带来全新的可能性,基于GPU和FPGA这种计算,或者ASIC FPGA这样一些东西。这一块其实你要动起来的时候你发现其实有很多事情要做,你的机房要改造,系统架构要改定,但是非常值得去探索。基于ABC(AI人工智能、Big Data大数据、云计算Cloud Computing),再去做一个全新的业务应用,这个业务应用可以让你有更大的一个范畴去思考业务流程,这是不太一样的。
异构计算这个领域,我刚才谈了很多,这是一个基础,我们异构计算,一定要谈GPU FBGA。举例像我们自己做异构计算,我们现在也可以在一个单幅,百度的机房里面已经没有商用服务器,我们的服务器全是自研的。包括GPU这一块,你看我们的服务器是单一的一个服务器可以做到64片卡,单集群可以并发调度的服务器已经有一千台了,单集群并发调度的GPU卡数可以达到5000片,单集群的用户数据达到1万,单集群并发调度的作业水平可以达到10万,这对一般性的银行来说已经是够用了。所以当你去进入异构计算,进入这个人工智能时代的一个深度学习,平台的搭建,那我上面还有一些不太一样,跟传统的重构计算不太一样的控制台,分布式存储,这是不一样。当然你可以做出你个人各种各样的其他一些专用的一些一体机也是可以做。
异构计算是个趋势,数据也是个趋势。数据一定要产生意识,它才有价值。我们这段时间跟工业领域的一些企业也有很多接触,有很多工业企业积累了大量的数据,但这些数据基本就是沉睡在那里,产生不了意识,这种没用的。所以一定要把数据用起来,输出模型的能力做起来。我刚才讲的那个第二个案例的时候我们跟某家银行也做了这个合作,他只是把他用了信用卡的一些数据给了我们,那是一个礼拜的训练周期就得出这个模型,这就是把数据真正的用起来。企业自身的数据价值可能超越很多人的想象。另外一点,像一些精准营销的平台,这个也是一样的结合外部的数据。还有像通过广告投放,还有企业数据接口,所有这些东西,大数据这个领域最核心的一点需要你真的是能够有大数据处理的一种能力和一种可能性。