专访王东：凝聚清华力量推动中国人工智能产业崛起

时间：2015-08-31 18:12 来源：齐鲁晚报

　　2014年，捷通华声与北京清华工业研究院成立“灵云人工智能研究中心”，将前期合作项目进行整合，集中力量发展人工智能技术并推进产业化应用。CTI论坛记者：请介绍清华大学，包括清华信息技术研究院在语音语义识别、深度学习、建模及应用的传统技术和最新研究进展。

　　21年前，通过一条64K的国际专线，中国全功能接入国际互联网,中国互联网时代从此开启。近年来,云计算、物联网、移动互联网的广泛应用,把人类社会带入大数据时代，而来自全球的海量数据为人工智能的发展提供了良好的条件，以深度学习为代表的算法发展，也使得机器有能力处理如此庞大的数据。人工智能技术实现跨越式进步，智能语音交互、智能语义理解、生物特征技术被广泛应用。一个更加自然，更人性化的人机交互体系将成为未来发展的主流，人工智能时代开启发展新篇章。

　　人工智能是对人的意识、思维的信息过程的模拟。人工智能技术发展的前景是无限的，反映了人类探索自然同时也是探索自我的过程，在探索的漫漫长路上会遇到很多困难，所以越是对人工智能应该抱有客观的态度，对产业和技术的发展越有好处。人工智能作为当下最炙手可热的热门领域之一，应该少一点浮躁,多几分稳健。

　　人工智能创新发展需要以坚实的理论研究、强大的技术能力以及雄厚的产业基础作为支撑，作为国内最早从事人工智能技术研究的大学，清华大学在人工智能领域聚集了最多的高端科技人才力量，清华大学不仅始终坚持基础理论研究、同时展开应用理论研究和应用技术开发。秉承“自强不息，厚德载物”的校训，清华人的稳重和务实对人工智能产业是非常有帮助的，有了清华力量，中国的人工智能产业才能稳定坚固地向前发展。

清华大学语音技术专家、清华灵云人工智能研究中心首席科学家王东老师

　　日前，CTI论坛记者独家专访了清华大学语音技术专家、清华灵云人工智能研究中心首席科学家王东老师，王东老师具有清华人的典型特点:为人稳重、低调、务实，学识丰富。王东老师表示：“服务国民经济主战场,服务国家创新驱动发展战略,这是清华的报国之路。清华和捷通华声合作，可以将清华在人工智能领域的最新科研成果快速转化为产业力量，服务国民经济，同时为高科技企业提供持续发展的动力。到目前为止，捷通华声与清华的合作诞生了灵云平台的一系列重要能力，包括语音识别、说话人识别、自然语言问答、机器翻译、人脸识别、指纹识别等已经形成产业化力量。因此“灵云科技、源自清华”绝不只是一个口号，而是众所周知的事实。”

　　CTI论坛记者：人工智能是在未来二十年大行其道的科技，也是有史以来最难的科学之一。请介绍清华大学在人工智能领域的研究优势。

　　王东：清华大学在人工智能领域具有长期技术积累与研究历史。1958年6月清华成立自动控制系，即计算机系的前身，包括计算机和自动控制两个方向，从事自动控制理论方面的研究。自控系后分成计算机和自动化两个系，这两个系早年从事关于人工智能技术的研究。1987年7月，智能技术与系统国家重点实验室开始筹建，1990年2月通过国家验收，并正式对外开放运行。从2004年开始，实验室参与筹建清华信息科学与技术国家实验室。清华语音语言中心即是这个实验室的一部分。

　　当前，清华的人工智能技术在自动化、计算机、电子、信息技术研究院、软件学院等院系都有深入研究，研究内容覆盖智能控制、模式识别，自然语言处理、数据挖掘等众多方向。个人感觉清华大学在人工智能领域的研究优势主要包括(1)积累丰厚，人才众多(2)理工结合，重视实践 (3)点面结合，学科齐全。

　　CTI论坛记者：请介绍捷通华声与清华大学在人工智能领域的深入合作及灵云平台的发展情况。如何更深入地理解“灵云科技、源自清华”?

　　王东：捷通华声公司与清华大学有长期合作传统。公司几位创始人本身即清华毕业生，其早期的语音合成、OCR、手写识别技术即与清华有很深的渊源。

　　2013年以来，捷通和清华若干院系展开全面合作，在语音信号处理、自然语言处理、图象处理等多个领域与清华教师建立合作项目，取得丰硕成果，这些成果是今在灵云智能平台的基础。一方面，灵云平台为清华技术提供了用武之地，另一方面，清华技术也为灵云平台提供了坚实有力的支撑。

　　2014年，捷通华声与北京清华工业研究院成立“灵云人工智能研究中心”，将前期合作项目进行整合，集中力量发展人工智能技术并推进产业化应用。

　　到目前为止，捷通华声与清华的合作诞生了灵云平台的一系列重要能力，包括语音识别、说话人识别、自然语言问答、机器翻译、人脸识别、指纹识别等已经形成产业化力量。这些技术单靠捷通华声一个公司是无论如何无法完成的，因此“灵云科技、源自清华”绝不只是一个口号，而是众所周知的事实。

CTI论坛记者：清华大学在语音识别、语音合成、声纹识别等智能语音领域可以说拥有国内很强的研究力量，但在最近几年，很少听到清华大学在语音研究领域中的所取得的成果，尤其是在产业界，相比国内其他研究机构，清华大学的影响力似乎有些小。请您介绍一下，清华大学在智能语音领域的研究水平、研究方向和如何增强清华大学在智能语音产业中的影响力。

　　王东：清华大学在智能语音领域里的实力一直以来都是相当强大的，拥有一大批优秀的实验室和专家学者，培养出大量优秀学生，产生了很多优秀的科研成果。然而，也确实存在一定问题，比如学生数量不足，信息共享不充分，导致集群优势不明显。清华大学校风也更加注重务实，确实在产业界，过去很难听到清华的声音，当然这里面也有多方面原因，比如学生选择方向比较丰富，留在语音处理行业的人较少，创业氛围有待加强等。增强清华大学在智能语音产业中的影响力恐怕还是需要培养更多这一领域的专业人才。目前这一局面正在得到改变，尤其在与捷通华声合作，共同发展灵云平台以来，“灵云科技源自清华”逐渐为产业界所理解和支持，同时也扩大了清华大学语音技术在产业界中的影响力。

CTI论坛记者：请介绍清华大学，包括清华信息技术研究院在语音语义识别、深度学习、建模及应用的传统技术和最新研究进展。

　　王东：清华大学在语音识别、自然语言理解等方面取得一系列重要进展，这有发表在IEEE TASLP, AAAI, ICASSP, ACL等一系列国际顶级期刊会议上的论文为证。如和捷通华声直接合作的马少平老师、孙茂松老师、李涓子老师等都是这些领域里声名赫赫的专家。就我所在的信息技术研究院语音语言技术中心而言，我们最近的研究包括深度递归神经网络在语音建模方面的优化，利用递归网络进行语义计算等，这些已经或者很快会应用到灵云平台中，形成新一代语音识别和自然语言理解引擎的基础。

　　CTI论坛记者：每个成功的客服机器人背后，都有个靠谱的人工智能。灵云客服机器人的“能说会听，能写会看、能思考会判断”源自于国内首个全方位人工智能开放平台—灵云平台强大的全方位人工智能技术能力，请问其核心技术有哪些?

　　王东：灵云平台当前的技术能力包括语音识别、语音合成、声纹识别、人脸识别、指纹识别、自然语言理解、机器翻译等，几乎每种技术都可以用到灵云客服机器人中。

　　CTI论坛记者：机器人和“智能机器人”的区别是什么?请介绍智能机器人的发展和历程。新一代智能机器人所需要解决的新技术有哪些?

　　王东：机器人通常是指可自动完成某一动作的人形机械装置，更广泛意义上的机器人则形态各异，如古代传说鲁班造的机械鸟和诸葛亮造的用以运粮的木牛流马等。当然现代机器人主要是指电器时代的自动行为机器，如机械臂，深海探测器等。

　　智能机器人则是有头脑的机器人，主要是依靠现代计算机技术实现能听会说，能写会看、会思会想的拟人化机器人，代表的如谷歌的自动驾驶汽车，日本的服务机器人等。新一代智能机器人已经在很多特定场合大显身手，但在智能化方面还有待提高，特别是对抗境噪声、应对突发事件、自主推理、自主学习等方面还有很多问题需要研究。

　　CTI论坛记者：新一代智能机器人如何解决自然语言的理解?如何解决从QA的模板变成语义的表达式?如何解决传统的模式识别，转变为的深度神经网络技术，具有机器学习的能力，和人一样进行能够进行自学习和思考?

　　王东：新一代机器人可能需要依赖大数据技术和深度学习技术来解决自然语言理解中的多样性问题，这一问题也直接关系到QA任务中对人为设计模板的依赖。

　　简单地说，传统QA需要人为设计一些问法模板来处理自然语言的多样性，这一方法繁琐而且很难覆盖全面。自动模板抽取可以部分解决问题，但大量的模板会对系统运行效率产生压力。深度学习成为主流研究方法之后，研究者们意识到这种语言上的多样性可以用神度神经网络来解决，利用大量数据对神经网络训练，机器可以学得哪些词比较重要，哪些词顺序可以颠倒等信息，这些信息对所有任务都是通用的，因此可以移植到各个领域上来。同时，神经网络可以随着数据量的增加自动学习新词和新的说法，实现自主学习。自主思考到目前为止还处在研究阶段，目前也许我们只能依靠大量数据实现“类思考”。

　　CTI论坛记者：机器人和人一样，也是分职业、分行业，对于新一代的智能机器人而言，如何解决渠道入口、业务服务、大数据分析等一体化的解决方案，实现对于整个数字和新媒体渠道方面的管理?

　　王东：这一问题主要涉及应用场景的通用性和特异性，也是智能机器人在实际应用中需要解决的问题，特别重要的是如何将人类已有的格式化知识和神经网络学习相结合，实现知识和数据的双重驱动。这方面研究领域已经有一些重要的成果出现，但还需要更多探索。

　　CTI论坛记者：伴随人工智能产业的崛起，捷通华声和清华大学已建立起稳固的战略合作关系，在合作基础上，2014年又共同创建了清华灵云人工智能研究中心，捷通华声和清华大学人工智能研究力量，包括在智能语音、智能图像、智能语义理解等领域合作，取得了丰硕的成果，请分享并展望未来的发展前景。

　　王东：灵云人工智能中心助推清华大学产学研一体化，能够把清华大学最新的人工智能科研成果转换成产品或生产力以此实现实用化，同时把市场的信息通过研究中心传递给各个研究部门，了解市场和产业发展的动态，起到窗口和桥梁的作用。窗口是对外展示清华人工智能的科技实力，桥梁则是架起产学研一体化进行转换的桥梁。

　　个人觉得研究机构和企业需求结合是个非常重要的创新模式，清华灵云人工智能研究中心的创立在这一方面做了有益的探索。通过和企业合作，研究更加有的放矢，同时可以快速将研究成果形成生产力，为研究机构提供更多资金支持，而企业则在这一过程中得到持续发展的源动力。未来我们可能会在分工合作方面更加精细化，使清华力量和捷通华声力量得到充分互补，形成更强大的合力。

　　结语：现阶段，人工智能正进入新一轮创新发展高峰，有望引领信息通信产业的革命性突破。人工智能技术的应用对中国是产业机遇，值得骄傲的是，在为数不多的领域里，中国在人工智能的技术研究上并不落后于世界。作为新兴产业升级换代的关键技术，人工智能的发展对中国的产业升级至关重要，无论“+智能”还是“智能+”都将促使各个产业或产品形态发生“智”的变化。

　　秉持“清华大学人工智能必须在中国的人工智能产业中有所作为”的理想，凝聚清华力量，清华和捷通华声结盟，共同实现“灵云科技源自清华服务全球”的发展战略，共同开创中国人工智能领域的全新局面，更希望人工智能产业能够帮助中国在世界级的产业化升级中不为人后，面对产业机遇清华与灵云当仁不让!

　　被采访人简介：王东，清华大学学士、硕士，英国爱丁堡大学博士，历任Oracle 中国软件工程师，IBM中国高级软件工程师，英国爱丁堡大学Marie Curie 研究员，法国EURECOM博士后研究员，美国Nuance公司高级研究科学家，现任清华大学语音语言中心助理教授，中心副主任。曾获欧盟玛丽-居里青年研究学者奖(2006-2009)。

　　王东博士的主要研究方向包括机器学习，信号处理，语音识别，自然语言理解，信息提取等,在信号稀疏性分析，深度神经网络学习等机器学习方面取得显著成绩，在IEEE trans. on Signal processing 等国际一流期刊和会议发表多篇论文，其中SCI期刊论文10余篇，EI/ISTP论文50余篇，是IEEE transactions on Audio,Speech and Language, NeuraComputin，ICASSP、Interspeech、SLT等国际语音信号处理领域主要期刊和会议的审稿人。王东博士是全国人机语音通讯会议常设机构委员、秘书长，是亚太信号信息处理联盟(APASIPA)语音专委会委员、秘书，是国际标准与语音数据资源委员会(COCOSDA)大陆区代表之一。

　　王东博士是欧盟ALIAS项目主要研究科学家，法国ACAV项目主要研究科学家，法国外交部M4SVR项目负责人，主要研究科学家。目前主持一项国家自然科学基金项目，一项国家教育部博士点基金项目。

█请返回商务财经网新闻首页>>>>>