“坚持新发展理念、推动高质量发展”，中国科学院院士、清华大学人工智能研究院院长张钹出席开幕论坛并演讲

中国科学院院士、清华大学人工智能研究院院长张钹

“第二十届高交会-中国高新技术论坛”于2018年11月14日-16日在深圳举行，本次论坛的主题为“坚持新发展理念、推动高质量发展”，中国科学院院士、清华大学人工智能研究院院长张钹出席开幕论坛并演讲。

其表示现在人工智能取得了一些进展，但仍然有很大的局限性。他指出，今后的任务就是要重视基础研究，发展新的理论来引领技术的突破，物克服目前人工智能存在的局限性，扩大应用领域，这样才有可能真正使得人工智能让人类生活得更美好。

解决的途径已经有了，张钹称，现在主要的方法是下面三个方面：一个是与脑科学结合寻找新的模型，第二个是把知识驱动与数据驱动结合起来，这是目前最主要在做的事情，而且马上可以取得比较好的效果，就是把两种模型结合起来，第三个是常识与常识推理，不确定性处理，这样才能把人工智能从单纯的工具变成人类真正的伙伴。

以下为演讲实录：

张钹：大家好，大家现在对人工智能都非常关注，都想了解下面两个问题，就是人工智能究竟现在发展到了什么程度，我们下一步该怎么办？我想用这20分钟的时间来回答这个问题。

大家知道人工智能的过去，从1956年开始到本世纪初，基本上人工智能的发展是比较缓慢的。当时人工智能主要提出了两个模型，一个模型叫做以知识和经验为基础的符号推理模型，用来解决人类理性的智能。但是这个工作进展得比较小，主要原因是因为这些知识必须来源于人工的输入，人工把知识输入机器是很困难的，很多知识是难以准确描述出来的。因此这个模型取得的进展比较少。一直到2011年的时候，这个模型才取得比较大的进展，IBM做的watson系统，在人机竞赛上打败了人类。这也是用这种模型头一次战胜了人类。

为什么能取得这个结果呢？主要原因在这，原来对专家系统，我们的知识来自专家，而且专家知识是非常稀缺和昂贵的，而且要把这个知识放到计算机里面去，用人工的方法输进去难度非常大，所以当时进展比较小。为什么2011年能取得这么大进展呢？最主要的原因就是这里面把互联网的大众知识输入到系统里面去，而且这个系统不需要经过人工的加工，直接把知识输入进去，这个知识相当一部分属于数据，我们可以把大量的数据输入到计算机里面去，才取得这样的成功。利用这个数据进行推理，然后得到很好的成果。这个知识的数量是很大的，这个知识用纸张来表示的话，差不多是2亿页，这里面包括的内容是很多的，包括词典、百科全书、新闻报道、文学作品等，也就是知识竞赛里面问到的问题都可以包含在这些知识里面，包括天文地理、娱乐、电影、明星等等。在这种情况下，有了大数据，我们利用这种模型在一定环境和条件下，在人机对话下可以达到一定的水平。

第二个模型是现在讲的机器学习或者叫做神经网络。当时神经网络所取得的进展，在应用上的进展也很小，最主要的原因是当时神经网络输入要靠人工来设计，或者来编制特征。这种情况下我们要做大规模的问题就很困难。这个问题也是到本世纪初有了很大的转折，这个转折就是我们现在讲的深度学习。也就是把神经元网络的层次增加以后，这个机器学习得到了根本性的改变，从原始的浅层的学习变成现在的深度学习。还有一个重要的改变，我们把原始的数据输进去，不必人工干预，这样就使得深度学习变成一个大众化的，普遍大家都能用的工具，不需要你有专业知识。由于这样的革命性变化，这个技术就被广泛采用。这里红色的部分表示利用深度学习，我们在许多方面可以达到甚至超过人类的水平，这里讲的主要是三件事，一个是图像识别，一个是语音识别，一个是围棋。这个成果都是由于深度学习。

深度学习最典型的可以用来解决问题，就是模式识别，围棋为什么能够成功呢？我们把下围棋看成模式识别，通过深度学习，围棋程序，2015年以前只能达到业余五段，通过深度学习以后，一下子在两年的时间实现三级跳，从业余变成专业，从专业变成世界冠军，现在远远超过世界冠军。其中最重要的原因就是利用了大量的数据。这个数据可以由它自己产生，也就是说不必人工去提供数据，它自己跟自己下的过程中产生大量的数据。所以后来为什么Alphago任何人战胜不了它呢？就是它自己跟自己就下了上亿盘棋局。而一个大师一生中也就只能下几万盘棋局。

从目前来看我们重要的任务就是把深度学习，还有我们在早期提出来的符号推理模型应用到下面十个领域，这是全世界公认的，有可能在交通、家庭、健康、教育等。我们国家特别强调在金融和智能制造的应用，前面黑色的部分是全世界公认的，在这15年间，特别是深度学习的技术在各个领域可以得到很大的发展。

我们可以看到我们国家出现了很多独角兽企业，这里列出来了20个独角兽企业，可以看到基本上是借助于深度学习技术，而且大部分是集中在图像处理和语音识别这两个领域。有些方面虽然是属于医疗，属于自动驾驶，其实大部分的工作也是做图像识别。

我们必须要看到深度学习的局限性，也就是我们一方面要充分进一步应用深度学习，我们必须要看到深度学习的局限性，也就是我们一方面要充分进一步应用深度学习，但是另一方面我们也要看到它的局限性。这个局限性尽管它可以在各个领域应用，但是这个领域必须受到下面五个条件的限制。首先要做这个系统，必须要有丰富的知识和数据，如果你既没有丰富的知识，又没有数据，你不可能做这样的工作。必须是完全信息的，大家知道为什么在围棋和国际象棋上，机器能够战胜人类？因为象棋和围棋尽管复杂，但完全是信息博弈，完全信息博弈对计算机讲是很容易的，不完全信息博弈，像牌类就不属于完全信息博弈，计算机远不如人类，比如四人麻将、四人桥牌，计算机完全不是人的对手，因为对方拿的什么牌，出什么牌你不知道。必须是确定性的，如果存在模糊性，计算机处理起来就比较困难，一般来讲是简单的与静态的环境，按照确定的规律变化的。另外是限定领域和单任务，也就是它能下围棋只能下围棋，不会下象棋，而且这个任务是单个的，不能开放的，一开放就做不到了。

现在用大数据建立的识别系统，尽管在某个指标上超过人类，但在其他方面跟人类相比差距非常大。我们这里也列出来了很多，包括鲁棒性、推广性等。计算机的图像识别率即使能达到跟人差不多，但就是这样的物体，我们扔一个照片给它可以识别为知更鸟。我们随便给它一个照片，它可以识别为猎豹。这就说明它本质上并不认识这个动物，它只能把不同的动物分开，这跟人类非常不一样，因此它很容易被欺骗。我们扔一个噪声给它就可以让它识别成任何东西，这是它很大的弱点。这个弱点在很多应用场合里面是不允许的，如果在人脸识别、图像识别里面如果有这样的错误还可以容忍的话，如果这样的错误出现在决策上是不允许的，而且是人不可理解的。还有鲁棒性很差，本来这张图片是阿尔卑斯山，我们只要给它加一点点噪声，这个图片跟原来的图片差不多多少，只是多了一些噪声，人看起来当然还是阿尔卑斯山，但是可以让计算机看成是一条狗，而且它的自信度可以达到99.99%。也就是说它有99.99%的把握认定这张图是狗。那就说明这样的系统非常容易被攻击，这就是目前大家讨论到的人工智能的安全性问题，人工智能系统非常容易受攻击，非常容易被欺骗。这在很多应用场合里面是不允许这样的。所以我们必须要克服这个问题。

比如医学图像识别，计算机识别率能够超过人类，但是医生不敢用，因为你判断这张图片是有癌症，医生根本不知道你根据什么判断出来的，是不可解释的，所以医生信不过，这是普遍遇到的问题。鲁棒性也是这样，语音识别，大家看过很多演示，语音识别在一定条件下超过人，但是抗干扰能力非常弱，如果我们对着话筒讲识别率可以很高，如果我离开话筒很远识别率就低得多，如果有其他人在旁边说话，根本就听不懂谁在说。所以抗干扰能力非常弱。所以只能在非常干净的条件下才能使用，在嘈杂的环境下是不能用的。处理突发事件的能力，这也是目前自动驾驶遇到的问题，自动驾驶目前在特殊情况下，专用道或者是简单的路况也许能够用，但是复杂的路况还是不好用的，为什么？就是它缺少处理突发事件的能力，也就是这种情况它没有学习过就不知道怎么处理。比如在交通里面会遇到这样的情况，行人是这么过马路的，那么计算机肯定看不明白这个应该怎么处理。你也可以把这种情况学习了以后，我们遇到这样的情况就不行。还有一个问题，计算机没有常识，也很难达到智能。如果你告诉计算机特朗普是美国总统，那你问谁是美国总统，它可以答得非常好。但如果你问美国有没有总统，它答不上来。特朗普是美国人吗？它也答不上来。它既然知道特朗普是美国总统，美国当然有总统，这是常识推理，如果不能做到这个就很难真正达到智能。

所以我们目前面临的挑战，如果人工智能取得了一些进展，但仍然有很大的局限性。我们今后的任务，深圳非常重视基础研究，发展新的理论来引领技术的突破，物克服目前人工智能存在的局限性，扩大应用领域，这样才有可能真正使得人工智能让人类生活得更美好。目前我们解决的途径也都有了，要解决鲁棒与可解释的人工智能。现在主要的方法是下面三个方面，一个是与脑科学结合寻找新的模型，第二个是把知识驱动与数据驱动结合起来，这是目前最主要在做的事情，而且马上可以取得比较好的效果，就是把两种模型结合起来，第三个是常识与常识推理，不确定性处理，这样才能把人工智能从单纯的工具变成人类真正的伙伴。谢谢大家。