李开复:30年后AI的土壤终于肥沃

【2018-01-16】

  李开复:30年后的艾土终于肥沃了

  今天告诉你一个故事。从1983年到1988年,我在卡耐基梅隆大学学习计算机科学。我正在忙于夏季教学,进入“黑白棋”人机游戏(奥赛罗游戏,人类首次真正的机器失败)。我的导师Raj Reddy(卡耐基梅隆大学(Carnegie Mellon University)计算机科学终身教授和美国工程院院士图灵奖获得者)从美国国防部获得了300万美元,用于制造非特定语言,大词库,连续的语音识别。换句话说,他希望机器能听懂任何人的声音,能理解数千个单词,理解每个人自然说的话,这三个问题当时都没有解决,而瑞迪教授大胆地赢得了这个项目,希望能够解决这三个问题同时在全国范围内聘请全国30多位教授,研究员,音标师,学生和程序员发起了有史以来规模最大的声音工程,我也在30人之列,当时科学研究背景是行业已经有了一个类似于今天深度学习的算法。但是,数据标准化还没有实现,数据量还不够大。美国几个主要的语音识别实验室(如MIT,CMU,SRI,IBM,贝尔实验室)都有自己的数据库,有不同的测试数据,不同的训练数据,不同的语言模型和不同的词汇测试。所以都说业界第一,我们都同意。每个大公司都有自己的业务需求。例如,在语音识别方面,当时的打字机IBM想要使用语音打字机。 AT T垄断了它,要求贝尔实验室确定电话号码。所以,大公司并没有去帮助小公司或学校的动力。另一方面,小公司和学校经常有资源做小规模的数据集,往往没有大公司的成果。不仅如此,关于人工智能研究的非标准数据是致命的,导致了很多问题,其中包括:1,由于测试语料不同,最终对结果的识别,我们无法复制,无法验证。彼此不一致,而且由于数据没有通过,算法更不可能通过。 2,因为每个领域不同,最终的结果是不可比的。词汇的某些部分很小,相对容易,但结果可能并不普遍。有些地方有很多词汇,但是有很多的限制,所以不能说太多,导致更容易识别,也不普遍。 3,由于每个训练集不一样大,训练集越大,总体效果越好。所以,有可能结果是好的,算法不考虑,而是数据量。 4,对于学术单位来说,最大的问题是没有足够的资源(也不感兴趣)来收集,清理,标注大量的语料。对于小企业来说,语料库和计算能力是问题。最后,里德教授计划使用“专家系统”来完成项目,因为这种方法所需的数据有限。专家系统是早期人工智能的重要组成部分,您可以将其视为一种具有专业知识和经验的计算机智能编程系统。它通常使用人工智能中的知识表示和知识推理技术来模拟通常由领域专家组成的软件来解决复杂的问题。但我不同意。 2奥赛罗参加过人机游戏之前,让我对统计概念有了充分的认识,我的研究方法瑞迪教授动摇。我相信建立一个庞大的数据库,然后对大量的语音数据库进行分类可以解决专家系统无法解决的问题。另外,1985年国家标准与技术研究院也认识到,不合格的数据会影响研究进展。因此,在语音识别问题上,标准局设置了标准的语音和语言训练集和测试集。每个学校的每个小组都需要使用相同的训练集训练模型,系统参数可以自行调整。每个人都在比赛的最后一天获得了数据。我从这个标准数据集和测试中看到了机会。经过三思后,我决定鼓起勇气,直接向瑞迪教授表达自己的想法。我告诉瑞迪:“我想换个统计数据,用统计数据来解决这个”未说明的说话人,大词汇量,连续的语音识别“。我以为雷迪会有点失望,根本不以为他不生气,他轻轻问道:“这个统计方法如何解决这三大问题呢?瑞迪教授耐心地听了我的激情回答后,用他那温柔的声音告诉我:“开福,你们专家系统统计,我不同意,但我可以用统计的方式支持你们,因为我相信科学没有对错,我们都是平等的,我更相信一个充满激情的人,可以找到一个更好的解决方案。“那一刻,我感动无比。因为对一位教授来说,学生应该用自己的方法来研究他的反调。教授不但不生气,而且还给予全力支持,这在很多地方是不可想象的。统计需要一个大型的数据库,我们如何建立一个大型的数据库?瑞迪教授看到了我皱眉的样子,再次给了我支持。他说:“虽然我对你的研究方法仍然有所保留,但是科学界的师生之间其实并没有什么区别,我们都是征服者,所以如果真的需要一个数据库,让我说服政府为你建立一个大数据库!“瑞迪教授随后说服了美国政府部门和美国局收集并提供了大量的数据。我使用了标准局提供的标准大数据和一些拿了国家资金的机构的数据。后来,一些不拿国家资金的实体(如IBM和AT T)也参加了。我可以使用的数据越来越大。除了大数据之外,统计方法也需要非常快的机器,里德教授帮我买了最新的Sun 4机器。每次有新机器的时候,他都会说:“我要问我是否需要开始工作”。我花了至少几十万美元在纸上工作了两年多,里迪教授再一次的宽容使我感到一股强大的力量,这是一种自由信任的力量。 3在我的主管的支持下,我开始了疯狂的研究工作。那时候,我又用统计的方法把另一个学生带到了语音识别领域。同时,还有30多人使用专家系统来解决同样的问题。在方法论上,我们正在竞争,但是在瑞迪教授的领导下,我们分享了一切,我们用相同的样本进行了培训和测试。到1986年底,我的统计系统和专家系统达到了同一水平,认可率达到了40%。尽管这仍然是一个无法使用的系统,但学者们仍然是第一次尝试这样一个难题。我们仍然很高兴和乐观。 1987年5月,我们用一种新的建模方法大大升级了我们训练过的数据库,不仅使我们能够统计地学习每一个声音,而且在每两个音调之间统计学习转折点。对于一些声音的样本是不够的,我想出了一种方法(广义triphones)来合并其他声音。这三项任务其实把机器的语音识别率从原来的40%提高到了80%!后来它增加到96%。最初用于语音识别的统计方法在正确的方向上被验证。大家都相信机器学习方法和我使用的隐马尔科夫模型算法,放弃了不可行的专家系统(专家系统只能达到60%的识别率)。基于我的博士论文,后来Nuance,微软,苹果等公司做出了业界最先进的产品,1988年4月,我被邀请到纽约出席年度世界演讲学术会议,发表学术论文,这一成就震动了整个学术领域,这是当时计算机领域的顶尖科学成就,语音识别率大幅提升,在语音研究领域熠熠生辉,所有用专家系统研究过语音识别的人,会议结束后,“纽约时报”记者约翰·马科夫(John Markoff)来到匹兹堡采访我,1988年7月6日发表文章,占第一版科技版的整个半页。在这篇文章中,马尔可夫对我的论文做了一个突破性的报道,当时我只是觉得我正在和一个和蔼可亲的记者聊天,后来我学习d我是一位有才华的着名记者,三次提名普利策奖并在斯坦福大学任教。后来,“商业周刊”将我的发明选为1988年最重要的科学发明之一。26岁的时候,我非常幸运,第一次见面非常成功,因此我很幸运,并给了我继续爬到顶端的动力的科学技术。结果,我获得了博士学位。在卡内基梅隆大学(Carnegie Mellon University)的计算机科学专业,这是我进入1983年才四年半。在卡内基梅隆计算机学院,学生们获得了博士学位。平均六年以上的学位。我有博士学位在如此短的时间内创下了新的纪录。结果,我离开了学校,成了一名26岁的助理教授。 4不幸的是,尽管我已经找到了方向和基本方法,但是基于当前的数据量和计算水平,语音AI研究的商业化是非常困难的。我最终离开了研究界,进入商界,用产品来改变世界。三十年后,人工智能发展的土壤终于变得肥沃。随着互联网和移动互联网来大数据,高效的计算能力和其他条件可用。研究人员所需要的数据集不再那么难以触及,但是需要有人牵头让更多的公司参与其中。 30多年前,我仍然是一名AI研究人员,在现实世界中获得如此巨大的数据是一个令人难以接受的梦想。我当年得益于瑞迪教授的帮助和指导,也非常希望能给像我这样的年轻人创造研究机会和条件。那么昨天呢,创新工场呢,搜狗今天联合推出了“AI挑战者全球AI挑战赛”。三家公司投入了大量资金,还拿出了数以千万计的高质量开放数据集和宝贵的GPU资源。同时我也主张企业界和研究界可以采用大量的数据和标准的测试方法,也欢迎更多的数据公司参与到这个平台。希望我们推出挑战者,可以帮助AI在中国的人才成长。在我看来,这个“挑战者”不仅仅是一个事件,绝对不只是2亿的奖金,今年年底竞争的结束,也是促使中国AI人才成长的一大催化剂希望三,五年后,回顾这段时间,我们发现中美AI人才没有差距,AI挑战者在这样的一个领域扮演了一个小角色重要的过程,我觉得这一切都值。欢迎到比赛官方网站挑战者,获取信息和注册。具体的信息可以点击链接的结尾来了解(在电脑页面上注册哦)。生活在数据爆炸的时代,有些人为有才能的人提供数据和奖金池来展示自己的肌肉。