戴文渊:机器写出千万条规则就超越专家

【2018-01-17】

  戴文渊:​​机器出千万规则超越了专家

  戴文渊第四范式:机器写了超过10万条规则,超越以往专家解决人工智能问题需要很长的路要走,但现在基于人工智能平台,可以简化中间过程,只需要要有明确的业务目标和数据,直接实现最终的AI解决方案。图片由36 Krypton提供。 36氪星人类可能不得不花费余生来从寇升起。无论如何,这是一个漫长的过程。但是,机器突然可以达到20段。机器何时在人身上?如果机器可以写超过1000万条规则,在这方面机器超越了人。第四范式的创始人兼首席执行官戴文元在由36氪主持的2017商业生态峰会上表示。他在“B-R-A-I-N:建立企业AI能力的关键要素”的发言中说,这些数字是理论性的。他介绍了相关的理论,介绍了人与机器思维的区别,以及为什么一些本地机器可以超越人?使用AI技术来提高产品或性能需要五个主要先决条件中的哪一个。以下是演讲全文(36氪编辑,适度删除):今天我要分享的是,在AI开始启动之后,很多公司都对如何使用AI技术来帮助企业提升性能感兴趣企业经营更多的是好的。首先,让我们思考一下如何确定机器的智能程度?对于生物来说,大脑的生物会更聪明。包括自己的人,从原来的人到早期或迟到的智人,到现代人,伴随着脑容量的增加。 36氪版权所有36氪如何确定智力水平?计算机根本没有脑容量,计算机必须用数学模型进行建模。行业如何判断一台机器的智能水平?有两个统计学家Vapnik和Chervonenkis,他们提出了一个叫“VC维”的理论。 VC维反映了功能集的学习能力 - 维越大,模型或功能越复杂,学习能力越强。当然,我们可能会认为VC维度太数学,然后我们改变理解的方式 - 人们如何解决这个问题?我们总结规则。比如牛顿的三条法则,总结了物理学的三条规则,其实各行各业都有商业法的专家,如果做到这一点,方式可能就不一样了,机器会把所有的物理现象根据速度范围划分为1千万或3千万份,并提取更多的规则,在这种情况下,由于牛顿定律不能保持高速,所以即使是机器也会比牛顿好,机器可以做得更好高速提取不同的规则。编者注:根据牛顿定律建立的经典力学只适用于宏观,低速,弱力的情况。在高速(接近真空中的光速C)的情况下,微观(接近普朗克常数h的粒子角动量)和力(维持原子核束缚,强度〜10 ^ 4牛顿)不是实际上AI现在的商业应用场景就是做这样的事情 - 用机器来看数据,比专家规则提取更多的规则,当我2009年加入百度时,所有的搜索所有的广告都是专家规则系统,当时规则编号被写到近万篇商业专家在高级广告领域写的文章,后来我们用机器分析了数据,最后写了1000亿条广告规则,比人类撰写的一万多篇文章更加细致,在未来的四年里收入增长了八倍,现在这种方法已经应用到了各个领域,例如,在金融领域,我们和一家银行合作。原来规则的数量大约是1000。后来,它使用机器学习来帮助找到25亿条规则,提高了预测的成功率。另外,在个性化内容推荐领域,现在很多企业都在学习做今天的个性化内容分发,那么如何进行个性化呢?其实,机器的规则其实写出来的数字就够了它在过去由商业专家来决定如何分配,不可能是个性化的,机器可以在短时间内写出大量的规则,专家可能需要30年的时间才能写出来,这就解释了为什么它是一个长期的在下棋的时候从一个部分过渡到九个部分,机器突然可以达到20个部分,如果这个机器可以写出1000多万条规则,这个区域的机器就超出了人们的意志。有时候机器似乎比人类强大,有时机器比人类弱,为什么呢?实际上,因为机器的一些区域比人们可以写更多的规则,但是有些区域却不是。做Y我们的机器好:B-R-A-I-N怎么做AI?我们总共总结了五个前提条件,简而言之就是BRAIN。图片由36 Krypton版权所有36氪总而言之,大数据。我想强调的不是数据越大越好,而是数据越有意义,或者“处理数据”。这就像下棋要看很多下象棋,不要看日常的排名或新闻报道。对于商业运作,我们要收集关于过程的数据,一般来说就是要求,服务,加上反馈过程。这是一个采访,我们建议用户在未来访问时,用户可能会接受,可能不会接受,在这种情况下它是一个数据的过程。您需要多少流程数据才能使机器比一位优秀的业务专家更有信心?千万。换句话说,要训练一个好的AI模型,你需要超过1000万个样本。为什么是1000万?事实上,有理论上的支持,就是要获得图灵奖VALLIANT引理,我们可以把它理解为机器模型来匹配规则数量和数据量。如果机器能够编写1000万条规则才能超越专家,则需要1000万条数据。 36氪版权所有36氪一切都要有反馈(Response),反馈应该数字化。例如,过去做内容推荐的目的是推荐“相关”的内容,但计算机不能衡量“相关性”的内容。所以现在我们将建议的目标分解为点击率,阅读时间,转发,收集,投诉,虽然这些指标并不完全代表“相关性”,但是每个指标都可以衡量,电脑可以理解你可以优化。最后,实际结果表明,在逼近中走得足够远比坚持准确但不能达成的目标要好。三是算法。事实证明,我们需要算法专家来进行非常深入的算法研究,但算法专家的数量毕竟是非常小的。现在,我们正在探索一些新的方法,不仅适用于算法专家,也适用于普通的业务开发人员操作算法。现在有可能在一两个月的培训之后,通过一个机器学习模型来培训业务专家,再加上一个机器学习平台。当然,这个平台会封装很多非常复杂的工作,例如,支持算法的万亿级功能,例如自动特征工程。为什么过去较难使用的机器模型是因为需要做特征工程,这需要数据科学家工作三到五年才能建立一个非常好的模型。现在,这个问题已经解决了。在年初,我们在公司内部举办了一场模特大赛。所有参赛选手均为非技术人员,如商务,行政,人力等。最后,超过70%的参与AUC(编者注:AUC是模型效应的专业指标,值介于0和1之间))的评分超过0.8,可以与一位资深数据科学家第四,基础设施也很重要,现在的AI体裁主要是基于大数据和机器学习,实际上大数据下并不是简单的问题,实际上,机器的管理,管理者是一样的,当你管理20支队伍的时候,会出现一些问题,超过100人的时候会出现一些问题,员工可能每天都会离开等等,同样,100多台机器运行一个任务,每次运行机器都会出现机器停机的情况,当机器数量超过1000台时,就会出现分配不平衡的情况,有些机器可能会运行并做很多事情,有些机器可能闲置无用,这是非常复杂的当o的数量有架构问题f数据量很大,与算法的问题一样好。 36氪版权36氪所有10,000台机器都有问题,需要一个冠军写的系统,以及数以万亿计的机器学习框架,难度很大。我们还在设计支持数万亿机器学习的体系结构,将分布式计算,流式计算和高性能计算(超级计算机)等功能封装到产品中,以确保在大数据场景中,数量线性增长,实现可控系统时间成本和计算成本。最后一点是非常重要的需要,就是要有明确的问题的定义(一个目标,有边界)。现在人工智能只能解决一个地区的边界问题。例如,在AlphaGo国际象棋没有赢下一场,我们不认为它不会,因为你期望它下棋。但是,业务问题通常是多目标优化。要实现多目标优化可以采取反汇编的方式,就像KPI也需要被拆分成不同的目标,这个时候要实现每个目标的单一目标,最后结合起来实现多目标优化的方法。总的来说,人工智能在商业领域的应用,实际上意味着在明确商业目标的前提下,应该提高模型的维度,说一个更容易理解的方法:过去,商业专家制定了数百条规则。今天,机器需要读取数据,写出几十甚至上千亿的规则,要实现这个目标需要满足五个前提条件,但实际上却是非常困难的,解决这个问题的第四个范例是如何减少人工智能的商业门槛,过去需要很长时间才能解决人工智能问题,现在可以简化中间过程,只需要一个业务目标和数据就可以建立一个人工智能解决方案。五六年前是很多工作,但现在这项技术带来了开发成本的大幅度下降和业务运作的迅速改善。