关于百箱大战,这十个问题是你应该知道的

【2018-01-16】

  战争十箱,你应该知道

  [亿州电网讯]今年夏天,智能扬声器火了。一方面是国外巨头如亚马逊,谷歌,苹果,微软,国内京东,阿里巴巴,搜狗,喜马拉雅山,IMC等,另一方面,中小企业期待一小块蛋糕,深圳南山区企业家点缀。这是一只猪可以飞起来的嘴巴,还是一个假泡沫,还是一个整体行业的升级?十亿国家电网暴露的专家和从业人员传递了这样一个信息:作为一种产品形式,智能扬声器不排除短命或改变方式的可能性,但在这背后代表一个真实的,日益接近的互动变化顺便说一句,迎合人类对简单,便利追求的自然。同时,语音是连接物联网的桥梁,家庭场景的价值将进一步挖掘。家居产品的制造和销售将被引导,重建并带来新的品牌机会。因此,智能音箱是一个不得不讲究的高度。亿邦电力梳理出产品的十大关键问题,尤其是对于初学者来说。 1看起来像一个扬声器,实际的语音交互在Sugr创始人和首席执行官宋少鹏看来,智能扬声器代表了最先进的人机交互结果 - 语音交互,这种方式符合人类需求,减少与物理世界的沟通。成本的历史趋势。人机交互的演变很简单:降低交互成本,即完成交互所需的能量,或完成交互的成本。如果按照历史规律,键盘 - 鼠标 - 触摸屏 - 语音,如果要计算2次幂减1,在这四个交互环境中,我们可以统计这个交互时间有多少时间,答案是明显。声音产品人类解决方案的历史迭代中经历了什么样的过程?如果把时间放回到二百年前,我们可以想象,喜欢音乐的人喜欢音乐,需要开车,去音乐厅或歌剧院欣赏音乐。留声机的发明,使得音乐第一次进入家庭,我可以躺在房子里欣赏音乐,是不是我的能量减少了?按照这条思路一路到iPod,我可以把1000首歌放在我的口袋里,手指滑过,你可以享受我最喜欢的音乐。更少的能源消耗。 2014年,Amazon Echo发布了一款智能扬声器,可以以更少的能耗获得所需的音乐。因此,从音乐产品的迭代来看,它恰恰证实了上述规则 - 减少了人类与物理世界的交互能量消耗。 (Sugr创始人兼首席执行官宋绍鹏)2.有人工智能出门向CEO李志飞提出,智能扬声器是虚拟个人助理的一种形式,后者是人工智能在消费领域的应用。最近几天,人工智能特别火爆。每个人每天都可以看到各种各样的人工智能报告,如无人驾驶,智能医疗和智慧城市。实际上,其中很多都是2B的应用,并且在2C领域有一个经常听说的类别,那就是一个虚拟的个人助理。 1956年,人工智能的概念提出,在过去的几十年里,人类,特别是计算机科学家,一直在想象,我们不能够创造出一种能够与人类自然对话的机器,然后帮助你处理很多事情。这是一个在历史发展过程中的简单产品,当然还有很多其他的产品或技术,但是这可能会让公众更加关注。在1956-2011之前,在Siri出现之前,可能会有更多的算法,主要是政府或学者,研究将自然语言处理,计算机视觉,图像识别和各种算法的框架结合在一起的算法。2011年,苹果发布了Siri ,这可能会突然刺激对语音助手的讨论或期望,我相信当每个人都买了iPhone并回到家时,第一件事就是调整Siri,表明他比Siri有更高的智商,而且不再需要。过去很多次都是这样一个场景,但是每个人都真的看到了公众对这个虚拟助手的热情。所以后来无论是Google还是微软,还是亚马逊,他们都已经发布了自己的虚拟助手,或者这样的语音助理产品。事实上,在Siri之前,无论是IBM还是微软,还是Google,他们都做过很多很多企图在语音交互技术方面的尝试,而且还有很多产品尝试,但从来没有像Siri Siri打包成类似于人们的助手,然后进行了很多的讨论。但是,苹果的用户教育确实非常强大,所以在这之后基本上引起了整个虚拟个人助理的热潮。另外一个时间点我觉得比较挑剔,2014年亚马逊发布了智能音箱Echo,早期的虚拟私人助理是体现在手机,但实际上很多人只是猥亵而已,看来他们的智能比机器更高,很安全,基本上已经不用了。现在可以看到智能音箱可能跟着一个智能手机上千万个独特的产品,还有更多高频的人机交互产品,那之后我们竟然看到Google也发布了这个音箱,中国已经说过,还是正在进入“百箱战”,谁能赢呢?不知道,我觉得单个设备很难携带所有的互动,未来无论是互动还是互动设备,都会多元化,除了语音,手势,图像,视觉,面部表情等方式之外,各种各样的方式可能是全面的。语音可能比现在要重要一些,但绝对不会有80%依赖于语音交互。设备,无论是耳塞也好,还是车载设备也好,或者未来的AR,VR设备也好,都可能是虚拟私人助理的硬件载体。 3.为什么说话者首先引爆热?宋绍鹏指出,智能音箱产品在美国最早出现,这与当地音乐消费习惯密切相关,用户粘性高,使人工智能技术不能更完美地商业化。美国第一批大型流行音乐消费者是汽车里长大的黄金一代,全部配备了无线电。在北美,每个人都习惯于背景,实时播放,那里会有音乐在那里的任何生活场景。在家庭现场实施里面,说话者几乎就是需要。有了这样一个刚性的需求,流媒体这样的播放习惯,换句话说就是在智能扬声器上为大家提供语音交互,实际上用户对语义理解的要求并不高。扬声器一直是被动音乐产品,人工智能和语音助手的植入使得它主动获取信息,获得音乐,成为一个交通入口。慢慢地,技术迭代导致它开始增加对家庭其他部分的控制,并逐渐成长为家庭的中央控制,给人以巨大的想象空间,这就解释了为什么几乎所有的互联网巨头,包括谷歌,亚马逊,微软,苹果都进入了这样的产品竞争轨道。巨人的进入使得行业的升级加速,服务的提升将加快。所以聪明的扬声器今年夏天成为一个惊人的产品。 4.为什么玩家必须占据智能扬声器的高度?有一种传言是,深圳市南山区方圆一公里范围内有100多家智能音箱厂家。我们为什么都进来?李志飞从技术和商业的角度出发,从技术角度来看,智能扬声器是一个非常有趣的语音交互产品。我们在语音交互和语音交互硬件供应商方面做了很多尝试,包括手机,Googleglass,smartwatch,汽车,扬声器,耳塞,我们发现如果您想让您的语音互动,您需要做一些事情:条件1:硬件运营商本身具有一定的用户需求。因为Googleglass当时是个大问题,所以没有人会很快使用它。条件二:使用场景更私密。智能手机现在很难在公共场所互动,但家庭是一个更私人的设置,自然的用户可能愿意与他们的声音互动。条件三:语音交互可能是你方便的最佳形式,可能没有更好的办法,比如Googleglass很难用其他方式。我们正在观看DAU(日常活跃用户),如手机语音交互DAU小于1%;看不到10%;汽车超过60%,即100个用户有60个用户与语音交互; GoogleGlass是80%,因为它没有其他方式进行交互。总之,我认为这三点是语音交互不能用于基本判断:1,硬件本身必须是粘性的。 2:使用更多的私人空间。 3:语音交互可能是唯一或罕见的互动方式。所有这三个条件都很重要。仅仅Googleglass就有80%的DAU,但硬件本身并不需要,使得它的语音交互作为上面的软件是没用的。为什么家是如此重要?我觉得第一个家是私人的,第二个我觉得它有一定的使用场景。在技​​术层面上,它代表了不同的层面。比如说我们讲近场语言的远场识别,大概手机和手表的距离可能大于30厘米,其实你的后视镜也好,你的距离可能在这里,所以这个基本上是这样的1米的距离。不过,现在的发言者声称最大是5米。这在技术上是一个非常有趣的场景,其中所有先前的语音识别数据尽可能地靠近麦克风收集,不太可能尽可能地远离,并且需要被远程唤醒,因为你不能得到它。而且在家里多次交谈,你家里的小孩可能会喜欢交谈,而且你没有屏幕,也许没有别的办法,因此从技术上说,这是一个独特而又非常重要的语音交互训练场。从商业角度来看,每个人的生活空间都不在家,汽车,路上,办公室,这基本上覆盖了日常的空间。所以,家庭无疑是一个非常重要的空间。未来的搜索,我们首先使用PC,键盘到手机,很多已经开始使用的声音,未来可能会直接在家里搜索对话,这肯定是入口的事情。包括内容消费,比如当前音乐,音频的数量,这个内容可能会在未来收费,这是一个智能音箱,可能是一个非常重要的消费场景,所以这也是一个入口。智能家居控制的入口,因为你很难想象,每个空调本身,远离现场识别系统的语音识别系统与它互动,或每个电视,扬声器,每个电饭煲,扫地机器人都配备远场语音交互是一项非常聪明的服务。我认为智能扬声器可能来自它背后的中心,以控制各种设备。五百箱战斗比赛点在哪里? (李知非)有的人打价格,硬件供应链比较强,玩的便宜,市场搞乱了,或者没人能走;有些打架聪明,语音互动做得好,都是这个系统可能会更快,更准确,更深入。这可能是我们最重要的一点。有人说有内容生态,音乐,FM,相声,可能是播放频道。所以现在确实没有任何一个球员都有,当然这个市场可能确实有这么三四个,每一个都有自己稍微强一点的地方,可能会持续这个观点。 6.你还需要有声音的屏幕吗?目前市场上主流智能音箱没有屏幕,凭借语音交互功能据国外媒体报道,Facebook正在开发更强调视觉交互的屏幕音箱,配置了15英寸的触摸屏。 (李志飞)从产品的角度来看,我一直认为依靠100%语音互动产品的智能音箱很难做好,必须有屏幕。但是屏幕绑在电视机上,或者自带,或者在必要时打开电话,这其实是一个值得探讨的问题。相反,我相信智能扬声器可以在智能手机的屏幕上,并在必要时打开手机做一些事情,这可能是一个更加渐进和现实的解决方案。智能电视作为智能音箱的屏幕,我认为是不可靠的。电视是一个沉重的设备,当我打开它时,我认为打开这么大的屏幕来控制空调或类似的东西是非常重要的,我认为这是绝对没有意义的。方式,所以我不认为这将是辅助扬声器屏幕的主要形式。当然,演讲者可以与智能电视进行互动是没有问题的,但更多的是使用电视现场,我通过扬声器进行控制。我没有说我是为了控制空调,而是用智能扬声器说话,聪明的扬声器打开电视,电视显示出什么样的结果,最后我看到了一些东西,这是不现实的。入口是唯一的吗?非常流行的想法是,智能扬声器将控制整个家庭,真的只有这一个入口? (李志飞)从软件角度来说,我觉得入口是统一的。什么是硬件载体?是单个扬声器还是两个或三个扬声器,还是在不同的地方有不同的设备?首先,我不认为它是唯一的设备,但我不认为每个设备都有自己的能力与远场语音互动,因为成本是不合理的,例如加50元或100元做远场声音去空调互动,为了控制开关温度,我觉得这是一件很不合理的事情,现在亚马逊,Google都在想这个问题,你可以选择小的设备,在锅里,无处不在,有很多模块,但是它是一种新的设备形式,可以贴在卧室的墙上放置在花盆里的面板上,这是我们定义的房间实际上需要的功能今天(远场语音交互)?因为房间里可能有8个设备,所以我就有了所有的东西。8.国内对智能音箱的需求呢?(李知非)首先,难以达到数十级在短时间内达到数百万,今年整个市场几乎可以达到100万出货量这种形式的市场发言者应该分为两个层次的软件和硬件观点。首先,从软件角度来讲,无论是智能电视还是路由器,空调或挂钟,都成为入口设备,我觉得更加类似。每个房间可能会有不同的形式,可能在厕所里现在像化妆镜一样作为主要载体,在客厅里是扬声器,在卧室里可能是铃铛或挂在这个灯上,所以这个是可以改变的。但无论如何,特别是对于像我们这样的公司来说,我们仍然把这个软件作为交互式AI的核心。因此,市场硬件更多地是我们的载体,我们找到一个我们可以接受的形式。 9.智能音箱能否在全国普及?宋少鹏认为,中美两国在音乐欣赏和家庭环境上的差异,导致中国智能演讲者的发展路径无法仿效美国。我们周围的消费者需要什么样的智能音箱?中国和美国消费者对于音乐消费的DNA是不同的。美国音乐消费从收听广播开始。什么是收音机?收音机是收音机,收音机,收音机是由流派,曲目,歌曲列表播放的音乐,所以我们认为北美音乐消费的DNA是来源于流媒体。中国的音乐消费者首先接触到80年代初改革开放以来的音乐。香港电台的音乐以盒式磁带的形式大量流入内地,我们首先接触音乐是一个美丽的录音带,完美的印刷,包括封面,歌词,开放,享受这些内容,把它放进录音带录音机里面听音乐,听的内容一般是一个完整的歌手专辑,可能有各种各样的流派,收藏很少,混合,难忘的是歌手或歌曲,所以我们认为中国音乐的DNA消费者来源于当时的卡带式播放,这是按需提供的,我们认为这是两地音乐消费中DNA来源的差异,这种差异体现在两地的音乐APP上。我们以Spotify为例,QQ音乐(中国音乐播放器的最大用户)有很大的不同:1,在QQ上搜索音乐总是一个菜单,在最显眼的地方,是用户友好性最强的搜索。 ?因为用户想要。在Spotif中你必须去第二个菜单来完成搜索功能。 2,封面歌词我们处在一个非常突出的位置,很多视觉信息,而不是在Spotify方面。他们俩说,北美的音乐消费是流媒体,他们生活场景中的音乐就在那里,而音乐就在那里,而且不需要太多的改变。而我们的音乐消费DNA是按需的,需要实时证实我想听到这个,我想听听那个。因此,两地的消费者对音乐播放硬件有不同的要求。我们认为在中国的需求是一个非常强劲的需求,这将是一个正常的需求。随需应变将带来技术要求,包括更强的语义理解,更丰富更深层的音乐知识地图,更完美的音乐版权和音乐库。与此同时,中国和美国的消费者支出情况则大不相同。举两个例子与大家分享。 1,在美国,用户使用的空调器通常是中央空调,空调器的温度由每个房间的温度控制。在我们家里,一般都是壁挂式或落地式的空调,每台空调都有独立的遥控器,这就决定了如果把音箱当作智能家居控制,那对于空调界面,控制场景和体验就是不同。 2,在北美,消费者的厨房是开放的,客厅里的厨房是最常用的亚马逊Echo场景,而在我们周围,我们都知道厨房是为你做的炸,炒,熟,炒,这个场景是完全不同的,这也可以推出很多不同的场景,我们可以这样想,这些场景带来的用户需求一定是不一样的,所以我们认为在中国做智能音箱,Amazon Echo一定不要复制路径,而是要找到我们真正的消费者需求,实现消费场景来解决自己的问题。10.离她这样的电影有多远?“她的”Heroine“ - 一个虚拟的个人助理产品无尽的想象空间到了科幻电影“她”,但李知非强调说从实现的技术难度来说,它真的只是科幻电影。 1,技术。从技术角度来看,如果从整体技术的发展来看,语音识别本身就是四年前的瓶颈。如果语音识别不准确,背后的理解是无用的?但是直到现在,语音识别技术本身已经在一定程度上发展起来了,不会将虚拟个人助手不能够作为瓶颈。今天最大的瓶颈是对自然语言的理解。我相信每个人都有一个经验。当你去冥想SIRI或者玩各种各样的发言人时,第一轮没有问题。当你与之对话的时候,你改了句子,或者你专门说了一下,基本上是两三个回合就去问死亡,这是非问题的,或者纯粹是“哦”的那种。所以这确实是一种自然语言的理解,对话是我们在未来两三年遇到的特殊瓶颈。之后,这可能是推荐,推理,思考背后,理解和能够为自己创造新的东西,这就是发生了什么事情。一个特别有趣的悖论是,一方面计算机可以创建一个程序,可以击败世界上最牛的国际象棋运动员,无论是象棋还是国际象棋,都表明计算机是非常聪明的,但另一方面,计算机不像一个5岁的孩子和你一样正常的交谈,我认为现在的计算机的核心并不是模拟和理解物理世界和常识,2)用户场景的角度,因为虚拟个人助理或者语音交互被使用,其实就是看你有什么样的场景,用户是去闪避,还是真的活跃起来,当用户打开机器时,每天会有多少百分比与语音,也就是说DAU来进行语音交互,智能车可能是我们第一次看到未来流行的语音交互,其次是无线耳塞或智能家居,最后是手机。