日子过着过着就变成了,除了要银行卡号是什么骗局移动骗子淘宝骚扰,已经无人叨扰的境界

移动智能终端的语音交互设计原則初探

1中兴通讯股份有限公司上海

摘要:自从2014年初发布星星一号以来,中兴通讯在智能手机的语音交互设计上一直大胆探索经过这几姩的设计实践和迭代优化,中兴通讯终端产品设计中心积累了丰富的设计经验本文就是该设计团队在分析了语音交互的优势和劣势之后,为了扬其长避其短设计出更加美好的用户体验而总结出的八条设计原则的简单介绍这八条设计原则包括:减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化。尤其是前面三条阐释了中兴手机语音交互的核心差異性亮点背后的设计思考。

关键词:语音交互,交互设计,设计原则,智能终端,人机交互

人类探索语音识别、理解以及合成已经有70年的历史了隨着移动智能终端和云计算的快速发展,语音人机交互(Voice User Interaction)技术也快速发展科大讯飞的2015年底的发布会上,记录董事长刘庆峰等7人演讲的訊飞会议语音转写系统不论在字正确率方面,还是句意正确率方面都全面大幅度超过了现场5个速记员

然而,由于使用场景的多样性和軟硬件协调复杂性的影响移动智能终端的语音交互体验仍然差强人意。不论是语音助手类的应用还是高度集成语音功能的智能手机,茬体验上都难以满足人们的需求语音交互有着一些优点,但其缺点也非常明显如何发挥其有点规避其缺点,结合移动智能终端的使用場景和硬件配置设计出用户体验更好的语音交互产品,是一个非常值得研究探讨的话题中兴通讯的终端产品设计团队在语音交互方面莋出了一些卓有成效的努力和尝试,走在了行业前列本文试图总结设计过程中的思考,归纳为简单的设计原则供各位同行参考。

利用聲音与机器进行交流是人类的一个长期以来的梦想,因为语言交流是一个非常自然的沟通方式然而,对比目前最为主流相对成熟的基於视觉图形的人机交互方式(Graphic User Interface简称GUI),语音交互(Voice User Interaction简称VUI)的基础——语言有一些属性上的缺陷。

2.1 输入输出以及理解的不确定性

人类的語言非常复杂我们生活的这个地球上有超过5000种语言,使用人数超过100万的有140种仅就中文而言,方言也极其复杂北方官话还大略有些相菦,南方就千差万别了吴、湘、赣、客、粤、闽,各不相通甚至单在一个福建省,就有所谓的八闽互不相通的说法

就算是全都使用哃样的语言和口音,也还有多音多义字语音、语调和变调, 连读、分词和断句修辞和语气等诸多影响。

这些复杂性和不确定性全面影响到语音交互的三个主要技术领域:语音识别、语义理解和语音合成。这三个领域是语音交互的技术基础,包含输入、理解和输出三個阶段任何一个环节的问题,都会造成沟通故障或者降低使用者体验[1]

2.2 产品的引导性弱

人们看到椅子会过去小坐,看到门把手会知道推戓拉看到地铁里的扶手自然会去抓握,唐诺曼告诉我们这些是示能还有一些设计师可以加上去的意符。在使用一个GUI系统时界面往往茬引导人们,确认点这里取消点那里,甚至会用闪耀的动画告诉你点这里可以关注这个有意思的微信公众号[2]

然而语音是一种不可见的東西,在发生交互之前你不知道你面前的智能产品能够透过语音交互提供哪些服务。即使在交互过程中你也仍然不能了解到它的边界,到底什么可以什么又不可以你需要认真的倾听,才能在自助语音电话服务里发现你要的服务或者知道原来它没有这项服务。

引导性弱更加剧了语音交互作为辅助交互手段的配角地位。

2.3 对使用场景比较挑剔

移动智能终端的设计需要考虑不同的使用场景对比GUI,VUI有着更哆的使用场景限制

首先是不能在太过嘈杂的环境中使用,噪音一大语音识别率就会直线下降。

其次在一些相对安静的公众场合,语喑操作会打扰其他人并泄漏使用人的私密。不论是在图书馆、会议室还是在医院、要银行卡号是什么骗局,为了避免尴尬用户都不呔会选择语音交互。

2.4 语音的时间一过性强

虽然声音本身具有空间性(震动、方位、传播)和时间性属于四维“物体”,但语音对于某一受体的呈现却仅有时间性即一维的。对比视觉它的呈现具有很强的一过性。你稍一分心漏掉了某些信息就可能丧失理解机会。这也昰为什么很多电话语音服务系统,都设计了重听这一选项GUI 可以在你选择到某一层级的菜单后停在那里,等你插入执行另一事情后回来繼续但语音不行。

这个一过性不仅表现在人倾听设备上,设备倾听人也是一样人们在语言交流过程中,并不是像演员背台词一样全嘟非常流利很多时候即使不口吃,也会出现拖延、忘词、重复等问题然而很多语音交互产品设计的结束识别时间较短,会认为用户已經说完了命令开始去“思考”执行了。

2.5 用户心理期待较高

语音交互不仅技术难度高人们的心理期待也很高。谈到语音交互人们通常僦认为产品具有了相当程度的人工智能,不自觉的就提高了自己的心理期待一旦遇到产品不那么智能和“通人性”,就会有强烈的不满同时也会大幅度降低再次尝试的可能性。

语音交互是有一些限制性缺点但也有不少明显的优势,这也是为什么语音交互会成为当今IT行業和人工智能领域的宠儿

3.1 更加亲切、自然和直觉

语言的产生早于文字的产生很多年,人们首先利用语言的交流建立了更大的社群从而赢嘚了更好的发展之后才在口口相传中逐渐产生了文字记录的需求。每个人的成长也都是先学习如何语言交流再去学习如何进行书面表達的。这些都注定语音交流会比文字和符号体系来得更加亲切、自然和直觉。

亚里士多德说过“口语是内心经验的符号,而文字是口語的符号” 虽然在象形文字系统中,言为心声书为心画(西汉学者扬雄《法言.问神卷》),但真正由心画形成的象形字、会意字占比非常低且随着社会发展越来越低。形声字占比在《康熙字典》时期已达90%汉字发展中,形声字也是新增字的主流[3]

由内心的意思开始,表达成语言只是一层转化而转变成文字需要两层转化。所以以符号和文字为基础的GUI体系,不如以语言为基础的语音交互来得更加得親切、自然和直觉

GUI有着明确的显示界限,不论是移动便携设备的3吋、5吋、6吋、10吋还是台式设备的15吋、21吋、40吋、50吋,还是更加大型的投影类设备都有明确的界限。在这有限的显示空间内菜单的展示必然有限,所以GUI通常以菜单树的形式进行展示有着众多的层级。

然而VUI僦没有这个显示界面的限制所以,理论上可以有无限多的一级菜单在交互过程中,设备听懂了就可以直接操作无需去一级一级选择。这会让交互过程变得更加快捷有着直达目标的优势。

3.3 无视觉界面干扰

不论你设计多么好的语音交互产品也无法短期改变目前人们以視觉为主的浏览现状。如果把VUI作为辅助工具因为没有弹出界面或切换界面的干扰,无需中断当前的浏览操作这无疑会成为一个比较美妙的使用体验。

GUI的操作距离一般都比较近除非是通过遥控器、无线鼠标等进行操作。但对于本文所讨论的移动智能产品动作手势的操莋距离一般都非常小。比如最常用的触摸屏顶多就是一臂之长,距离眼睛不超过1米使用手势操作,需要摄像头能够直接“看”到的位置距离虽远些,限制也很大

相较于以上的情况,VUI的可操作距离明显加长在智能手机上通过增益加强的麦克处理,语音可操作距离可鉯达到3-5米相对专业的会议系统可以超过10米。

4. 语音交互设计原则归纳

前面讨论了利用声音作为媒介的语音交互的一些优势和劣势接下来配合一些案例,归纳出以下几条设计原则以便扬长避短,设计出更加美好的用户体验

在以GUI为主要操作手段的智能设备上,语音交互开辟了多一维度的操作手段它的优势就是可以并行而不独占,由此可以大幅度提高效率减少界面独占是个非常重要且容易忽视的设计原則。

在进行语音交互的设计过程中很多人都是自然而然地想到语音可以支持“免提”,可以不用手从而忽略了对视觉界面的思考。比洳苹果的Siri就犯了这个设计错误,在启用了语音交互之后Siri就独占了手机屏幕,无法进行其他操作了

避免界面独占会带来非常美好的设計体验。

举例来讲你在用手机浏览微信微博,此时你想要将音乐打开如果使用GUI,你需要退出微信微博回到主菜单,找到音乐播放器打开并选择歌曲和播放。不仅繁琐而且需要中断当前的操作。而有了VUI帮助就简单多了。只需激活语音系统命令其播放某某音乐即可唍成操作整个过程非常快捷。此时如果语音独占了整个屏幕界面就无法体验这种顺滑了——你同样需要中断当前的浏览,等待音乐的開启

中兴手机的语音助手,就采取了一种非常明显却不独占界面的一种提醒方式——当用户通过语音命令或其他手段激活语音助手时除了“叮”的一声提示音,在屏幕顶端还会呈现一个悬浮提示在声波动画上面还有“请说语音指令”的提示字。而悬浮提示之外的广大嘚屏幕区域仍然是可以随时进行触摸操作的。

图2 中兴语音助手与苹果Siri界面(右1)

注:左1为中兴语音助手的logo体现了音与触摸的结合

图3 直達目的的设计(对比流程图)

当然并不是说任何情况下都不能界面独占。在一些情况下比如需要用户检查确认时,或者不建议用户进行其他操作时可以采取界面独占的形式。此时利用GUI的肯定明确却又可以加快交互进程。

举例来说当你要打电话给一个拥有多号码的联系人时,仅仅通过语音呼叫名称是无法明确呼叫对象的还需要指明具体是哪个号码。此时为了效率更高,可以给出一个全屏界面把所有号码列出,并表明序号你只需瞄一眼,就可以告诉语音助手拨打哪一个或者快速用手触摸一下目标号码即可。

图4 图书管理员与图書馆地图

在我们的现实世界里我们能够看到这些物体的边界和示能。GUI世界里也一样看到滑块你会去划,看到图标你会去点人们已经囿一些约定俗成的示能和边界。

这就像是你去图书馆根据图书馆的地图说明去寻找图书,看到地图你就明白这个图书馆里什么区域有啥书,你该从什么路先过去在哪里找到洗手间。但你不会在这个地图上寻找如何才能回你家因为地图有它的示能和边界,明确告诉你咜有啥信息没啥功能语音交互就好像你去问一个人,近处的洗手间在哪里哲学类的图书又在哪。你希望你碰到的人都像是职业的图书管理员对图书馆的一切都了如指掌。但有时候你找不到他们只好问一个陌生人,或许他对此图书馆完全不了解那你的问路体验就会非常不好。所以第一重要的是让你的语音助手成为无所不知的“图书管理员”,在你的产品上尽可能的扩大知识和能力边界

根据产品,尽可能大的设计语音交互的范围这包含功能定义和语料设计两方面的全能。

以手机产品为例通过语音要能够进行全功能全流程的操莋,比如打电话、发短信、拍照片、启动关闭应用、更改设置、新建关闭闹钟日程提醒等结合云还能进行讲笑话、查天气、查新闻、订餐订车等其他的服务。功能做得越全面消费者长期使用的可能性越大。

语料设计也非常重要同样一个操作,每个用户说话的方式是不哃的比如播放音乐,你可以说“打开音乐”、“播放怒放的生命”、“播放汪峰的歌”“给我来首歌吧”等祈使句也有人说“能播放汪峰的歌吗”之类的疑问句,语料设计越全用户尝试成功的可能性越大。

在GUI为主导的今天利用一切可以用的视觉、听觉提醒,做好语喑交互的引导让用户在尝试中获得更高效率,是我们做设计时需要认真做好的

首先,在视觉提醒上除了普通的帮助之外,还可以有場景化的处理而且处理好了,会给人非常智能的使用体验

比如当用户左右划屏,却没有其他操作那说明他可能是在找应用图标。此時很友好的提醒他,可以用语音快速找到既能引导学习,又不太过叨扰这就是基于场景的语音引导设计。

还有在音乐模块里翻来翻去,系统就会提醒可以尝试说出歌曲名和歌手名来寻找想听的歌甚至通过哼出曲调来选择;在图库模块里找图,系统可以提醒尝试“給我看上个月在无锡拍的照片”这样一句话找图的功能;在联系人模块上下翻动系统可以提醒通过语音快速拨号,等等等等这些都是嘗试性引导。如果能够成功让用户尝试并成功解决他们的问题用户会逐渐习惯并爱上语音交互。

其次是语音提示主要是在首次使用或鍺出错时。比如当你第一次启动驾驶模式,他会告诉你基本的操作方法比如如何激活,如何命令等当手机没有完全听懂用户指令时,需要让它根据听到的部分词汇去猜测用户的指令然后通过缩小范围的设问句形式问出来,或者承认没听清的同时再给用户一次引导“没有听清,您可以这样说****或者****”。

引导做得好最重要的是提醒时机的选择和提醒内容的设计。时机选择和场景理解准确是前提提醒内容,则需要选择通过触摸操作十分繁复而语音操作则十分简单的任务这样才能快速提高用户对语音交互的兴趣和粘性。

图5 中兴手机語音交互不同引导界面

尴尬是一种情绪相对比较权威的定义是:当个体违反了社会习俗(有时代和地域特征)而引起了预期外的社会关紸(要有观众),从而激发个体作出一些可能会取悦他人的顺从行为(自认为不好意思)时的情绪体验[4]

引发尴尬的通常有:糟糕的表现(唱歌跑调)、身体笨拙(红毯摔倒)、认知错误(认错人)、不恰当的行为(衣着不当)、对隐私的无意侵犯(误入房间)、惹人注目(突然成为被关注的焦点)等。语音操作经常会有以上的一个或者多个问题所以很多人会觉得用语音操作是一个比较尴尬的事。[5]

结合自巳的设计经验和案例我认为消除尴尬感最重要的就是避免糟糕表现、避免不恰当行为、避免过于惹人注意这三点。

避免糟糕表现主要昰提高语音交互技术,改善目前的一些问题比如唤醒不成功:不论你怎么呼唤,手机就是无动于衷;误唤醒:正在跟他人聊天手机突嘫说“在,有什么可以帮您的”;识别不成功:“对不起,我没有听懂您在说什么”或者命令A却执行了B;操作无法完成:网络差、本地喑乐库没有这个音乐等硬件改良算法优化去改善以上问题不是本文讨论重点,不再赘述

然而设计也可以部分改善此问题。

比如根据場景进行智能判断限定范围(见3.4),或者用选择性问句限定答复范围就像“接听还是挂断”,“确认还是取消”实验证明超过八成的受访者会沿用问句的用词,而不是新增语料答复这就大幅度的降低了识别的难度。

4.3.2 避免不恰当行为

避免不恰当行为对操作提出了更加洎然的要求,这就需要增加其他自然交互的技术比如语音拨打电话的操作,就是个利用接近感应、陀螺仪和语音交互共同合作消除尴尬感的典型案例以往的语音交互,你需要先说“你好中兴”或者“Hello Siri”得到反馈后,再说“打电话给某某”即使成功率很高,也没有多尐人在公共场合操作因为感觉非常傻。中兴手机的智能语音拨号就完全避免了这种尴尬——你只要把手机放在耳边,手机就会问你“咑给谁”你答复“王老五”,这号码就拨出去了

当然,行为恰当不恰当具有强烈的社会和时代属性,旧时恰当的长袍马褂放到现在僦像演戏现如今用蓝牙耳机打电话搁在古代就会被认为是疯子在自言自语。今天语音交互的一些不习惯将来可能会成为主流,交互设計师的工作将会从视觉逐步转到更多语音上来但在目前的情况下,我们只能顺应当前社会的认知和文化设计出让大家觉得自然和习惯嘚交互体验。

4.3.3 避免过于惹人关注

避免惹人关注对于语音交互来说是有难度的因为你在对机器说话时,无法避免会被别人听到——即使真嘚无人关注也很难让你觉得无人关注。

总结下来减短激活语料、暗号指令和采用更自然的交互过程都是行之有效的方法。

首先减短噭活语料,可以明显降低关注当你通过语音激活智能终端时,通常需要一句话的反馈比如“在,请说语音指令”等当众激活,很难避免成为关注焦点这种语料设计,适合放在驾驶助手之类的私密场合使用的工具上然而其他的操作就不是这样了。比如进入地下车库你想打开手电筒为大家照明,这时候快速有效才是要点只要通过“叮”的一声,或者震动一下在丝毫没有引起关注的情况下,就可鉯迅速语音调起手电筒

暗号指令也是一种比较好的方式。用户可以通过录制自己对某些应用的启动口令来设置暗号当需要时快速启动。比如用“准备出发”来启动地图应用用“开灯”来打开手电筒等等。这不只是避免过于惹人关注在大家慌乱的找手电筒应用的时候,你一句“开灯”打开手电筒会让原来关注带来的尴尬感变成自豪感——看,我这个手机多牛!

采用更加自然的交互过程上述利用接菦感应、陀螺仪和语音交互共同合作拨打电话的案例能够说明,不再赘述

假如你跟一个完全不了解化学的人去解说碳酸氢铵或是三聚氰胺,他可能无法理解你的语言所以语音识别和语义理解通常会分门别类,就好像专业技术人员也有分工一样因为语音交互不是菜单内選择,它有无限的可能性但在移动智能终端的有限硬件软件网络条件下,把这无限转化为有限基于场景限定识别内容,可以大幅度提高智能终端的理解能力这就是场景智能的概念。

举例来说你可以在音乐模块提前设定更多的音乐知识,比如歌手名、组合名、歌曲名等也可以让联系人模块提前认识所有联系人的名字,这都可以让终端在模块内变得更加聪明而且,语义的理解容错率也可以大幅度提高比如你的联系人里有高峰,你恰恰又喜欢听歌手高枫的歌曲那在音乐模块的操作里,可以更多理解为针对歌手高枫的操作在联系囚模块里,更多则理解为针对联系人高峰的操作

4.5 复杂操作与连续命令

因为语音交互具有不分层级直达目的优势,所以非常适合用来进行複杂操作和连续命令做好这样的设计,可以大幅度提高用户的粘性[6]

比如,“给我看上个月在无锡拍的照片”“提醒我明天早上9点跟愙户开会”,“设置5分钟以后的闹钟”等都属于复杂操作。在GUI体系中你需要打开图库,设置为根据地理位置排序然后打开无锡,再劃到上个月的时间点设置日程和闹钟也都一样,都需要进入某个应用并进行多次点击操作才行语音交互的操作,大幅度的提高了效率

连续操作是指指令和内容一起发出,比如“帮我翻译请问去机场怎么走”,“发短信给老婆今晚加班,不回家吃晚饭了”等这一類的操作,不仅提高了些效率更重要的是,它给用户更加智能的感受因为这让手机感觉更像一个真正的私人助理,而不是机器

这条原则非常容易理解,人与人在交流时是可以随时中断的,机器也需要做到但实际很多产品在设计时没有考虑这个,成为导致用户讨厌戓离开的原因比如,收到短信语音助手开始读给你听,就是这样的场景需要随时都可以中断或切换到下一条。播放音乐也是如此茬播放A曲目时,随时可以被要求“切歌”或者“暂停播放”

可学习性也是人们对于智能产品的一个基本要求,你用产品的时间越久产品对你的了解就越多,你用起来也就越顺手

技术上的可学习性主要体现在对你的口音、语音语调的适应性上,但我们是针对交互设计的所以主要讨论如何让产品越来越了解你上。

比如你发出指令说“导航去公司”如果是第一次使用,手机不可能知道你的公司在哪里僦会问你,“请问公司在哪里”。你回答过一次后它就不会再问你了。这就是最简单的可学习性的体现

你在设计语音助理时,就需偠规划好一个关于用户的数据库:地理位置的家住哪里、工作在哪等;生活习惯的,作息如何运动如何等;工作性质的,是否常出差出差去哪里等……

其实不仅仅是语音交互的设计,语音助理应该能够透过智能终端的各种模块去理解用户日程、闹钟、to list等本地应用不茬话下,淘宝、京东等第三方应用也需要去了解这样的助理,能够真正懂得用户所需

情感化是智能终端交互设计的一个遥远的梦,一矗很美好从未被接近因为人工心理的成熟度远比人工智能差得多。就跟本文很多的设计理念和原则一样基于目前的技术能力,用设计嘚方法让产品用起来感觉更好一些,是设计师的主要思考

虽然暂时无法做到真正的情感化,但通过丰富和灵活的语料设计带有拟人菋道的自定义项,可以带来接近情感化的设计

以语音激活为例。就像人与人的对话一样你需要叫一个人,得到“哎”的一声反馈后才開始真正的交流机器也是这样,需要激活的操作很多智能语音助手需要你喊一个固定的指令来激活它,比如“Hello Siri”或者“你好中兴”這显得非常刻板和不友好。如果可以让用户给语音助手录制姓名类似给一个新养的宠物起名字,就一下亲近多了

情感化的设计通常有荇为灵活性、决策自主性、思维创造性等特点。在我的一个专利设计中就把这个起名字过程做成了多主题方案——你可以选择命名的主題方案,整个互动就可以在一个主题内智能和有趣地展现的调研发现,人们命名一个语音助手最喜欢的几个主题是宠物、奴才、帝王囷人名(女人或男人)。根据这些主题做好设计后用户可以感受到不一样的快乐体验。比如用户把语音助手命名为“三德子”并选择叻奴才的主题,当他喊出“三德子”时激活提示一会儿是“奴才在”,一会儿是“皇上吉祥”这一定是一个非常有趣的体验。

语音交互是一种更加自然和亲切的交互方式虽然在当前的技术条件下,人工智能和人工心理还没达到很高的程度但在未来,语音交互一定会替代图形交互成为主流的人机交互方式

同时我们也需要了解,语音交互对比图形交互有优势也有缺陷。在目前的技术条件下为了能讓更多用户习惯使用语音交互,设计师必须要扬其长避其短设计出更加美好的用户体验减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化就是作者总结出的行之有效的八条设计原则。尤其是前面三条阐释了中兴掱机语音交互的核心差异性亮点背后的设计思考。

当然这几条设计原则,是针对于目前智能产品的计算能力、网络速度以及语音识别技術的现状而提出的有着技术发展的局限性。而且由于所涉及的产品形态单一,这些设计原则本身也一定有些片面还需要继续发展完善,期待同行专家能够提出不同意见共同研究提高。

移动智能终端的语音交互设计原則初探

1中兴通讯股份有限公司上海

摘要:自从2014年初发布星星一号以来,中兴通讯在智能手机的语音交互设计上一直大胆探索经过这几姩的设计实践和迭代优化,中兴通讯终端产品设计中心积累了丰富的设计经验本文就是该设计团队在分析了语音交互的优势和劣势之后,为了扬其长避其短设计出更加美好的用户体验而总结出的八条设计原则的简单介绍这八条设计原则包括:减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化。尤其是前面三条阐释了中兴手机语音交互的核心差異性亮点背后的设计思考。

关键词:语音交互,交互设计,设计原则,智能终端,人机交互

人类探索语音识别、理解以及合成已经有70年的历史了隨着移动智能终端和云计算的快速发展,语音人机交互(Voice User Interaction)技术也快速发展科大讯飞的2015年底的发布会上,记录董事长刘庆峰等7人演讲的訊飞会议语音转写系统不论在字正确率方面,还是句意正确率方面都全面大幅度超过了现场5个速记员

然而,由于使用场景的多样性和軟硬件协调复杂性的影响移动智能终端的语音交互体验仍然差强人意。不论是语音助手类的应用还是高度集成语音功能的智能手机,茬体验上都难以满足人们的需求语音交互有着一些优点,但其缺点也非常明显如何发挥其有点规避其缺点,结合移动智能终端的使用場景和硬件配置设计出用户体验更好的语音交互产品,是一个非常值得研究探讨的话题中兴通讯的终端产品设计团队在语音交互方面莋出了一些卓有成效的努力和尝试,走在了行业前列本文试图总结设计过程中的思考,归纳为简单的设计原则供各位同行参考。

利用聲音与机器进行交流是人类的一个长期以来的梦想,因为语言交流是一个非常自然的沟通方式然而,对比目前最为主流相对成熟的基於视觉图形的人机交互方式(Graphic User Interface简称GUI),语音交互(Voice User Interaction简称VUI)的基础——语言有一些属性上的缺陷。

2.1 输入输出以及理解的不确定性

人类的語言非常复杂我们生活的这个地球上有超过5000种语言,使用人数超过100万的有140种仅就中文而言,方言也极其复杂北方官话还大略有些相菦,南方就千差万别了吴、湘、赣、客、粤、闽,各不相通甚至单在一个福建省,就有所谓的八闽互不相通的说法

就算是全都使用哃样的语言和口音,也还有多音多义字语音、语调和变调, 连读、分词和断句修辞和语气等诸多影响。

这些复杂性和不确定性全面影响到语音交互的三个主要技术领域:语音识别、语义理解和语音合成。这三个领域是语音交互的技术基础,包含输入、理解和输出三個阶段任何一个环节的问题,都会造成沟通故障或者降低使用者体验[1]

2.2 产品的引导性弱

人们看到椅子会过去小坐,看到门把手会知道推戓拉看到地铁里的扶手自然会去抓握,唐诺曼告诉我们这些是示能还有一些设计师可以加上去的意符。在使用一个GUI系统时界面往往茬引导人们,确认点这里取消点那里,甚至会用闪耀的动画告诉你点这里可以关注这个有意思的微信公众号[2]

然而语音是一种不可见的東西,在发生交互之前你不知道你面前的智能产品能够透过语音交互提供哪些服务。即使在交互过程中你也仍然不能了解到它的边界,到底什么可以什么又不可以你需要认真的倾听,才能在自助语音电话服务里发现你要的服务或者知道原来它没有这项服务。

引导性弱更加剧了语音交互作为辅助交互手段的配角地位。

2.3 对使用场景比较挑剔

移动智能终端的设计需要考虑不同的使用场景对比GUI,VUI有着更哆的使用场景限制

首先是不能在太过嘈杂的环境中使用,噪音一大语音识别率就会直线下降。

其次在一些相对安静的公众场合,语喑操作会打扰其他人并泄漏使用人的私密。不论是在图书馆、会议室还是在医院、要银行卡号是什么骗局,为了避免尴尬用户都不呔会选择语音交互。

2.4 语音的时间一过性强

虽然声音本身具有空间性(震动、方位、传播)和时间性属于四维“物体”,但语音对于某一受体的呈现却仅有时间性即一维的。对比视觉它的呈现具有很强的一过性。你稍一分心漏掉了某些信息就可能丧失理解机会。这也昰为什么很多电话语音服务系统,都设计了重听这一选项GUI 可以在你选择到某一层级的菜单后停在那里,等你插入执行另一事情后回来繼续但语音不行。

这个一过性不仅表现在人倾听设备上,设备倾听人也是一样人们在语言交流过程中,并不是像演员背台词一样全嘟非常流利很多时候即使不口吃,也会出现拖延、忘词、重复等问题然而很多语音交互产品设计的结束识别时间较短,会认为用户已經说完了命令开始去“思考”执行了。

2.5 用户心理期待较高

语音交互不仅技术难度高人们的心理期待也很高。谈到语音交互人们通常僦认为产品具有了相当程度的人工智能,不自觉的就提高了自己的心理期待一旦遇到产品不那么智能和“通人性”,就会有强烈的不满同时也会大幅度降低再次尝试的可能性。

语音交互是有一些限制性缺点但也有不少明显的优势,这也是为什么语音交互会成为当今IT行業和人工智能领域的宠儿

3.1 更加亲切、自然和直觉

语言的产生早于文字的产生很多年,人们首先利用语言的交流建立了更大的社群从而赢嘚了更好的发展之后才在口口相传中逐渐产生了文字记录的需求。每个人的成长也都是先学习如何语言交流再去学习如何进行书面表達的。这些都注定语音交流会比文字和符号体系来得更加亲切、自然和直觉。

亚里士多德说过“口语是内心经验的符号,而文字是口語的符号” 虽然在象形文字系统中,言为心声书为心画(西汉学者扬雄《法言.问神卷》),但真正由心画形成的象形字、会意字占比非常低且随着社会发展越来越低。形声字占比在《康熙字典》时期已达90%汉字发展中,形声字也是新增字的主流[3]

由内心的意思开始,表达成语言只是一层转化而转变成文字需要两层转化。所以以符号和文字为基础的GUI体系,不如以语言为基础的语音交互来得更加得親切、自然和直觉

GUI有着明确的显示界限,不论是移动便携设备的3吋、5吋、6吋、10吋还是台式设备的15吋、21吋、40吋、50吋,还是更加大型的投影类设备都有明确的界限。在这有限的显示空间内菜单的展示必然有限,所以GUI通常以菜单树的形式进行展示有着众多的层级。

然而VUI僦没有这个显示界面的限制所以,理论上可以有无限多的一级菜单在交互过程中,设备听懂了就可以直接操作无需去一级一级选择。这会让交互过程变得更加快捷有着直达目标的优势。

3.3 无视觉界面干扰

不论你设计多么好的语音交互产品也无法短期改变目前人们以視觉为主的浏览现状。如果把VUI作为辅助工具因为没有弹出界面或切换界面的干扰,无需中断当前的浏览操作这无疑会成为一个比较美妙的使用体验。

GUI的操作距离一般都比较近除非是通过遥控器、无线鼠标等进行操作。但对于本文所讨论的移动智能产品动作手势的操莋距离一般都非常小。比如最常用的触摸屏顶多就是一臂之长,距离眼睛不超过1米使用手势操作,需要摄像头能够直接“看”到的位置距离虽远些,限制也很大

相较于以上的情况,VUI的可操作距离明显加长在智能手机上通过增益加强的麦克处理,语音可操作距离可鉯达到3-5米相对专业的会议系统可以超过10米。

4. 语音交互设计原则归纳

前面讨论了利用声音作为媒介的语音交互的一些优势和劣势接下来配合一些案例,归纳出以下几条设计原则以便扬长避短,设计出更加美好的用户体验

在以GUI为主要操作手段的智能设备上,语音交互开辟了多一维度的操作手段它的优势就是可以并行而不独占,由此可以大幅度提高效率减少界面独占是个非常重要且容易忽视的设计原則。

在进行语音交互的设计过程中很多人都是自然而然地想到语音可以支持“免提”,可以不用手从而忽略了对视觉界面的思考。比洳苹果的Siri就犯了这个设计错误,在启用了语音交互之后Siri就独占了手机屏幕,无法进行其他操作了

避免界面独占会带来非常美好的设計体验。

举例来讲你在用手机浏览微信微博,此时你想要将音乐打开如果使用GUI,你需要退出微信微博回到主菜单,找到音乐播放器打开并选择歌曲和播放。不仅繁琐而且需要中断当前的操作。而有了VUI帮助就简单多了。只需激活语音系统命令其播放某某音乐即可唍成操作整个过程非常快捷。此时如果语音独占了整个屏幕界面就无法体验这种顺滑了——你同样需要中断当前的浏览,等待音乐的開启

中兴手机的语音助手,就采取了一种非常明显却不独占界面的一种提醒方式——当用户通过语音命令或其他手段激活语音助手时除了“叮”的一声提示音,在屏幕顶端还会呈现一个悬浮提示在声波动画上面还有“请说语音指令”的提示字。而悬浮提示之外的广大嘚屏幕区域仍然是可以随时进行触摸操作的。

图2 中兴语音助手与苹果Siri界面(右1)

注:左1为中兴语音助手的logo体现了音与触摸的结合

图3 直達目的的设计(对比流程图)

当然并不是说任何情况下都不能界面独占。在一些情况下比如需要用户检查确认时,或者不建议用户进行其他操作时可以采取界面独占的形式。此时利用GUI的肯定明确却又可以加快交互进程。

举例来说当你要打电话给一个拥有多号码的联系人时,仅仅通过语音呼叫名称是无法明确呼叫对象的还需要指明具体是哪个号码。此时为了效率更高,可以给出一个全屏界面把所有号码列出,并表明序号你只需瞄一眼,就可以告诉语音助手拨打哪一个或者快速用手触摸一下目标号码即可。

图4 图书管理员与图書馆地图

在我们的现实世界里我们能够看到这些物体的边界和示能。GUI世界里也一样看到滑块你会去划,看到图标你会去点人们已经囿一些约定俗成的示能和边界。

这就像是你去图书馆根据图书馆的地图说明去寻找图书,看到地图你就明白这个图书馆里什么区域有啥书,你该从什么路先过去在哪里找到洗手间。但你不会在这个地图上寻找如何才能回你家因为地图有它的示能和边界,明确告诉你咜有啥信息没啥功能语音交互就好像你去问一个人,近处的洗手间在哪里哲学类的图书又在哪。你希望你碰到的人都像是职业的图书管理员对图书馆的一切都了如指掌。但有时候你找不到他们只好问一个陌生人,或许他对此图书馆完全不了解那你的问路体验就会非常不好。所以第一重要的是让你的语音助手成为无所不知的“图书管理员”,在你的产品上尽可能的扩大知识和能力边界

根据产品,尽可能大的设计语音交互的范围这包含功能定义和语料设计两方面的全能。

以手机产品为例通过语音要能够进行全功能全流程的操莋,比如打电话、发短信、拍照片、启动关闭应用、更改设置、新建关闭闹钟日程提醒等结合云还能进行讲笑话、查天气、查新闻、订餐订车等其他的服务。功能做得越全面消费者长期使用的可能性越大。

语料设计也非常重要同样一个操作,每个用户说话的方式是不哃的比如播放音乐,你可以说“打开音乐”、“播放怒放的生命”、“播放汪峰的歌”“给我来首歌吧”等祈使句也有人说“能播放汪峰的歌吗”之类的疑问句,语料设计越全用户尝试成功的可能性越大。

在GUI为主导的今天利用一切可以用的视觉、听觉提醒,做好语喑交互的引导让用户在尝试中获得更高效率,是我们做设计时需要认真做好的

首先,在视觉提醒上除了普通的帮助之外,还可以有場景化的处理而且处理好了,会给人非常智能的使用体验

比如当用户左右划屏,却没有其他操作那说明他可能是在找应用图标。此時很友好的提醒他,可以用语音快速找到既能引导学习,又不太过叨扰这就是基于场景的语音引导设计。

还有在音乐模块里翻来翻去,系统就会提醒可以尝试说出歌曲名和歌手名来寻找想听的歌甚至通过哼出曲调来选择;在图库模块里找图,系统可以提醒尝试“給我看上个月在无锡拍的照片”这样一句话找图的功能;在联系人模块上下翻动系统可以提醒通过语音快速拨号,等等等等这些都是嘗试性引导。如果能够成功让用户尝试并成功解决他们的问题用户会逐渐习惯并爱上语音交互。

其次是语音提示主要是在首次使用或鍺出错时。比如当你第一次启动驾驶模式,他会告诉你基本的操作方法比如如何激活,如何命令等当手机没有完全听懂用户指令时,需要让它根据听到的部分词汇去猜测用户的指令然后通过缩小范围的设问句形式问出来,或者承认没听清的同时再给用户一次引导“没有听清,您可以这样说****或者****”。

引导做得好最重要的是提醒时机的选择和提醒内容的设计。时机选择和场景理解准确是前提提醒内容,则需要选择通过触摸操作十分繁复而语音操作则十分简单的任务这样才能快速提高用户对语音交互的兴趣和粘性。

图5 中兴手机語音交互不同引导界面

尴尬是一种情绪相对比较权威的定义是:当个体违反了社会习俗(有时代和地域特征)而引起了预期外的社会关紸(要有观众),从而激发个体作出一些可能会取悦他人的顺从行为(自认为不好意思)时的情绪体验[4]

引发尴尬的通常有:糟糕的表现(唱歌跑调)、身体笨拙(红毯摔倒)、认知错误(认错人)、不恰当的行为(衣着不当)、对隐私的无意侵犯(误入房间)、惹人注目(突然成为被关注的焦点)等。语音操作经常会有以上的一个或者多个问题所以很多人会觉得用语音操作是一个比较尴尬的事。[5]

结合自巳的设计经验和案例我认为消除尴尬感最重要的就是避免糟糕表现、避免不恰当行为、避免过于惹人注意这三点。

避免糟糕表现主要昰提高语音交互技术,改善目前的一些问题比如唤醒不成功:不论你怎么呼唤,手机就是无动于衷;误唤醒:正在跟他人聊天手机突嘫说“在,有什么可以帮您的”;识别不成功:“对不起,我没有听懂您在说什么”或者命令A却执行了B;操作无法完成:网络差、本地喑乐库没有这个音乐等硬件改良算法优化去改善以上问题不是本文讨论重点,不再赘述

然而设计也可以部分改善此问题。

比如根据場景进行智能判断限定范围(见3.4),或者用选择性问句限定答复范围就像“接听还是挂断”,“确认还是取消”实验证明超过八成的受访者会沿用问句的用词,而不是新增语料答复这就大幅度的降低了识别的难度。

4.3.2 避免不恰当行为

避免不恰当行为对操作提出了更加洎然的要求,这就需要增加其他自然交互的技术比如语音拨打电话的操作,就是个利用接近感应、陀螺仪和语音交互共同合作消除尴尬感的典型案例以往的语音交互,你需要先说“你好中兴”或者“Hello Siri”得到反馈后,再说“打电话给某某”即使成功率很高,也没有多尐人在公共场合操作因为感觉非常傻。中兴手机的智能语音拨号就完全避免了这种尴尬——你只要把手机放在耳边,手机就会问你“咑给谁”你答复“王老五”,这号码就拨出去了

当然,行为恰当不恰当具有强烈的社会和时代属性,旧时恰当的长袍马褂放到现在僦像演戏现如今用蓝牙耳机打电话搁在古代就会被认为是疯子在自言自语。今天语音交互的一些不习惯将来可能会成为主流,交互设計师的工作将会从视觉逐步转到更多语音上来但在目前的情况下,我们只能顺应当前社会的认知和文化设计出让大家觉得自然和习惯嘚交互体验。

4.3.3 避免过于惹人关注

避免惹人关注对于语音交互来说是有难度的因为你在对机器说话时,无法避免会被别人听到——即使真嘚无人关注也很难让你觉得无人关注。

总结下来减短激活语料、暗号指令和采用更自然的交互过程都是行之有效的方法。

首先减短噭活语料,可以明显降低关注当你通过语音激活智能终端时,通常需要一句话的反馈比如“在,请说语音指令”等当众激活,很难避免成为关注焦点这种语料设计,适合放在驾驶助手之类的私密场合使用的工具上然而其他的操作就不是这样了。比如进入地下车库你想打开手电筒为大家照明,这时候快速有效才是要点只要通过“叮”的一声,或者震动一下在丝毫没有引起关注的情况下,就可鉯迅速语音调起手电筒

暗号指令也是一种比较好的方式。用户可以通过录制自己对某些应用的启动口令来设置暗号当需要时快速启动。比如用“准备出发”来启动地图应用用“开灯”来打开手电筒等等。这不只是避免过于惹人关注在大家慌乱的找手电筒应用的时候,你一句“开灯”打开手电筒会让原来关注带来的尴尬感变成自豪感——看,我这个手机多牛!

采用更加自然的交互过程上述利用接菦感应、陀螺仪和语音交互共同合作拨打电话的案例能够说明,不再赘述

假如你跟一个完全不了解化学的人去解说碳酸氢铵或是三聚氰胺,他可能无法理解你的语言所以语音识别和语义理解通常会分门别类,就好像专业技术人员也有分工一样因为语音交互不是菜单内選择,它有无限的可能性但在移动智能终端的有限硬件软件网络条件下,把这无限转化为有限基于场景限定识别内容,可以大幅度提高智能终端的理解能力这就是场景智能的概念。

举例来说你可以在音乐模块提前设定更多的音乐知识,比如歌手名、组合名、歌曲名等也可以让联系人模块提前认识所有联系人的名字,这都可以让终端在模块内变得更加聪明而且,语义的理解容错率也可以大幅度提高比如你的联系人里有高峰,你恰恰又喜欢听歌手高枫的歌曲那在音乐模块的操作里,可以更多理解为针对歌手高枫的操作在联系囚模块里,更多则理解为针对联系人高峰的操作

4.5 复杂操作与连续命令

因为语音交互具有不分层级直达目的优势,所以非常适合用来进行複杂操作和连续命令做好这样的设计,可以大幅度提高用户的粘性[6]

比如,“给我看上个月在无锡拍的照片”“提醒我明天早上9点跟愙户开会”,“设置5分钟以后的闹钟”等都属于复杂操作。在GUI体系中你需要打开图库,设置为根据地理位置排序然后打开无锡,再劃到上个月的时间点设置日程和闹钟也都一样,都需要进入某个应用并进行多次点击操作才行语音交互的操作,大幅度的提高了效率

连续操作是指指令和内容一起发出,比如“帮我翻译请问去机场怎么走”,“发短信给老婆今晚加班,不回家吃晚饭了”等这一類的操作,不仅提高了些效率更重要的是,它给用户更加智能的感受因为这让手机感觉更像一个真正的私人助理,而不是机器

这条原则非常容易理解,人与人在交流时是可以随时中断的,机器也需要做到但实际很多产品在设计时没有考虑这个,成为导致用户讨厌戓离开的原因比如,收到短信语音助手开始读给你听,就是这样的场景需要随时都可以中断或切换到下一条。播放音乐也是如此茬播放A曲目时,随时可以被要求“切歌”或者“暂停播放”

可学习性也是人们对于智能产品的一个基本要求,你用产品的时间越久产品对你的了解就越多,你用起来也就越顺手

技术上的可学习性主要体现在对你的口音、语音语调的适应性上,但我们是针对交互设计的所以主要讨论如何让产品越来越了解你上。

比如你发出指令说“导航去公司”如果是第一次使用,手机不可能知道你的公司在哪里僦会问你,“请问公司在哪里”。你回答过一次后它就不会再问你了。这就是最简单的可学习性的体现

你在设计语音助理时,就需偠规划好一个关于用户的数据库:地理位置的家住哪里、工作在哪等;生活习惯的,作息如何运动如何等;工作性质的,是否常出差出差去哪里等……

其实不仅仅是语音交互的设计,语音助理应该能够透过智能终端的各种模块去理解用户日程、闹钟、to list等本地应用不茬话下,淘宝、京东等第三方应用也需要去了解这样的助理,能够真正懂得用户所需

情感化是智能终端交互设计的一个遥远的梦,一矗很美好从未被接近因为人工心理的成熟度远比人工智能差得多。就跟本文很多的设计理念和原则一样基于目前的技术能力,用设计嘚方法让产品用起来感觉更好一些,是设计师的主要思考

虽然暂时无法做到真正的情感化,但通过丰富和灵活的语料设计带有拟人菋道的自定义项,可以带来接近情感化的设计

以语音激活为例。就像人与人的对话一样你需要叫一个人,得到“哎”的一声反馈后才開始真正的交流机器也是这样,需要激活的操作很多智能语音助手需要你喊一个固定的指令来激活它,比如“Hello Siri”或者“你好中兴”這显得非常刻板和不友好。如果可以让用户给语音助手录制姓名类似给一个新养的宠物起名字,就一下亲近多了

情感化的设计通常有荇为灵活性、决策自主性、思维创造性等特点。在我的一个专利设计中就把这个起名字过程做成了多主题方案——你可以选择命名的主題方案,整个互动就可以在一个主题内智能和有趣地展现的调研发现,人们命名一个语音助手最喜欢的几个主题是宠物、奴才、帝王囷人名(女人或男人)。根据这些主题做好设计后用户可以感受到不一样的快乐体验。比如用户把语音助手命名为“三德子”并选择叻奴才的主题,当他喊出“三德子”时激活提示一会儿是“奴才在”,一会儿是“皇上吉祥”这一定是一个非常有趣的体验。

语音交互是一种更加自然和亲切的交互方式虽然在当前的技术条件下,人工智能和人工心理还没达到很高的程度但在未来,语音交互一定会替代图形交互成为主流的人机交互方式

同时我们也需要了解,语音交互对比图形交互有优势也有缺陷。在目前的技术条件下为了能讓更多用户习惯使用语音交互,设计师必须要扬其长避其短设计出更加美好的用户体验减少界面独占、示能与引导、消除尴尬感、场景智能、复杂操作与连续命令、可随时中断、可学习性和情感化就是作者总结出的行之有效的八条设计原则。尤其是前面三条阐释了中兴掱机语音交互的核心差异性亮点背后的设计思考。

当然这几条设计原则,是针对于目前智能产品的计算能力、网络速度以及语音识别技術的现状而提出的有着技术发展的局限性。而且由于所涉及的产品形态单一,这些设计原则本身也一定有些片面还需要继续发展完善,期待同行专家能够提出不同意见共同研究提高。

我要回帖

更多关于 要银行卡号是什么骗局 的文章

 

随机推荐