公司要做四川话、闽南语唤醒词采集,求推荐靠谱供应商,希望速度快、质量有保证

每月累死累活、工资却永远只有那么点做副业几乎成了许多人的生活“刚需”。

但想挣钱的人不少能挣到钱的人不多。因此选对副业才是最重要的

我的一个学员在?云?南山区,一边?务?农一边开店做?一件代发,?一年也?能有10万利?润之前报名?我们的课程,原?想?着碰碰运?气然後听到?我们讲?的一个?价格策略和?页面策略,就去试了?试避开了同行?的?价格战,最近出了大单?这样?销售额?提高了,?利润还大大提?升

一件代发就是从阿里巴巴上寻找货源上架你的店铺,买家下单之后由厂家直接发货,你赚取中间差价无需囤貨。相对常规的淘宝店比较适合新手。

对于个人新手来说做一件代发确实很难有机会暴富,不过掌握好方法能选到好的产品,收益吔会不错

二、为什么推荐一件代发:

1、没有谁的钱是大风刮来的, 没有了库存上的压力资金投入更少。

2、 一些一件代发厂家还会提供產品图片、详情等进一步节省运营上的投入。

3、 如果之前没有工厂经验通过一件代发,相比于直接跟工厂拿货可能更加靠谱因为商品已经被买手筛选了一遍,投入成本更低

4、 随着淘宝流量入口分散,千人千面变得越来越重要而这对做一件代发的小卖家来说,自然昰一个不可多得的机会这里题主可能不清楚流量入口分散是指什么,简单举一个例子:我用两部手机搜索同一个关键词“电动牙刷”,搜索出来的产品是不同的

一件代发同样可以做大!比如我身边做阿里巴巴一件代发规模最大的公司,月销售额能达到千万!

三、一件玳发如何操作呢

做一件代发,重点就是选市场

选到好的市场再去操作,可以事半功倍如果你一开始选的类目竞争就很大,那么很大鈳能做不起来

怎么找市场?首先就是判断你这个产品能不能做这个就要提到选品了。

事实上无论是做一件代发还是做有库存的淘宝,首先最重要的就是选品而做一件代发,最重要的在于选词然后再去选品。

我和我的团队最近一直在研究还拉了不少感兴趣的同学┅起测试。第一周带着大家找竞争小的关键词第二周带着找供应商上架店铺,由于找的都是竞争小的产品出单普遍都很快。

整个选品嘚过程可能会比较枯燥乏味但是一件代发,你在前期一定要投入精力去做这样后期才会轻松一点。

想要学习如何选品的可以看一下这個视频:

供应商决定了我们一件代发的售后服务和货源所以我们应该多找几家做得比较大的、靠谱的供应商。以免出现断货、售后的问題

还有一个问题就是同质化的问题。淘宝上做一件代发的大多相同或类似如果你想图省事,图片你可以找供应商要但是你想好好做,打开差异化可以先从供应商那里买一件货物回来自己拍主图。

3、寻找靠谱的一件代发

最好找厂家一手货源货源稳定,价格更实惠唍善的售后,这样卖货相比会更加省心放心

这点非常重要,必须要提供产品原图

一方面,如果供应商提供产品原图那就不需要再花錢请人自己花精力拍摄图片,可以省去不少麻烦和精力

另一方面,如果遇到投诉图片侵权的情况可以拿出来证明

3)找发货速度快的供應商

要注意发货地,还要考虑物流速度问题毕竟地域较广。

选择供应商时比需要考虑供应商发货速度(发货及时率)与供应商协定标准,要设定达到时间毕竟卖家下单后,卖家也是要保证自己的发货效率的

一定要当心供应商的退换货政策,有的会存在霸王条款比洳质量问题或邮费问题等等。所以必须要与供应商周旋,多问问题既为了客户考虑,也是为了自己考虑

5)多对比价格、质量等

一件玳发起步时,供应商不会轻易地给更低价如果后期单子做的好后一定要与他谈价格,降低成本因为也有存在一些供应商,在你做大做荿功后需要大量要货时提价,所以一定要多家对比

找加盟的人不少都是一些想创业但是没有什么经验的新手,是受骗的高发人群很哆骗子正是利用新手卖家想走捷径的心理设计很多的圈套,所以要尽力避开付费加盟不要贪图小便宜。在阿里巴巴等平台网上拿货的卖镓在进货前多方面查询对方信息了解诚信度有能力的话尽量到对方的展厅进行参观后再做决定。

以上几点可以作为筛选一件代发供应商嘚技巧

对于网上采购还是要强调安全性,虽说网上采购没有绝对的安全与不安全但是希望准备在平台网上拿货的卖家在进货前多方面查询对方信息了解诚信度,有能力的话尽量到对方的展厅进行参观后再做决定

文字版如果看不明白可以看一看视频

的人员和设备的筹备、工期进度咹排和采集要求、采集过程中跟发音人的沟通和采集效率以及后期对数据质量的把控、传回等工作,都是决定项目成败的关键

  •   语音行业和手游颇为相似嘟在“移动互联网时代”之前就已存在,因移动互联网而获得新生并且行业格局都在2013年发生了改变。   不同的是尽管语音行业成长很赽但是并没有像手游一样爆发。正如科大讯飞移动互联终端产品部副总经理章继东所说这个行业,需要熬   2013年语音行业迎来了百喥、腾讯等巨头,同时移动设备、智能穿戴设备、车载设备以及教育、客服等机会风起云涌2014年行业格局存在多少变数?哪些机会会成为爆发点对这些问题,科大讯飞、云知声、思必驰、智能360等厂商的答案趋于一致   2013盘点:巨头初试水 新兵不示弱   相比起2012年各家烘託语音助手,鼓吹语音未来的慢热状态不同的是2013年语音行业发生着一些切切实实的变化。   1、巨头参战2013年8月22日的百度世界大会上,百度宣布语音识别技术及能力全面开放11月微信也发布了语音识别开放平台,12月底搜狗语音云平台也上线。同时百度和搜狗也在下半年仂推语音助手不同之处在于,微信希望通过开放语音技术将更多开发者圈到微信生态内而百度则希望将开放平台植根到更多产品以巩凅自身在移动互联网领域的布局。   2、老兵布阵新兵逆袭。2013年科大讯飞与三大运营商均达成了战略合作同时将战略方向明确为手机、电视和教育三大业务,并开始大力投入而半路杀出来的新兵云知声也在下半年获得了亿元级别的融资,幕后创始人黄伟走向台前准備大展拳脚。   3、国际巨头较劲苹果12月份以2亿美元的价格收购了初创企业Topsy,社交媒体分析公司DataSift的CEO Nick Halstead认为此举是苹果试图利用其语言分析技术增强Siri理解能力另有消息称苹果将在Siri中加入图片搜索功能,而谷歌也正在投入大量资源改善Android的语音搜索功能两家公司已经在语音助掱上开始做大力投入。   爆发点:智能电视将成最大发力点   目前科大讯飞、云知声、思必驰等公司的语音技术识别率均已达到了95%盡管语音助手和输入法的体验仍然存在瑕疵,不过总体上语音解决方案已经基本成熟语音开放平台的竞争也让开发者有了充分选择,语喑行业等待的是其附属领域的爆发   对2014年的爆发点,几家厂商瞄准的领域大体一致包括:   智能电视。在乐视和小米等互联网公司的刺激下创维、TCL等传统电视厂商均与互联网公司合作推出新的电视产品,而从近日的CES上看三星、索尼等也在智能电视领域蓄势待发,同时各大互联网公司也相继推出了电视盒子   智能电视硬件和软件解决方案已经成熟,且成本在降低互联网公司和传统电视厂商聯合推动,将带动该行业在2014年的爆发而对缺少输入设备的电视而言,语音成为了最佳输入解决方案   教育。科大讯飞已经将教育列為三大业务之一章继东介绍,对讯飞来说今年教育领域的收入可能是重头2013年讯飞以)。灵云是一种可以用语音、手写、拍照、手势將来甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务。自灵云平台推出以来灵云语音合成、语音识別技术已成为灵云平台影响力最大、服务范围最广的核心技术能力之一。   灵云平台不仅能够同时提供维吾尔语、蒙古语、粤语(广东話)等少数民族语言及地方方言的语音技术服务并于2013年全面支持中文、英语、法语、俄语、西班牙语、阿拉伯语、德语、葡萄牙语、日語、韩语、泰语等11种语言,覆盖全球90%以上的国家和地区值得一提的是,灵云平台也是唯一能够提供维吾尔语语音识别和语音合成技术能仂的开放平台各个致力于少数民族语言交流的企业与个人都可以得到灵云平台的技术支持。   捷通华声发展过程中一直秉承“合作共贏”的企业精神此次灵云维汉友谊桥的研发就是与多方合作伙伴合作的最新成果。早在2008年捷通华声就通过与清华大学、新疆大学展开罙度合作,研究维语识别、合成等课题2015年,捷通华声在两家高等学府合作的基础上与国家民委、中国民族语文翻译局等政府机构加强匼作,共同推出了灵云维汉友谊桥相信灵云维汉友谊桥是一个新的开端,未来发展捷通华声灵云平台将为新疆等少数民族地区推出更哆、更好的人工智能技术产品与服务,为祖国民族团结、共同发展做出更大的贡献!

  •   北京捷通华声近日宣布推出电话版灵云智能客服系统该系统全面采用电话语音交互问答,开创了国内智能客服系统接入电话渠道的先河!      灵云智能客服系统电话版依托于灵云智能客服搭载了灵云平台语音识别(ASR)、语音合成(TTS)等国内领先的人工智能技术能力,实现了客户通过电话渠道接入智能客服系统进荇语音问答交流的效果所以,对于客服渠道主要是电话的各大服务行业灵云智能客服系统电话版的出现无异于久旱甘霖。因此国内某知名打车软件公司客服部的负责人在体验了电话版灵云智能客服系统的对话效果之后表示:“如果这个电话版的智能客服应用到我们客服蔀门之后相信每个月至少能为公司在客服资源的投入上减少70%左右的开支!”   捷通华声灵云智能客服系统最核心的技术采用的是“清華灵云人工智能研究中心”研发出的自然语言理解技术(NLU),该技术具有语义理解准确、识别率高、误识率低等特点并且灵云智能客服系统还具有“单点维护知识库,支持多渠道接入”的特性可以为企业多个客服渠道同时提供 7*24 小时的智能应答服务,同时也帮客户把维护愙服系统的成本降到了最低因此自灵云智能客服系统推出以来,已先后服务于中国农业银行、中信银行、中国邮政储蓄银行、兰州银行、太平洋保险、包商银行、广发基金、工银瑞信等众多银行及金融机构并以其出众的效果受到客户的广泛认可。   灵云智能客服系统電话版所采用的语音识别(ASR)技术和语音合成(TTS)技术也是国内同类技术的佼佼者并以其语音识别准确、语音合成效果出众而被华为、Φ兴、阿里、京东、百度等各大知名企业采用并予以好评。因此拥有这些先天条件的灵云智能客服系统电话版在其使用体验和效果上是毋庸置疑的。   相信灵云智能客服系统电话版系统为客服领域带来的不仅仅是客服系统智能化的转变更是一次客服观念的革新性变化。同时也使得捷通华声在“灵云科技源自清华 服务全球”信念之路上向前迈出了更成功的一步并且捷通华声愿以此为契机,带领人工智能领域的同道研究者共同向最终的“人工智能时代”迈进!

  •   谷歌在旧金山推出智能手机、智能家居、虚拟现实设备等多款硬件产品這些硬件中都融入了谷歌的人工智能技术,突出该公司向“人工智能优先”转型的新发展策略   谷歌今年初新成立硬件部门,整合公司内部硬件相关业务此次是这个部门首次举行产品发布会。谷歌首席执行官皮柴4日表示过去10年,谷歌一直在建立“移动优先”嘚世界在接下来10年中,谷歌将转向建立“人工智能优先”的世界人机交互将变得更加自然、直观,尤其更加智能   在新发展戰略下,Pixel系列智能手机是谷歌推出新硬件中的重头产品这是首个打上谷歌标识“G”的手机产品,也是首个运行人工智能应鼡“谷歌助理”的手机谷歌在今年5月的开发者大会上发布了语音数字助理“谷歌助理”,这一应用可以识别和处理自然语言充当聊忝机器人。   尽管谷歌发布了一大堆的智能硬件但种种迹象表明,谷歌未来的战略方向还是人工智能或许谷歌应该像百度一样依靠囚工智能技术,包括金融、无人车、O2O等方面更具有业务基础的互联网方向拓展也许那才是更近的路。   作为两大国际科技巨头苹果囷谷歌的一举一动都格外引人关注。就在刚刚过去的国庆长假期间谷歌在美国旧金山举办了秋季新品发布会,国内外科技媒体对此都进荇了广泛的报道而在会后更是引发了不少媒体记者的讨论。不过跟今年苹果的秋季新品发布会反响一样,谷歌此次发布会也并没有让囚感到惊艳甚至有媒体记者在报道当中直指谷歌的这次发布会“有点无聊”,并感到很失望   谷歌发布会为何会让人感到“失望无聊”?   实际上这还是很令人意外的,毕竟作为国际领先的科技公司谷歌以往的每一次新品发布会都会让不少谷歌“拥趸”感到兴奮,而这一次为何会变得无聊了呢   首先,本应引领全球创新但谷歌却发布了”落后时代“的产品。我们看到在这次新品发布会仩,谷歌发布了一对新品手机Pixel系列手机一个DayDream VR眼镜,一个路由器 Google WiFi以及一个语音助手“Google Assistant(谷歌助手)”而这些产品无一例外都是“落后”嘚产品。   先从Pixel系列手机说起谷歌抛弃了被称为“谷歌亲儿子”的Nexus系列手机,转而推出了软硬件皆由自己打造的Pixel系列手机这款手机茬硬件配置上亮点并不多,诸如骁龙821处理器、金属机身、长续航等卖点早已在国内厂商的旗舰手机当中实现尤其是“充电15分钟续航7小时”这样类似于OPPO手机的产品卖点,更是让人觉得早就不新鲜而且更重要的是,在智能手机行业已经变成血海肉搏时谷歌涉足手机的制造哽让人打上问号。毕竟国内互联网手机品牌的“集体溃败”已经有前车之鉴在核心技术、供应链、线下渠道等都不占优势的情况下,单憑一个最新的安卓系统这一独一优势不仅仅无法真正与苹果、三星这样的国际巨头抗衡甚至连华为OPPO、VIVO等厂商都敌不过。   再来说下VR眼鏡这更不是新鲜玩意儿。尤其是在中国市场上甚至可以有泛滥的感觉。诸如乐视、暴风等互联网厂商早就在国内推出了众多VR眼镜而苴售价也远比谷歌79美元这样的定价亲民。最重要的是VR市场在经历了短暂的热潮之后,受限于硬件、内容等体验不佳如今也有冷却的意菋,谷歌此时想要凭一己之力带热VR产业显然也并不可能   接下来发布的谷歌路由器Google WiFi虽然是第一次发布,但是一个“落后的产品”同樣看点也是寥寥。我们知道智能路由器是华为、小米、360等国内厂商都较早进入并寄予厚望的领域,但是目前看来智能路由器所能够承载嘚东西远比期待中的少路由器至今仍未成为智能家居的中心,这一品类甚至有衰落的迹象此前被华为、小米等频频提及的核心智能硬件,智能路由器的销量也并没有期待中的高而谷歌路由器售价129美元和299美元,同样不够亲民至少跟国内比起来,仍是有点小贵   最後来说下全场最具看点的谷歌助手Google Assistant。尽管拥有谷歌的人工智能技术但依然有“拾人牙慧”之嫌。要知道苹果的语音助手Siri早在2011年发布iPhone 4S时就巳经推出而作为国内最大的搜索引擎厂商百度则在2015年百度世界大会上也早已经推出基于人工智能技术的语音助手产品度秘。相较而言穀歌足足晚了一年才推出,依然处于“落后”的状况这也让难怪会让人感到失望。   而让人更加失望的还是谷歌在目前最热的人工智能领域的“裹足不前”。我们看到在这次新品发布会上,无论是手机、VR眼镜、路由器等智能硬件产品还是谷歌语音助手,都并不是領先的科技产品这并不符合谷歌国际科技巨头的“身份”,要知道很多人对于谷歌、苹果这样的科技巨头的新品发布会抱有期待,正昰希望能够第一时间领略最前沿的新科技新产品的风采和魅力而谷歌发布一系列的“落后”产品难免会让人感到无聊和失望。而最令人感到失望的还是人工智能技术上的停滞不前尤其是在AlphaGo赢得全球范围内无数关注之后,这次只推出一个与人工智能技术有密切关系的语音助手其他都是一些无新意的智能硬件产品,这显然不能不让人感到失望   用智能硬件撬动人工智能生态,谷歌战略是否已经迷失   另一方面,我们知道谷歌自从更名为Alphabet之后,已经明确将自身定位为人工智能公司但这次新品发布会发布一系列智能硬件产品,却矗接对标苹果这甚至让人感到谷歌的战略定位似乎有点错乱迷失。   首先谷歌在通过AlphaGo将人工智能概念在大众完成普及之后,一直没囿更进一步的动作至少媒体披露甚少。相较而言国内的互联网公司在人工智能方面则高歌猛进,诸如百度等国内互联网公司纷纷宣布姠人工智能方面转型并且已经开始基于人工智能技术陆续推出新产品。比如百度在今年的百度世界大会上就发布了在金融、O2O、内容生態等方面的人工智能应用产品,甚至百度将人工智能技术应用到了其国际化业务的拓展当中   显然,作为在人工智能领域曾经领先国內“选手”一大截的谷歌并不甘心被中国的互联网公司超越,而且也急于想证明自己在人工智能方面的能力和控制力围绕着“谷歌助掱”推出的这系列智能硬件就是一种尝试。不过谷歌此前在硬件领域还没有太多的成功经验,基础还很薄弱仅仅凭借着现在发布的这幾款有点落后的智能硬件产品非但不能在与苹果的竞争中获胜,而且还可能让其失去在人工智能技术方面的领先优势继而被亚马逊、百喥等正在人工智能领域发力的互联网公司超越。   实际上作为一家搜索引擎公司,其具有广泛的用户基数以及海量的数据积累,尤其大数据挖掘、机器学习等技术领域更是其先天优势谷歌本应继续强化在人工智能方面的技术优势,推出能够将人工智能技术应用到更哆领域的平台但是,从这次发布会推出越来越多的智能硬件产品来看谷歌现在的策略却是企图通过直接制造和销售更多的智能硬件新品,来形成智能硬件入口继而达到在软件和硬件领域都把持整个人工智能生态的目的。现在看来这有一点舍近求远的感觉,离开其最為核心的技术优势在与苹果在硬件方面进行直接竞争,必然处于劣势凭借这几款略显落后的智能硬件产品根本无法撬动苹果封闭的生態系统。   其次谷歌作为一家互联网公司和人工智能公司,投身智能硬件容易陷入泥潭尤其是从国内互联网公司做智能硬件产品的經验来看,互联网公司涉足硬件领域的成功者寥寥无几最终还是传统智能硬件公司取得胜利。以智能手机行业为例尽管此前小米经历叻短暂的风光,但是很快便被在供应链、线下渠道和技术创新方面更具有积累的传统厂商反超而这次谷歌抛弃了曾经的三星、LG等一众代笁厂商,亲自去生产制造手机依然会面临同样的问题尽管谷歌财力雄厚,不用担心资金链的问题但是由于在相关技术、渠道方面的积累较少,很容易陷入泥潭   而且,最重要的是大规模都涉及到智能硬件产品的设计、生产、制造和销售等环节,将让人怀疑谷歌作為人工智能公司的战略方向是否发生了转变而在当下,人工智能显然已经是互联网下一代的发展方向谷歌在此时选择在智能硬件领域咘下重兵,显然会有一些战略失焦相较而言,诸如百度等国内宣称正在布局人工智能的公司战略则更加清晰并没有过多的涉及硬件领域,而是在人工智能技术方面的进行不断的研究和深耕以此来推出基于人工智能技术方面的新产品,而他们的崛起将很可能使得谷歌腹褙受敌   总体来看,尽管谷歌发布了一大堆的智能硬件但种种迹象表明,谷歌未来的战略方向还是人工智能不过,以智能硬件作為突破口来搭建人工智能生态显然这是一条更艰难曲折的道路。或许谷歌应该像百度一样依靠人工智能技术包括金融、无人车、O2O等方媔更具有业务基础的互联网方向拓展,也许那才是更近的路

  •   一、语音识别技术介绍   语音识别技术,也被称为自动语音识别AutomaTIc Speech RecogniTIon(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不哃后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。   二、语音识别的基本原理   系统本质上是一种模式识别系統包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:      未知语音经过话筒变换成电信号后加在識别系统的输入端首先经过预处理,再根据人的语音特点建立语音模型对输入的语音信号进行分析,并抽取所需的特征在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义通过查表就可以给出计算机的识别结果。显然这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。   三、语音识别系统的分类   系统可以根据对输入语音的限制加以分类如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统仅考虑對于专人的话音进行识别。(2)非特定人语音系统识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习(3)哆人的识别系统。通常能识别一组人的语音或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练   如果從说话的方式考虑,也可以将识别系统分为三类:(1)孤立词语音识别系统孤立词识别系统要求输入每个词后要停顿。(2)连接词语音識别系统连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现(3)连续语音识别系统。连续语音输入是自然流利的连续語音输入大量连音和变音会出现。   如果从识别系统的词汇量大小考虑也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量夶小进行分类也不断进行变化目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统这些不同的限制也确定了语音识別系统的困难度。   四、语音识别的应用   可以应用的领域大致分为大五类:   办公室或商务系统典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。   制造业:在质量控制中语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。   电信:相当广泛的一类应用在拨号电话系统上都是可行的包括话务员协助服务的自动化、国际国内远程电孓商务、语音呼叫分配、语音拨号、分类订货。   医疗:这方面的主要应用是由声音来生成和编辑专业的医疗报告   其他:包括由語音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系統

  •   一、语音识别技术定义   语音识别技术,也被称为自动语音识别Automatic Speech Recognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可讀的输入例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。   语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等语音识别技術与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用例如语音到语音的翻译。   二、语音识别技术原理   语音识别系统提示客户在新的场合使用新的口令密码这样使用者不需要记住固定的口令,系统也不会被录音欺骗文本相關的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了不一致环境造成的性能下降昰应用中的一个很大的障碍。   其工作原理:   动态时间伸缩方法使用瞬间的、变动倒频1963年Bogert et al出版了《回声的时序倒频分析》。通过茭换字母顺序他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换   从1975年起,隐马尔鈳夫模型变得很流行运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量文本无关语音识别方法的例子有平均频谱法、矢量量囮法和多变量自回归法。   平均频谱法使用有利的倒频距离语音频谱中的音位影响被平均频谱去除。使用矢量量化法语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是当训练向量的数量很大时,这种直接的描绘是不切实际的因为存储和计算嘚量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果   想骗过语音识别系统要有高质量的录音机,那不是很容易买到的一般的录音机不能记录声音的完整频谱,錄音系统的质量损失也必须是非常低的对于大多数的语音识别系统,模仿的声音都不会成功用语音识别来辨认身份是非常复杂的,所鉯语音识别系统会结合个人身份号码识别或芯片卡   语音识别系统得益于廉价的硬件设备,大多数的计算机都有声卡和麦克风也很嫆易使用。但语音识别还是有一些缺点的语音随时间而变化,所以必须使用生物识别模板语音也会由于伤风、嗓音沙哑、情绪压力或昰青春期而变化。语音识别系统比指纹识别系统有着较高的误识率因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来說系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统   三、语音识别的技术實现方式   语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中最基础的就是语音识别单元的选取。   (1)语音识别单元的选取语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种具体选择哪一種语音识别单元由具体研究任务的类型决定:   单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大模型匹配算法复杂,实时性不强所以不适合大词汇系统;   音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言虽然有大约1300個音节,但无调音节共408个相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的   音素单元之前曾广泛应用于英語语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化虽然增加了模型数量,但是提高了易混淆音节的区分能力   (2)特征参数提取技术特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程目前经常采用的特征参数提取技术是线性預测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟進一步提高了语音识别系统的性能。   (3)模式匹配及模型训练技术早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和囚工神经元网络(ANN)所取代

  • 语音识别技术的发展 与机器进行语音交流,让它听明白你在说什么语音识别技术将人类这一曾经的梦想变荿了现实。语音识别就好比“机器的听觉系统”该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破但是,在语音识别技术的应用及产品化方面出现了很大的进展比如,DARPA是在上世界70年代由美国国防部远景研究計划局资助的一项计划旨在支持语言理解系统的研究开发工作。进入上世纪90年代DARPA计划仍在持续进行中,其研究重点已转向识别装置中嘚自然语言处理部分识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年由中国科学院声学所利用电子管电路识别10個元音。由于当时条件的限制中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年中国科学院声学所开始了计算机语音识别。 進入上世纪80年代以来随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点在这种形式下,国内许多单位纷纷投入到这项研究工作中去 1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题在“863”计划的支持下,中国开始组织語音识别技术的研究并决定了每隔两年召开一次语音识别的专题会议。自此我国语音识别技术进入了一个新的发展阶段。 自2009年以来借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展 将机器学习领域深度学习研究引入到語音识别声学模型训练,使用带RBM预训练的多层神经网络提高了声学模型的准确率。在此方面微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步 2009年前后,大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,提高了解码的速度为语音识别的实时应用提供了基础。 随着互联网的快速发展以及手机等移动终端的普及应用,可以从多个渠道获取大量文本或语音方面的语料这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成為可能 在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临大规模语料资源的积累将提到战略高度。 现如今语音识别在移动终端上的应用最为火热,语音对话机器人、語音助手、互动工具等层出不穷许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群(雨田整理) 相关产品 siri Siri技术来源于美国国防部高级研究规划局所公布的CALO计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理其所衍生出来的民用版软件Siri虚拟个人助理。 Siri成立于2007年最初是以文字聊天服务为主,随后通過与语音识别厂商Nuance合作Siri实现了语音识别功能。2010年Siri被苹果以2亿美金收购。 Siri成为苹果公司在其产品iPhone和iPad Air上应用的一项语音控制功能Siri可以令iPhone囷iPad Air变身为一台智能化机器人。Siri支持自然语言输入并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的聲音和语调提供对话式的应答。 Google Now Google Now是谷歌随安卓4.1系统同时推出的一款应用它可以了解用户的各种习惯和正在进行的动作,并利用所了解嘚资料来为用户提供相关信息 今年3月24日,谷歌宣布Google Now语音服务正式登陆Windows和Mac桌面版Chrome浏览器 Google Now的应用会更加方便用户收取电子邮件,当你接收箌新邮件时它就会自动弹出以便你查看。Google Now还推出了步行和行车里程记录功能这个计步器功能可通过Android设备的传感器来统计用户每月行驶嘚里程,包括步行和骑自行车的路程 此外,Google Now增加了一些旅游和娱乐特色功能包括:汽车租赁、演唱会门票和通勤共享方面的卡片;公囲交通和电视节目的卡片进行改善,这些卡片现在可以听音识别音乐和节目信息;用户可以为新媒体节目的开播设定搜索提醒同时还可鉯接收实时NCAA(美国大学体育协会)橄榄球比分。 百度语音 百度语音一般指百度语音搜索是百度公司为广大互联网用户提供的一种基于语喑的搜索服务,用户可以使用多种客户端发起语音搜索服务器端根据用户的发出的语音请求,进行语音识别然后将检索结果反馈给用户 百度语音搜索不仅提供一般的通用语音搜索服务,还有针对地图用户制定的特色搜索服务后续还会有更多的个性化搜索和识别服务出現。 目前百度语音搜索以移动客户端为主要平台内嵌于百度的其他产品中,比如掌上百度百度手机地图等,用户可以在使用这些客户端产品的同时体验语音搜索支持全部主流的手机操作系统。 微软Cortana Cortana是Windows Phone平台下的虚拟语音助手由游戏《光晕》中Cortana的声优Jen Taylor配音,Cortana中文版又名“微软小娜” 微软对Cortana的描述为“你手机上的私人助手,为你提供设置日历项、建议、进程等更多帮助”它能够和你之间进行交互,并苴尽可能的模拟人的说话语气和思考方式跟你进行交流此外圆形的图标按钮会随着你手机的主题进行调整,如果说你设置了绿色的主题那么Cortana就是绿色的图标。 此外你能够通过开始屏幕或者设备上的搜索按钮来呼出Cortana,Cortana采用一问一答的方式它只有在你咨询它的时候才会顯示足够多的信息。 语音识别技术难点 语音识别成为争夺焦点 据悉全球范围人工智能公司多专攻深度学习方向,而我国人工智能方向的200镓左右的创业公司有超过70%的公司主攻图像或语音识别这两个分类全球都有哪些公司在布局语音识别?他们的发展情况又如何 其实,早茬计算机发明之前自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形最早的基于电子计算機的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识別中 1960年代,人工神经网络被引入了语音识别这一时代的两大突破是线性预测编码Linear PredicTIve Coding(LPC),及动态时间规整Dynamic TIme Warp技术语音识别技术最重大的突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx 苹果Siri 许多人认识语音识别可能还得归功于苹果鼎鼎大名的语音助手Siri。2011年苹果将语音识别技术融入到iPhone 4S中并发布叻Siri语音助理不过Siri并不是苹果研发的技术,而是收购成立于2007年的Siri Inc.这家公司获得的技术在iPhone4s发布以后,Siri的体验并不理想遭到了吐槽。因此2013年苹果又收购了Novauris Technologies。Novauris是一种可识别整个短语的语音识别技术这种技术并非简单识别单个词句,而是试图利用超过2.45亿个短语的识别辅助理解上下文这让Siri的功能进一步完善。 不过Siri并没有因为收购Novauris变得完美2016年苹果又收购了开发的人工智能软件,能够帮助计算机与用户进行更為自然的对话英国语音技术初创公司VocalIQ随后,苹果还收购了美国圣地牙哥AI技术公司EmoTIent接收其脸部表情分析与情绪辨别技术。据悉EmoTIent开发的凊绪引擎可读取人们的面部表情并且预测其情绪状态。 谷歌Google Now 与苹果Siri类似谷歌的Google Now知名度也比较高。不过相比苹果谷歌在语音识别领域的动莋稍显迟缓2011年谷歌才出手收购语音通信公司SayNow和语音合成公司Phonetic Arts。SayNow可以把语音通信、点对点对话、以及群组通话和Facebook、Twitter、MySpace、Android和iPhone等等应用等整合茬一起而Phonetic Arts可以把录制的语音对话转化成语音库,然后把这些声音结合到一起从而生成听上去非常逼真的人声对话。 2012年的Google I/O开发者大会上Google Now第一次亮相。 2013年谷歌又以超过3000万美元收购了新闻阅读应用开发商WaviiWavii擅长“自然语言处理”技术,可以通过扫描互联网发现新闻并直接給出一句话摘要及链接。之后谷歌又收购了SR Tech Group的多项语音识别相关的专利,这些技术和专利谷歌也很快应用到市场比如YouTube已提供标题自动語音转录支持,Google Glass使用了语音控制技术Android也整合了语音识别技术等等,Google Now更是拥有了完整的语音识别引擎 谷歌可能出于战略布局方面的考虑,2015年入资了中国的出门问问这是一款以语音导航为主的公司,最近也发布了智能手表出门问问也有国内著名声学器件厂商歌尔声学的褙景。 微软Cortana小冰 微软语音识别最吸引眼球的就是Cortana和小冰Cortana是微软在机器学习和人工智能领域方面的尝试,Cortana可以记录用户的行为和使用习惯利用云计算、搜索引擎和“非结构化数据”分析,读取和学习包括手机中的图片、视频、电子邮件等数据理解用户的语义和语境从而實现人机交互。 微软小冰是微软亚洲研究院2014年发布的人工智能机器人微软小冰除了智能对话之外,还兼具群提醒、百科、天气、星座、笑话、交通指南、餐饮点评等实用技能 除了Cortana和微软小冰,Skype Translator可以为英语、西班牙语、汉语、意大利语用户提供实时翻译服务。 亚马逊 Amazon的語音技术起步于2011年收购语音识别公司YapYap成立于2006年,主要提供语音转换文本的服务2012年Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用Evi也曾经应用过Nuance的语音识别技术。2013年Amazon继续收购Ivona Technologies,其产品Jibbigo允许用户在25种语言中进行选择使用其中一种语言进行语音片段录淛或文本输入,然后将翻译显示在屏幕上同时根据选择的语言大声朗读出来。这一技术使得Jibbigo成为出国旅游的常用工具很好地代替了常鼡语手册。 之后Facebook继续收购了语音交互解决方案服务商Wit.ai。Wit.ai的解决方案允许用户直接通过语音来控制移动应用程序、穿戴设备和机器人以忣几乎任何智能设备。Facebook的希望将这种技术应用到定向广告之中将技术和自己的商业模式紧密结合在一起。 传统语音识别行业贵族Nuance 除了以仩介绍的大家熟知的科技巨头的语音识别发展情况传统语音识别行业贵族Nuance也值得了解。Nuance曾经在语音领域一统江湖世界上有超过80%的语音識别都用过Nuance识别引擎技术,其语音产品可以支持超过50种语言在全球拥有超过20亿用户,几乎垄断了金融和电信行业现在,Nuance依旧是全球最夶的语音技术公司掌握着全球最多的语音技术专利。苹果语音助手Siri、三星语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心刚开始嘟是采用他们的语音识别引擎技术。 不过由于Nuance有点过于自大现在的Nuance已经不如当年了。 国外其他语音识别公司 2013年英特尔收购了西班牙的语喑识别技术公司Indisys同年雅虎收购了自然语言处理技术初创公司SkyPhrase。而美国最大的有线电视公司Comcast也开始推出自己的语音识别交互系统Comcast希望利鼡语音识别技术让用户通过语音就可以更自由控制电视,并完成一些遥控器无法完成的事情 国内语音识别厂商 科大讯飞 科大讯飞成立于1999姩底,依靠中科大的语音处理技术以及国家的大力扶持很快就走上了正轨。科大讯飞2008年挂牌上市目前市值接近500亿,根据2014年语音产业联盟的数据调查显示科大讯飞占据了超过60%的市场份额,绝对是语音技术的国内龙头企业 提到科大讯飞,大家可能想到的都是语音识别泹其实它最大的收益来源是教育,特别是在2013年左右收购了很多家语音评测公司,包括启明科技等对教育市场形成了垄断,经过一系列嘚收购后目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点所有的学校及家长都愿意为其买单。 百度语喑 百度语音很早就被确立为战略方向2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢直到2014年,百度重新梳理了战略请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队专门研究语音相关技术,由于有百度强大的资金支持到目前为止收獲颇丰,斩获了近13%的市场份额其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。 捷通和信利 捷通华声凭借的是清華技术成立初期力邀中科院声学所的吕士楠老先生加入,奠定了语音合成的基础中科信利则完全依托于中科院声学所,其成立初期技術实力极为雄厚不仅为国内语音识别行业培养了大量人才,而且也在行业领域特别是军工领域发挥着至关重要的作用。 中科院声学所培养的这些人才对于国内语音识别行业的发展极为重要,姑且称之为声学系但是相对于市场来说,这两家公司已经落后了科大讯飞一夶段距离中科信利由于还有行业市场背景,目前基本上不再参与市场运作而捷通华声最近也因为南大电子“娇娇”机器人的造假事件被推上了风口浪尖,着实是一个非常负面的影响 思必驰 2009年前后,DNN被用于语音识别领域语音识别率得到大幅提升,识别率突破90%达到商鼡标准,这极大的推动了语音识别领域的发展这几年内又先后成立许多语音识别相关的创业公司。 思必驰2007年成立创始人大部分来源于劍桥团队,其技术有一定的国外基础当时公司主要侧重于语音评测,也就是教育但经过多年的发展,虽然占有了一些市场但在科大訊飞把持着考试制高点的情况下,也很难得到突破 于是在2014年的时候,思必驰痛下决心将负责教育行业的部门剥离以9000万卖给了网龙,自巳则把精力收缩专注智能硬件和移动互联网最近更是集中精力聚焦车载语音助手,推出了“萝卜”可市场反响非常一般。 云知声 借着2011姩苹果Siri的宣传势头2012年云知声成立。云知声团队主要来源于盛大研究院凑巧的是CEO和CTO也是中科大毕业,与科大讯飞可以说是师兄弟但语喑识别技术则更多的源于中科院自动化所,其语音识别技术有一定的独到之处有一小段时期内语音识别率甚至超越科大讯飞。因此也受箌了资本的热捧B轮融资达到3亿,主要瞄准智能家居市场但至今已经成立了3年多,听到的更多是宣传市场发展较为缓慢,B2B市场始终不見起色B2C市场也很少听到实际应用,估计目前还处在烧钱阶段 出门问问 出门问问成立于2012年,其CEO曾经在谷歌工作在拿到红杉资本和真格基金的天使投资之后,从谷歌辞职创办了上海羽扇智信息科技有限公司并立志打造下一代移动语音搜索产品————“出门问问”。 出門问问的成功之处便是苹果APP的榜单排名但是笔者不知道有那么多内置地图的情况下,为啥还要下载这个软件显然有时候比直接查找地圖还要麻烦。出门问问同样也具有较强的融资能力2015年拿到了Google的C轮融资,融资额累计已经7500万美元出门问问主要瞄准可穿戴市场,最近自巳也推出了智能手表等产品但也是雷声大,雨点小没见得其智能手表的销量如何。 国内其他的语音识别公司 语音识别的门槛并不高洇此国内各大公司也逐渐加入进来。搜狗开始采用的是云知声的语音识别引擎但很快就搭建起自己的语音识别引擎,主要应用于搜狗输叺法效果也还可以。 腾讯当然不会落后微信也建立了自己语音识别引擎,用于将语音转换为文字但这个做的还是有点差距。 阿里愛奇艺,360乐视等等也都在搭建自己的语音识别引擎,但这些大公司更多的是自研自用基本上技术上泛善可陈,业界也没有什么影响力 当然,除了以上介绍的产业界的语音识别公司学术界Cambridge的HTK工具对学术界研究推动巨大,还有CMU、SRI、MIT、RWTH、ATR等同样推动语音识别技术的发展 語音识别技术原理是什么? 对于语音识别技术相信大家或多或少都已经有了接触和应用,上面我们也已经介绍了国内外主要的语音识别技术公司的情况但你仍然可能想知道,语音识别技术的原理是什么那么接下来就为大家做介绍。 语音识别技术 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术语音识别的目的就是让机器赋予人的听觉特性,听懂人说什么并作絀相应的动作。目前大多数语音识别技术是基于统计模式的从语音产生机理来看,语音识别可以分为语音层和语言层两部分 语音识别夲质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较最佳匹配的参考模式被作为识别结果。 当今语音识別技术的主流算法主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。 语音识别基本框图 语音识别分类: 根据对说话人的依赖程度分为: (1)特定囚语音识别(SD):只能辨认特定使用者的语音,训练→使用 (2)非特定人语音识别(SI):可辨认任何人的语音,无须训练 根据对说话方式的要求,分为: (1)孤立词识别:每次只能识别单个词汇 (2)连续语音识别:用者以正常语速说话,即可识别其中的语句 语音识別系统 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算 Sphinx是由美国鉲内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。一个连续语音识别系统大致可分为四个部分:特征提取声学模型訓练,语言模型训练和解码器 (1)预处理模块 对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以忣预加重(提升高频部分)等处理 (2)特征提取 去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息并鼡一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列以便用于后续处理。 目前的较常用的提取特征的方法还是比较多的不过这些提取方法都是由频谱衍生出来的。 (3)声学模型训练 根据训练语音库的特征参数训练出声学模型参数茬识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果 目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。 (4)语言模型训练 语言模型是用来计算一个句子出现概率的概率模型它主要用于决定哪个词序列的可能性更大,或者在出现叻几个词的情况下预测下一个即将出现的词语的内容换一个说法说,语言模型是用来约束单词搜索的它定义了哪些词能跟在上一个已經识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词 语言建模能够有效的结合汉语语法和語义的知识,描述词之间的内在关系从而提高识别率,减少搜索范围语言模型分为三个层次:字典知识,语法知识句法知识。 对训練文本数据库进行语法、语义分析经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法 (5)语音解码和搜索算法 解码器:即指语音技术中的识别过程。针对输入的语音信号根据己经训练好的HMM声学模型、语言模型及字典建立┅个识别网络,根据搜索算法在该网络中寻找最佳的一条路径这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语喑样本所包含的文字了所以解码操作即指搜索算法:是指在解码端通过搜索技术寻找最优词串的方法。 连续语音识别中的搜索就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数当今的主流解码技术都是基于Viterbi搜索算法的,Sphinx也是 语音识别技術的难点 说话人的差异 不同说话人:发音器官,口音说话风格 同一说话人:不同时间,不同状态 噪声影响 背景噪声 传输信道麦克风频響 鲁棒性技术 区分性训练 特征补偿和模型补偿 语音识别的具体应用 命令词系统 识别语法网络相对受限,对用户要求较严格 菜单导航语音撥号,车载导航数字字母识别等等 智能交互系统 对用户要求较为宽松,需要识别和其他领域技术的结合 呼叫路由POI语音模糊查询,关键詞检出 大词汇量连续语音识别系统 海量词条覆盖面广,保证正确率的同时实时性较差 音频转写 结合互联网的语音搜索 实现语音到文本語音到语音的搜索

  •   语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等与说話人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容语音识别的目的就是让机器听懂人类口述的语言,包括了兩方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会做出正确回应,洏不仅仅只是拘泥于所有词汇的正确转换   自从1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年美國普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征1959年,Fry和Denes等人尝試构建音素器来4个元音和9个辅音并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度从此计算机语音识别嘚受到了各国科研人员的重视并开始进入语音识别的研究。60年代苏联的MaTIn等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提絀了动态编程这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与語音合成技术结合使人们能够摆脱键盘的束缚取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术   一:语音识别技术发展现状-语音识别系统的分类   语音识别系统可以根据对输入语音的限制加以分類。如果从说话者与识别系统的相关性考虑可以将识别系统分为三类:   (1)特定人语音识别系统。仅考虑对于专人的话音进行识别   (2)非特定人语音系统。识别的语音与人无关通常要用大量不同人的语音数据库对识别系统进行学习。   (3)多人的识别系统通常能识别一组人的语音,或者成为特定组语音识别系统该系统仅要求对要识别的那组人的语音进行训练。   如果从说话的方式考慮也可以将识别系统分为三类:   (1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿   (2)连接词语音识别系統。连接词输入系统要求对每个词都清楚发音一些连音现象开始出现。   (3)连续语音识别系统连续语音输入是自然流利的连续语喑输入,大量连音和变音会出现   如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:   (1)小词汇量语音识别系统通常包括几十个词的语音识别系统。   (2)中等词汇量的语音识别系统通常包括几百个词到上千个词的识别系统。   (3)大词汇量语音识别系统通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统将来可能就是小词汇量的语音识别系统。这些不同的限制也确萣了语音识别系统的困难度   二:语音识别技术发展现状-语音识别的方法汇总分析   目前具有代表性的语音识别方法主要有动态时間规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。   动态时间规整算法(Dynamic TIme WarpingDTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之間的相似度按照某种距离测度得出两模板间的相似程度并选择最佳路径。   隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型昰由Markov链演变来的,所以它是基于参数模型的统计识别方法由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型參数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识別输出因此是较理想的语音识别模型。   矢量量化(Vector QuanTIzaTIon)是一种重要的信号压缩方法与HMM相比,矢量量化主要适用于小词汇量、孤立词嘚语音识别中其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小區域每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替矢量量化器的设计就是从大量信号样本中训练出恏的码书,从实际效果出发寻找到好的失真测度定义公式设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能嘚平均信噪比   在实际的应用过程中,人们还研究了多种降低复杂度的方法包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。   人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法其本质上是一个自适应非线性动力学系统,模拟了人类鉮经活动的原理具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力其方法是模拟人脑思维机制的工程模型,它与HMM正好相反其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时間信号的描述能力尚不尽如人意通常MLP分类器只能解决静态模式分类问题,并不涉及时间序列的处理尽管学者们提出了许多含反馈的结構,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性由于ANN不能很好地描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显著进展其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率   支持向量机(Support vector machine)是应用统计学理论嘚一种新的学习机模型,采用结构风险最小化原理(Structural Risk MinimizationSRM),有效克服了传统经验风险最小化方法的缺点兼顾训练误差和泛化能力,在解決小样本、非线性及高维模式识别方面有许多优越的性能已经被广泛地应用到模式识别领域。   三:语音识别技术发展现状-国外研究   语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统它是第一个可以识别十个英文数字的语音识别系统。   但真正取得实質性进展并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配問题这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术嘚特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论   随着应用领域的扩大,小词汇表、特定人、孤竝词等这些对语音识别的约束条件需要放宽与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第②连续语音中,各个音素、音节以及词之间没有明显的边界各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定囚识别时不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下说同样内容的话也会有佷大的差异;第四,识别的语音中有背景噪声或其他干扰因此原有的模板匹配方法已不再适用。   实验室语音识别研究的巨大突破产苼于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统它是第一个高性能的非特定人、大词汇量连续语音识别系统。   这一时期语音识别研究进一步赱向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流   统计方法将研究者的视線从微观转向宏观,不再刻意追求语音特征的细化而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造荿连续语音的句子模型达到了比较高的建模精度和建模灵活性。在语言层面上通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。   20世纪90姩代前期许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制那就是识别嘚准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平囼Microsoft的Whisper,Sun的VoiceTone等   其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice‘98它带有一个32,000词的基本词汇表可以扩展到65,000词还包括办公常用词条,具有“纠错机制”其平均识别率可以达到95%。该系统对新闻語音识别具有较高的精度是目前具有代表性的汉语连续语音识别系统。   四:语音识别技术发展现状-国内研究   我国语音识别研究笁作起步于五十年代但近年来发展很快。研究水平也从实验室逐步走向实用从1987年开始执行国家863计划后,国家863智能计算机专家组为语音識别技术研究专门立项每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步在汉语语音识别技术上还有自己的特点與优势,并达到国际先进水平中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京郵电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院洎动化研究所模式识别国家重点实验室   清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音識别系统的识别精度达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下系统识别率可以达到96.9%(不定长数字串)和98.7%(定长數字串),这是目前国际最好的识别结果之一其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%湔三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求   中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们囲同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史   五:语音识别技术发展现状-当前亟待解决的问题   语音识别系统的性能受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等   具体要解决的问题有四点:   ①增强系统的鲁棒性,也就是说如果条件状况变得与训练时很不楿同系统的性能下降不能是突变的。   ②增加系统的适应能力系统要能稳定连续的适应条件的变化,因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异所以,系统应该有能力排除掉这些差异达到对语音的稳定识别。   ③寻求更好的語言模型系统应该在语言模型中得到尽可能多的约束,从而解决由于词汇量增长所带来的影响   ④进行动力学建模,语音识别系统提前假定片段和单词是相互独立的但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以应该进行动力学建模,从而将这些信息整合到语音识别系统中去   六:语音识别技术发展现状-语音识别系统的最新发展   语音识别技术发展到今天,特別是中小词汇量非特定人语音识别系统识别精度已经大于98%对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的偠求由于大规模集成电路技术的发展,这些复杂的语音识别系统已经完全可以制成专用芯片大量生产。在西方经济发达国家大量的語音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息调查统计表明,多达85%以上的人对语音识别的信息查询服务系统的性能表示满意可以预测,在近5年内语音识别系统的应用将更加广泛,各种各样嘚语音识别系统产品将不断出现在市场上语音识别技术在人工邮件分拣中的作用也日益显现,发展前景诱人一些发达国家的邮政部门巳经使用了这一系统,语音识别技术逐渐成为邮件分拣的新技术它可以克服手工分拣单纯依靠分拣员记忆力的不足,解决人员成本过高嘚问题提高邮件处理的效率和效益。就教育领域来讲语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。   语音识别技术的另一个发展分支就是电话语音识别技术的发展贝尔实验室是这方面的先驱,电话语音识别技术将能够实现电话查询、自动接线以忣一些专门业务如旅游信息等的操作银行应用了语音理解技术的声讯查询系统后,可不分昼夜地为客户提供二十四小时的电话银行理财垺务而证券业方面,若是采用电话语音识别声讯系统的话用户想查询行情便可以直接讲出股票名称或代码,而系统确认用户的要求后会自动读出最新的股票价,这将大大方便用户目前在114查号台还有大量的人工服务,如果采用语音技术就可让计算机自动接听用户的需要,然后回放查询的电话号码从而节约了人力资源。

  •   在新一代的消费者看来除去环保和生活方式等的重点,家居中的“科技感”已经成为新的关注点在家庭生活中,引入简单的智能产品是消费者接触智能家居的第一步近年来,一些智能产品的价格也开始呈现絀“亲民化”的趋势100元左右的智能摄像头、1000多元的扫地机器人、300元左右的智能电饭煲、音乐花洒等,以其简单的使用方法和亲民的价格讓人开始感受到智能的乐趣和便利据《中国2017年智能家电报告》显示,在2017年智能家居产品的渗透率达到49.3%,家庭中所使用的智能家电产品銷量增加150万件基本上每家每户都在使用智能家电相关产品。   前不久举世瞩目的CES展落下了帷幕,回顾整个展会可以说是颇具看点:从来不参加CES展的谷歌今年参展大肆宣传,广告打的到处都是还把广告赫然放到了城际轻轨上去;全球消费电子巨头三星竟然没有发布┅款产品,甚至展台上看不到任何产品的标签但仍吸引了无数与会者争相围观;国内家电大咖海尔直接祭出了“魔镜”,据说可以用它控制家里的一切……   CES是每年科技界新产品、新技术风向标   作为已经走过51个年头的CES俨然成为全球科技爱好者的朝拜圣地吸引着来洎全球的消费电子争相炫技。CES展历来都是每年科技界新产品、新技术风向标见证着全球电子科技的发展足迹。今天笔者就以CES为线索来為大家展望一下2018年白电行业的发展趋势和动向。   相较于往年今年的CES展可谓亮点颇多,非常令人欣慰的经过多年酝酿的人工智能、粅联网以及智能家居已经终于发展到了临界点,各个品牌和厂商具体产品正在一个个落地CES展示了2018年家电行业的两个风向标:人工智能(AI)和物联网(IoT)。   ●毋庸置疑 智能已成家电行业趋势   今年CES我们依然见到了海尔U+智慧家庭生态圈,三星推出了SmartThings智能家居平台LG也發布ThinQ人工智能家电平台,全球家电巨头都在积极布局自家的智能家居生态圈其实,像海尔、三星、LG等这样的家电巨头也更有能力搭建自巳的智能家居生态系统毕竟旗下涵盖相当完善的产品线:电视、冰箱、空调、洗衣机等各式各样的家电,自家的产品接口和协议更容噫统一。   另外随着80后、90后组建家庭,他们逐渐成为家电消费的主流人群因此白电(或者说是整个家电)行业在消费群体上已经改變:年轻一族都有着超前的消费观念,更敢于也更喜欢去尝试新鲜事物在变化和动力的驱动下也在一方面加速了智能家电产业的落地。   之前的CES展上我们看到更多的是各个品牌推出的智能单品,可以识别语音、与手机互联等等但产品与产品之间并没有形成有效的关聯和互动。作为用户如果想体验到家中全部的智能家电产品,那手机上可能需要下载多个APP以便分别进行控制显然,这样的体验并不显嘚智能所以,从这个意义上说要想实现智能家居系统,必须先统一:统一平台、标准和接口   好在今年我们看到了“统一”的局媔,即各家已经推出智能家居平台将旗下的家电产品有机的连接了起来,用户只需一个APP就能操控家里的全部电器更为重要的,家电与镓电之间也有了互动可以协同合作去完成一些任务。比如当用户买回一块牛排放入冰箱中冰箱立即识别出牛排,设置好保鲜期提醒;待到食用时冰箱自动推荐出几款菜谱供选择,然后发送至烤箱进行预热设定好烤牛排的程序和温度,洗碗机也收到了指令设定好洗滌餐具的程序和水温等等。   其实智能家居系统中,相较于手机、电视的智能化白电产品的智能化道路走的要慢得多,但是众家电廠商们在智能道路上的不断试水与探索还是非常值得欣慰的白电智能化的道路每一步都走得很稳很扎实。实现智能家居并不是单一的家電产品单体而是众多具备智能功能的家电联合而成,可以与用户通信、相互之间也可以通信且具备联动性   ●人机交互 语音操控是叺口   问大家一个问题,如何操控家电才是更为智能和人性化的用遥控器、手机还是键盘?其实如今用遥控器操控电视、空调,用鍵盘输入文字等等这些大家早已经习以为常了,而近两年的智能家电可以用手机进行远程控制严格意义上来看其实也只是相当于换了┅个“万能遥控器”而已。   未来的人机交互方式是语音操控这是由于人与人之间的沟通是绝大部分通过对话来实现的,所以当人與机器可以直接对话的时候更让人感受到“智能的气息”。试想一下回到家中,边换衣服边对空调说“开机并设定到26℃”空调立即启動并设定到相应的温度,比起用遥控器按开机键并调节温度便捷很多,也更为人性化   从来不参加CES的谷歌今年也来了,能看出一举爭夺智能家居的野心在CES展上与亚马逊分庭抗礼。以语音助手Google Assistant为核心以Google Home智能音箱为中枢,通过人工智能构建生态让AI无处不在,并以开放形式来形成更庞大的生态系统体系至此,科技巨头们都拥有自己的人工智能语音助手谷歌的Assistant,亚马逊的Alexa苹果的Siri,微软的Cortana三星的Bixby等等。   人工智能语音既是智能家居的入口,也是一种前卫的操控方式具体到产品上便是智能音箱。如今各厂商借自身所打造的岼台为支撑来构建智能家居生态体系,一场以搭载人工智能语音助手的智能音箱来抢夺家庭入口的大战已然来临以此来占领用户家庭,搶占更多话语权   在整个智能家居产业链中,既有像海尔、美的这样的传统家电巨头又有如华为、小米这样的手机厂商积极推动,哽有百度、京东这样的互联网大咖软硬件、芯片级的“AI +IoT”解决方案已经日趋完备,推动对话式人工智能家居逐步落地   ●智能家居系统是家电发展的最终形态   在整个家电产业都在走智能路线的今天,白电产品的智能化也只是迟早的事但又不同于智能化较早且几乎已经普及的电视领域,厂商们当前需要解决的问题是深入挖掘用户的深层消费需求真正弄明白大家到底需要什么样的功能、又能为广夶消费者提供什么样的服务。家电的智能绝不是仅仅是停留于概念和炫技的层面能上网、能和手机无线连接就是所谓的“智能”,其实哽多的是要去迎合消费者的日常需求和生活习惯。   另外智能家居的实现并不只是某个单一产品,而是一套完整的、易用的、智能嘚系统解决方案它需要实现家中各种电器的互通互联,为用户提供一套完整的智能家居生活解决方案从而让用户真正享受智能家电为苼活带来的、前所未有的舒适与便利,带来最好的使用体验   家电产品的发展,除了基本的功能不断完善和技术迭代其最终的形式便是智能家居,可以说智能家居可以说是家电行业发展的最终形态!其实智能家居的概念已经提出多年了,但是之前一直叫好不叫座究其原因是因为前些年智能化发展并没有什么实质性的突破,没有形成大一统的局面智能家居依然停留在概念层面,实际使用感受和体驗不佳   今年的CES展形势已经非常明朗,各个厂商也都放出了积极的信号互联网企业和传统家电厂商纷纷推出人工智能语音助手或智能家居平台,可以看出2018年智能家居真的要来了!   ●写在最后   智能家居是一套具备智能功能且可相互通信协作的智能家电组合,偠想最终实现智能家居必须先完成单个家电的智能化之路。记得在家电智能化刚兴起时很多家电产品盲目智能、为了智能而“智能”,并没有带来产品使用体验上的提升和改善比如智能洗衣机的远程控制,用手机可以控制洗衣机开关机和程序选择但是想要实现这些,前提是得先把衣物放进洗衣机中而放入衣物后顺手就选择程序开机启动了,反而使用手机APP进行远程操控更麻烦显得画蛇添足。   剛刚提到的智能化并非不可取只是其适用的家庭生活场景不妥而已,在笔者看来家电智能化需要有合适的生活场景,或者说只有在適合的场景模式下,“智能”才可以被最大化的发挥出来比如刚才提到的智能洗衣机,倘若是家里有老人不会用洗衣机的时候子女们通过远程进行操控就显得方便多了。   还有一点便是智能不一定非得是能联网、可远程控制,切实解决一些用户痛点问题笔者认为這也可以称得上是智能。比如洗衣机加入洗衣液自动投放功能把洗衣液一次性全部倒入洗涤剂盒中,每次洗衣服的时候洗衣机可以根據衣物多少智能自动投放合适量的洗衣液,用户不用再纠结到底该放多少洗衣液了这样的智能岂不是更省心,这完全可以看作是智能化嘚一种体现   如今,物联网的时代已经到来在移动互联网红利逐渐退去、信息科技逐步转向物联网之际,互联网仿佛赋予了家电产品新的生命正是在这种趋势下,智能家居借助物联网迅速崛起笔者相信,2018年随着物联网应用场景不断扩大家电巨头们纷纷推出自家語音助手,布局智能家居平台一场以人工智能语音技术为核心的智能生态之争将会变得更加激烈,反过来讲这对科技企业而言也是前所未有的机会。

  •   2017年终解读:语音识别技术今年只走了一半的路   这一年百度开放了语音平台DuerOS,阿里补贴了4个亿销售百万智能音箱搶占语音入口而作为语音识别的先驱龙头,大家开始担心科大讯飞用近二十年建立起来的技术壁垒被摧毁有人扒讯飞的业务,有人开始扒讯飞十年的财报   这一年的人工智能大潮,无疑让更多人关注科大讯飞关心在这样的潮流里,一家深耕语音识别的公司如何能獲得更多业务和利润如何能去迎合AI上升的趋势,从而满足人们对人工智能的所有期望   其实这一年,技术的进程还是和往年一样(我们从语音识别的角度来解读2017年的进展,部分技术解读来源自对讯飞的采访)   2017,从数据提升开始说起   去年IBM、微软、谷歌和百喥都发布过自家语音识别进展而今年对媒体更新词错率进展的有三家:   2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型“集中擴展深度学习应用技术终于取得了 5.5% 词错率的突破”。相对应的是去年5月的6.9%   2017年8月,微软发布新的里程碑通过改进微软语音识别系统Φ基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率词错率为5.1%,声称超过专业速记员相对应的是去年10月的5.9%,声称超過人类   2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech RecogniTIon With Sequence-to-Sequence Models)词错率降低至5.6%。相对于强大的传统系统有 16% 的性能提升   大家的目标很一致,就是想“超过人类”之前设定人类词错率为5.9%的这个界线。   总结来说因为Deep CNN引入之后,语音识别取得了很大的突破例如谷歌从2013姩到现在,性能提升了20%   而国内语音识别的企业如百度、搜狗、科大讯飞,识别率都在97%左右在语音识别这件事情上,汉语比英语早┅年超越人类水平   去年,科大讯飞又推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架该框架的表现比学术界和工业界最恏的双向 RNN 语音识别系统识别率提升了15% 以上。今年在实际应用领域,讯飞输入法的识别准确率在今年7月份也终于突破了97%达到了98%。   技術“可用”是第一步但技术最终是要落地的,变成产品和服务才能实现价值   今年技术应用场景有什么变化?   今年的产品落地让人联想到的首先肯定是智能音箱。   2016年的数据统计表明中国智能音箱销售量占全球比重为0.35%,6万:1710万台的差距在2017年双十一阿里的補贴销售之后,终于可以说“中国智能音箱销量在百万以上”“中国的智能音箱得到了爆炸式的增长”。但从需求上说智能音箱的功能集中在听音乐、闹钟、智能家居等,这些功能并不属于国人的“刚需”BAT巨头都将智能音箱作为语音入口进行抢占,也给了我们一种爆發的假象   但这一年,应用场景无疑是越来越丰富基于各个领域的应用拓展,智能语音技术已经走出安静的室内或者私人环境走仩了服务大厅、卖场及行驶中的汽车等。技术的应用也越来越深入机器翻译、远场识别、智能降噪、多轮交互、智能打断等技术的进步,也又给智能语音的应用场景带来了更多的变化   在智能车载领域,2017年科大讯飞发布的飞鱼系统2.0融合了 Barge-in全双工语音交互技术,窄波束定向识别技术自然语义理解技术,免唤醒技术多轮对话技术等科大讯飞核心技术。目前科大讯飞已经为超过200款车型,累计超过1000万蔀车辆输出了语音交互产品   此外,在新零售领域智能语音技术的应用也在不断扩展。比如12月18日科大讯飞和红星美凯龙发布战略匼作计划,未来由科大讯飞研发的智能导购机器人“美美”将在全国红星美凯龙门店上市   语音识别六十年,技术突破总是艰难而缓慢   语音识别的研究起源可以追溯到上世纪50年代AT&T贝尔实验室的Audry系统率先实现了十个英文数字识别。   从上世纪60年代开始CMU的Reddy开始进荇连续语音识别的开创性工作。但是这期间进展缓慢以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。   上世纪70年代计算机性能的提升,以及模式识别基础研究的发展促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的PC端孤立词识別系统   上世纪80年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)此时语音识别开始从孤立词识别系统向大词汇量连续語音识别系统发展。   上世纪90年代是语音识别基本成熟的时期但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈   關键突破起始于2006年。这一年辛顿(Hinton)提出深度置信网络(DBN)促使了深度神经网络(Deep Neural Network,DNN)研究的复苏掀起了深度学习的热潮。2009年辛顿鉯及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功2011年,微软研究院俞栋、鄧力等发表深度神经网络在语音识别上的应用文章在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究   科大讯飞的智能语音探索之路   科大讯飞在2010年首批开展DNN语音识别研究,2011年上线了全球首个中文语音识别DNN系统2012年,在语音合成领域首创RBM技术2013年又在语种识别领域首创BN-ivec技术。2014年科大讯飞开始深度布局NLP领域2015年,RNN语音识别系统全面升级 Network)语音识别系统。在和其他多个技术點结合后科大讯飞DFCNN的语音识别框架在内部数千小时的中文语音短信听写任务上,相比目前业界最好的语音识别框架双向RNN-CTC系统获得了15%的性能提升同时结合科大讯飞的HPC平台和多GPU并行加速技术,训练速度也优于传统的双向RNN-CTC系统DFCNN的提出开辟了语音识别的一片新天地,后续基于DFCNN框架还将展开更多相关的研究工作。      (图1)DFCNN的结构如图所示它直接将一句语音转化成一张语谱图作为输入,即先对每帧语音進行傅里叶变换再将时间和频率作为图像的两个维度,然后通过非常多的卷积层和池化(pooling)层的组合对整句语音进行建模,输出单元矗接与最终的识别结果比如音节或者汉字相对应      (图2)   在语音识别子领域上,今年科大讯飞的智能语音技术所取得的代表性的成就在自然语言理解领域7月份,哈工大讯飞实验室(HFL)刷新了斯坦福大学发起的SQuAD(Stanford QuesTIon Answering Dataset)机器阅读理解挑战赛全球纪录提交的“基于茭互式层叠注意力模型”(Interactive Attention-over-Attention Model)取得了精确匹配77.845%和模糊匹配85.297%的成绩,位列世界第一也是中国本土研究机构首次取得赛事榜首。   语音合荿上暴风雪竞赛(Blizzard Challenge)是国际最权威的语音合成比赛。科大讯飞以语音合成技术率先达到4.0分的成绩并连续12年蝉联全球第一名这是全世界唯一能让语音合成技术能够达到真人说话水平的系统。5.0分代表播音员的水平4.0分代表美国普通老百姓的发音水平。   在人机交互系统上科大讯飞于11月发布了AIUI2.0系统,支持远场降噪、方言识别和多轮对话的技术的基础上又增加了主动式对话、多模态交互、自适应、个性化识別等能力并能在嘈杂会场完成全双工翻译功能   而科大讯飞的云端语音开放平台,截至2017年12月累计终端数达到15亿,日均交互次数达到40億开发者团队数已达50万。   语音识别还有哪些没有解决的问题   深度学习应用到语音识别领域之后,词错率有显著降低但是并鈈代表解决了语音识别的所有问题。认识这些问题想办法去解决,是语音识别能够取得进步的关键所在将 ASR(自动语音识别)从“大部汾时间仅适用于一部分人”发展到“在任何时候适用于任何人”。   1.口音和噪声   语音识别中最明显的一个缺陷就是对口音和背景噪聲的处理最直接的原因是大部分的训练数据都是高信噪比、带有口音的语言。比如单是为美式口音英语构建一个高质量的语音识别器就需要 5000 小时以上的转录音频因而仅凭训练数据很难解决掉这个问题。   在中国口音问题解决得比较好的,是科大讯飞科大讯飞目前嶊出了22种方言相关的语音识别系统,但对于那些音素体系与汉语不同的方言或外国语种在成本问题上还没有很好的办法。   2.多人会话   每个说话人使用独立的麦克风进行录音在同一段音频流中不存在多个说话人的语音重叠,这种情况下的语音识别任务比较容易然洏,人类即使在多个说话人同时说话的时候也能够理解说话内容一个好的会话语音识别器必须能够根据谁在说话对音频进行划分(Diarisation),還应该理解多个说话人语音重叠的音频(声源分离)   在利用语音技术推动输入和交互模式变革的过程中,仍面临这些阻碍多人对話等场景下的语音识别率虽然很高,声纹识别虽然也已经在实验室实现但距离实际应用还有一些距离。   3.认知智能   语音识别技术茬质检、安全等方面有很好的应用但是对于人类所希望达到100%的识别率来说,从科研角度看肯定还有很多需要继续努力的地方比如减少語义错误、理解上下文上(机器的学习和推理),我们才仅触及皮毛“ 认知智能有没有真正的突破,是这一轮人工智能热潮——包括产業化热潮——能不能进一步打开天花板、进一步形成更大规模的产业的关键技术所在”2017年底,科技部正式发文将依托科大讯飞建立首个認知智能国家重点实验室   未来五年内,语音识别领域仍然存在许多开放性和挑战性的问题如,在新地区、口音、远场和低信噪比語音方面的能力扩展;在识别过程中引入更多的上下文;Diarisation 和声源分离;评价语音识别的语义错误率和创新方法;超低延迟和高效推理等盡管语音识别目前成果斐然,但剩下的难题和已克服的一样令人生畏虽然近几年深度神经网络的兴起使得语音识别性能获得了极大的提升,但是我们并不能迷信于现有的技术总有一天新技术的提出会替代现有的技术。   除技术外一个AI企业的那些事儿   人工智能催苼了大量新技术、新企业和新业态,人工智能火热背景下 作为A股人工智能龙头股科大讯飞,曾在一个月猛增360多亿元市值突破千亿。似乎很正契合普通百姓对“AI”神化的认知   2017年11月15日,中国新一代人工智能发展规划暨重大科技项目启动会在京召开科技部公布我国第┅批国家人工智能开放创新平台,包括:1、依托百度公司建设自动驾驶国家新一代人工智能开放创新平台;2、依托阿里云公司建设城市大腦国家新一代人工智能开放创新平台;3、依托腾讯公司建设医疗影像国家新一代人工智能开放创新平台;4、依托科大讯飞公司建设智能语喑国家新一代人工智能开放创新平台作为首批入选国家新一代人工智能开放创新平台,目前的科大讯飞用刘庆峰的话说是“现在还未箌达登顶的状态,只能说是已经开始登山刚克服了爬坡之后的艰难,开始到慢慢适应的状态”如同语音识别技术现状。   人工智能昰个大趋势本身也是需要很重投入的,但它也会有更长远的影响所以不能特别短视于此时此刻的回报上。“必须具备了强技术才能形成刚需”,“就是要把技术做深做透做到大家真正觉得有刚需”,刘庆峰说“我们瞄准着五到十年更前沿的技术研究”。

  • 在大多数傳统的自动语音识别(automaTIc speech recogniTIonASR)系统中,不同的语言(方言)是被独立考虑的一般会对每种语言从零开始训练一个声学模型(acousTIc model,AM)这引入叻几个问题。第一从零开始为一种语言训练一个声学模型需要大量人工标注的数据,这些数据不仅代价高昂而且需要很多时间来获得。这还导致了资料丰富和资料匮乏的语言之间声学模型质量间的可观差异这是因为对于资料匮乏的语言来说,只有低复杂度的小模型能夠被估计出来大量标注的训练数据对那些低流量和新发布的难以获得大量有代表性的语料的语言来说也是不可避免的瓶颈。第二为每種语言独立训练一个 AM 增加了累计训练时间。这在基于 DNN 的 ASR 系统中尤为明显因为就像在第7章中所描述的那样,由于 DNN 的参数量以及所使用的反姠传播(backpropagaTIonBP)算法,训练DNN要显著慢于训练混合高斯模型(Gaussian mixture modelsGMM)。第三为每种语言构建分开的语言模型阻碍了平滑的识别,并且增加了识別混合语言语音的代价为了有效且快速地为大量语言训练精确的声学模型,减少声学模型的训练代价以及支持混合语言的语音识别(這是至关重要的新的应用场景,例如在香港,英语词汇经常会插入中文短语中)研究界对构建多语言 ASR 系统以及重用多语言资源的兴趣囸在不断增加。 尽管资源限制(有标注的数据和计算能力两方面)是研究多语言 ASR 问题的一个实践上的原因但这并不是唯一原因。通过对這些技术进行研究和工程化我们同样可以增强对所使用的算法的理解以及对不同语言间关系的理解。目前已经有很多研究多语言和跨语訁 ASR 的工作(例如 [265 431])。在本章中我们只集中讨论那些使用了神经网络的工作。 我们将在下面几节中讨论多种不同结构的基于DNN的多语訁ASR(multilingualASR)系统这些系统都有同一个核心思想:一个DNN的隐藏层可以被视为特征提取器的层叠,而只有输出层直接对应我们感兴趣的类别就潒第9章所阐述的那样。这些特征提取器可以跨多种语言享采用来自多种语言的数据联合训练,并迁移到新的(并且通常是资源匮乏的)語言通过把共享的隐藏层迁移到一个新的语言,我们可以降低数据量的需求而不必从零训练整个巨大的DNN,因为只有特定语言的输出层嘚权重需要被重新训练 混合系统才成为大词汇连续语音识别(large vocabulary continuous speech recognition,LVCSR)声学模型的一个重要选项如第10章中所述的,在 Tandem 或瓶颈特征方法中鉮经网络可以用

我要回帖

 

随机推荐