博鱼官方网页版-博鱼(中国)




  1. 咨询热线:021-80392549

    博鱼官方网页版-博鱼(中国) QQ在线 博鱼官方网页版-博鱼(中国) 企业微信
    博鱼官方网页版-博鱼(中国)
    博鱼官方网页版-博鱼(中国) 资讯 > 人工智能(néng) > 正文

    陈伟:AI语音市场要靠3.0技术撬(qiào)动

    2020/01/24ai网431

    前言:

    想要实现全人类之(zhī)间的顺畅交(jiāo)流,一直都是一个遥不可及的(de)美好(hǎo)期望(wàng),而人工智能的飞(fēi)速发展,让我们(men)看到了这一希(xī)望。

    国内刚需明(míng)显(xiǎn)提(tí)升

    在中国,从事同(tóng)传(chuán)工作(zuò)的(de),大(dà)多数是英语(yǔ)专业背景,精通全领(lǐng)域是(shì)充(chōng)分(fèn)而非必要条件。而(ér)面(miàn)对涉及医疗、数学和物理等领域的会议时(shí),同传人员并不能很好地将(jiāng)这些相关术语准地(dì)翻(fān)译。

    当学术盲(máng)点变成了行业痛点,以语音智能见长的(de)科技公(gōng)司便(biàn)主动出(chū)击,抓住了同声传译这一(yī)细分市场(chǎng)的(de)机遇,迭(dié)代到3.0版本的搜狗同传便是向(xiàng)这一细分市场布局的(de)开端。

    机器同传的产(chǎn)品价值(zhí),主要体现在其致力于解决跨(kuà)语言交流、跨语言信(xìn)息获取(qǔ)和语(yǔ)言表达的电子化记录(lù)等(děng)障碍。若要真(zhēn)正实现(xiàn)这三点,不能(néng)单(dān)纯地把语音识别和机器(qì)翻译做嫁接,而需(xū)要一套完(wán)整(zhěng)的(de)有机系统(tǒng)。

    Ai芯天下丨观点(diǎn)丨陈伟(wěi):AI语音(yīn)市场要靠3.0技术撬动(dòng)portant;" />

    语境引擎=多模态+知识图(tú)谱

    去(qù)年12月,基于语境引擎的搜狗同传3.0以多模(mó)态(tài)和(hé)自主学(xué)习为核心,加入(rù)视觉和思维能力(lì),这是AI同传在加入诸(zhū)如视觉AI、知识图谱等能力后的(de)再度进化(huà)。

    最新发布的搜(sōu)狗同(tóng)传3.0,内(nèi)核进化成(chéng)为(wéi)了语境引擎。除(chú)了“语(yǔ)音信息(xī)+OCR”的结(jié)合(hé)方式(shì),升级后的产品,最大亮(liàng)点是在“能听会看”的多模态基础(chǔ)上,注入(rù)了思考和推理(lǐ)能力,背后靠的是知识图谱的加持。

    多模态同(tóng)传,即AI获(huò)取信息的渠道不再是语音,还包含图像等其(qí)他内(nèi)容。这(zhè)种多模态(tài)的(de)交互方式是搜(sōu)狗一直坚信的趋(qū)势(shì),也是(shì)与人最自然的(de)一种交流方式。

    “会看”,意味着同传(chuán)首(shǒu)次具备了视觉能力。“能理解会(huì)推理”,则意味(wèi)着同传具(jù)备了与人“共情(qíng)”的(de)能力。

    Ai芯天下(xià)丨观点丨陈伟:AI语(yǔ)音市场要靠3.0技术撬(qiào)动portant;" />

    基于(yú)语境引擎开(kāi)发的搜狗同传3.0为演讲者构建了个性(xìng)化的认知语境(jìng),能(néng)够(gòu)跟随演讲者(zhě)一起“思(sī)考”,无(wú)疑是(shì)AI同传领域的又一大技术创新(xīn)。

    可以像人类一(yī)样,从语(yǔ)音和图像中获取信息,不仅会(huì)听(tīng),还能(néng)同时看图、查资料,从而提高了同声传(chuán)译的准确(què)性,在AI同传落地(dì)应(yīng)用中属首创。

    尤其(qí)是面对专(zhuān)有(yǒu)名词、专业(yè)术语较多(duō)的场景(jǐng),相比传统(tǒng)只依(yī)赖(lài)语音的(de)技(jì)术,针对PPT内(nèi)容将(jiāng)翻译的正确(què)率提升了40.3%。

    Ai芯天(tiān)下丨观点丨陈伟:AI语音市场要靠3.0技术撬动portant;" />

    陈伟认为,多(duō)模态技术是未(wèi)来人机(jī)交互的发(fā)展方向。从搜狗同传的技术升级之路(lù)中,我们也可以看出(chū)搜狗(gǒu)下(xià)一步的计划。

    据(jù)陈伟(wěi)介绍,搜狗同传3.0相对于上一代(dài)产品主(zhǔ)要(yào)有三方面能力(lì)的提升:

    更加接近(jìn)自然,从单纯(chún)的语(yǔ)音识(shí)别到语音+图(tú)像,新的方法模拟了(le)人工同传的工作方式,增加视觉和(hé)大脑扩散知识点的(de)功能,拥有更(gèng)为复杂的感(gǎn)知系统。

    更加专(zhuān)业,此前的AI同传模型(xíng)使用通用数(shù)据,新的模型(xíng)通过实时定(dìng)制知识(shí)增(zēng)强能力(lì),能够捕捉现场(chǎng)PPT内容补充(chōng)演讲相(xiàng)关的(de)专业(yè)领域的知识,并(bìng)针对每一个演(yǎn)讲进行模型定制,提升(shēng)同传效果。

    Ai芯天下丨观点丨陈(chén)伟:AI语音市场要靠3.0技术撬动portant;" />

    搜狗(gǒu)同传(chuán)的技术迭代之路

    2016年11月推出的(de)搜狗(gǒu)同传1.0通(tōng)用语音同传是首个商(shāng)用机器同传产品,实现(xiàn)了语音同传(chuán)的功能。

    2018年(nián),搜(sōu)狗同传2.0集成TTS,首次实(shí)现语音到语音同(tóng)传,并可根据用户语料实(shí)时定制,同时它还用上了首(shǒu)个(gè)英译中同传引擎。

    到3.0,搜狗(gǒu)同传(chuán)已经(jīng)是一款业内(nèi)首(shǒu)创的多(duō)模态+自主学(xué)习的同传产(chǎn)品,能听(tīng)、会看,能理解、会推理是它的特点,同时(shí)增加了(le)实时捕捉(zhuō)PPT内容的功能。

    搜狗1.0时,输入仅是语音,2.0开始做语音+个性化(huà),以及说话人的语境背景输入;3.0加入了知识(shí)图(tú)谱,把语音、视(shì)觉等信息作(zuò)为语音(yīn)识(shí)别的输入。现在,业内技(jì)术普遍介于1.0和2.0之(zhī)间,而搜狗依靠图谱方式(shì),已经率(lǜ)先进入(rù)3.0时代。

    2.0时代,搜(sōu)狗同传会首先对文本进行规则化,让(ràng)文本变得流利,丢弃一些语义词和(hé)停顿词等,但会遇到延时很大的问题。

    在3.0时代(dài),搜狗同传加入了语(yǔ)义(yì)单元,识别(bié)判断一(yī)句话为独立(lì)的一(yī)个单(dān)元(yuán),系统可以在(zài)讲话者说话的同(tóng)时可(kě)以立即上屏(píng),降(jiàng)低同传系统的(de)延迟。

    Ai芯天(tiān)下丨观点(diǎn)丨陈伟(wěi):AI语音市场要靠(kào)3.0技术撬动(dòng)portant;" />

    机(jī)器翻(fān)译与人工之间的差(chà)距在(zài)拉近

    机器翻译的历史(shǐ)可能(néng)比大多数人想象中都(dōu)要久远,1954年(nián)初(chū),乔(qiáo)治(zhì)城大学(xué)的实验的一台电脑成功将四十多条俄文句子自动翻(fān)译(yì)成(chéng)英文,这(zhè)一事(shì)件成为机器翻译史中(zhōng)的一个里程碑,标志着现代机器翻(fān)译的开端。

    60多年过去了,机器翻译产品(pǐn)已经走(zǒu)进每个人的日常(cháng)生(shēng)活,在大型会议等场景下被广泛(fàn)采用。

    虽(suī)然(rán)翻译效果仍有(yǒu)待提(tí)高,但机器翻(fān)译已经(jīng)成为(wéi)提高翻译(yì)效率(lǜ)不可或缺的工具,并(bìng)催生了(le)一大批从事AI翻译研究的企业(yè),国内有搜(sōu)狗、腾讯、科大讯飞等,国外有谷歌、微软等。

    翻译领域有些工作是有重复(fù)性(xìng)的,包括同传领域,机器在某些(xiē)方面会(huì)优于人工,比如(rú)知(zhī)识(shí)面、领域知识(shí)的拓展性(xìng)上(shàng),机器比真人的知识面更广阔,并能够快速查询(xún)背后海量(liàng)的知识体系,这比(bǐ)真人在某(mǒu)些领域(yù)的翻译上(shàng)的准(zhǔn)确率更(gèng)高。

    在支持了上千场会议之(zhī)后,他们发现从成本上来看,机器翻译(yì)的成本(běn)一定是低于人工的,且边际成本会随着(zhe)使(shǐ)用(yòng)量增(zēng)加越来越低。

    与人相比,机器(qì)翻译成本更低,需要支持的设备也更少,一台笔记(jì)本,一条视频(pín)线、一条音(yīn)频线(xiàn),连上就(jiù)可以(yǐ)工作。

    机器同(tóng)传在未来的地位

    从机器同传的流程来看,当(dāng)机器视觉捕捉到(dào)核心关键词之后,会根据搜狗(gǒu)的知识图谱技(jì)术,把相关的词汇以及专业领(lǐng)域相关的词(cí)语拓(tuò)展出来(lái),作为语音识别和翻译(yì)的加强(qiáng)。

    未来,机器同传可向记(jì)者采访、跨(kuà)国办(bàn)公会(huì)议、中英文视频直播、字(zì)幕(mù)翻译等场景延展。这些应用场景最主要的挑(tiāo)战,是怎么保证机器同传的稳(wěn)定效果,考(kǎo)验的是采(cǎi)集设备、网络环境、识别能(néng)力等。

    未来面向人和机(jī)器交互过程(chéng)中(zhōng),一定是多模态的,搜狗提倡的技术主张,使机器同传(chuán)和(hé)同类(lèi)产品拉开了一(yī)代之差(chà)。他们(men)还是以同传为主,搜狗(gǒu)已经从(cóng)语音跨到(dào)了多模态,并(bìng)把对(duì)于知识和语音的理解(jiě)放进去,使同传(chuán)开始具备一定的认知能力。

    而搜狗在AI语音商业化的(de)进程,最终的指向(xiàng)还是(shì)消费者端。未来各种各样的场合都可(kě)能用到搜狗同传的技(jì)术,通过(guò)同(tóng)传打磨(mó)的能力也可以(yǐ)反向用于C端产品。

    一直以来,人(rén)工(gōng)智能技术只能在展示(shì)在实验(yàn)室(shì)中,随着(zhe)深度学习等技术的(de)研究成熟,人工智能(néng)技术加持的产品也逐(zhú)渐(jiàn)开始落地。

    多(duō)模态技术(shù)未来发展

    很多公司都意识(shí)到多模态技术重(chóng)要性,并(bìng)将研究成果落地到各种应用中,比(bǐ)如腾讯(xùn)、优酷等视频网站(zhàn)平台,快手(shǒu)等(děng)短视频平台都(dōu)将多模态技术应用于内容理解上,在获取用户和加(jiā)强与用户的互动交流上(shàng)起到了(le)重(chóng)要作用。

    目前关(guān)于多(duō)模态的研究课(kè)题(tí)还是要(yào)从产品和(hé)实际需求(qiú)倒推功能,这涉(shè)及到异构(gòu)数(shù)据(jù)融(róng)合的问题。

    多模态表达,在语义(yì)上如何进行对齐,提(tí)取同一需求的多模态特征,如何(hé)更好地跨越(yuè)语义的(de)鸿沟(gōu),异构数据如何融合,都是多模态技术会(huì)遇到的问题。

    随着(zhe)精度的逐步提(tí)高(gāo),搜(sōu)狗(gǒu)同传(chuán)所采用(yòng)的AI技术,未(wèi)来还将有更广阔(kuò)的的应用(yòng)空间,赋予我们(men)更多的可能性。比(bǐ)如,实时私人翻译乃至(zhì)文学(xué)作品的译制,可(kě)以让我(wǒ)们足不出(chū)户,享受(shòu)第一手国际作品的(de)字幕体验(yàn)。

    而(ér)在跨国界(jiè)、跨领域等项目(mù)合(hé)作(zuò)方面,逐渐实现无缝(féng)对接,能(néng)够显(xiǎn)著提高整体的工程协(xié)作效率。

    结尾:

    当然必(bì)须(xū)要承(chéng)认,无论是搜狗同传还是其他玩家(jiā),大家目前距离顶级同(tóng)传的水准还有很(hěn)长(zhǎng)的(de)路要走,目前的(de)机器同传(chuán)能力(lì)和顶级人工同(tóng)传相比,仍存在不(bú)小(xiǎo)的差距。

    关(guān)键词:




    AI人工智能网声明:

    凡资(zī)讯来源注(zhù)明(míng)为其(qí)他媒体(tǐ)来源的信息,均为转载自其他(tā)媒体,并不代表本网(wǎng)站赞同其(qí)观点,也不代(dài)表本网站对(duì)其真实性负责(zé)。您若对该文章内(nèi)容有(yǒu)任(rèn)何疑问或(huò)质疑(yí),请(qǐng)立即与网站(www.baise.shiyan.bynr.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给(gěi)您回应(yīng)并做处理。


    联(lián)系电话:021-31666777   新闻、技术文(wén)章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选资讯更多

    相关资讯更多

    热门(mén)搜索

    工博士人工智能网
    博鱼官方网页版-博鱼(中国)
    扫描二维(wéi)码(mǎ)关注微信
    扫码反(fǎn)馈

    扫(sǎo)一扫,反馈当前页面(miàn)

    咨询反(fǎn)馈
    扫码关注

    微信公众(zhòng)号

    返回(huí)顶部(bù)

    博鱼官方网页版-博鱼(中国)

    博鱼官方网页版-博鱼(中国)