服务热线

091-403896421
网站导航
主营产品:
新闻中心
当前位置:主页 > 新闻中心 >

博冠体育:搜狗同传3.0:引入视觉能力+知识图谱,构建语境引擎

时间:2022-07-18 02:56 点击次数:
 本文摘要:我在谈论痛苦的经历。2016年,Sogou在“第三届乌镇互联网大会”上发布了业界第一款商用AI同传产品——Sogou同传1.0。这是Sogou同传的第一代产品,同时也是Sogou转移到同传领域的第一次商业尝试。

博冠体育

我在谈论痛苦的经历。2016年,Sogou在“第三届乌镇互联网大会”上发布了业界第一款商用AI同传产品——Sogou同传1.0。这是Sogou同传的第一代产品,同时也是Sogou转移到同传领域的第一次商业尝试。

“1.0阶段我们获得的是标准化的同传能力,实际应用过程中遇到的唯一问题是每个演讲者演讲时的背景信息和意义信息不同,今天有可能必须反对医疗会议,明天必须反对航空会议,这个回顾最初的Sogou同传1.0,Sogouai交互技术部总经理陈伟指出,当时实际应用的问题是无法提供各专业领域的“语义词”,也影响了最初产品的识别和翻译精度。如何通过提供这些专业的“语义词”来训练专用模型并改进标准化版本1.0? 这是Sogou同传研究开发小组在展开版本递归时主要考虑的问题,也是最后试图通过Sogou同传2.0来解决问题的问题。

这也有2018年发表的Sogou同传2.0的几个最重要的能力升级。通过行业深度定制和专业模型训练(例如,事先上传演讲稿,获得重点词汇展开训练),输入行业方案:“回归2.0版后,我们为了优化演讲者说话的内容, 以前说的内容据此优化模型。版本2.0考虑了专业化内容的优化,但在明确的应用过程中,无法提供实际的演讲者演说内容,因此无法以这些专业内容展开定制模型的优化。

但是,在这种升级的递归过程中,Sogou同传的标准化能力从2016年的Sogou同传1.0到2018年的Sogou同传2.0已经显着提高。“但是,关于标准化能力和个性化能力,嘉宾演说的PPT内容的鉴定和翻译效果还有一点提高的馀地。

这是不存在的。”因此,Sogou之后也优化了个性化能力,也就是Sogou同传的定制能力,“我们想让机器自己定制良好的语境。

博冠体育

”。这样的能力最后在Sogou同传3.0中要求构筑。Sogou同传3.0 :引入视觉能力、科学知识图谱,构建语境引擎12月21日,基于语境引擎的Sogou同传3.0以多模式和自主自学为核心,重新加入视觉和思维能力,这是AI同传为视觉AI、科学知识图谱的根据陈伟的说明,Sogou同传3.0对上一代产品主要有三个方面的能力提高:第一,从感官层面来看,提供的信息从此前的单模信息到现在为止,要求引入视觉能力,提供多模式信息。其次,从理解水平来看,通过OCR识别和视觉能力提供演讲者的PPT内容,在语境引擎的协助下,提取这些专业知识的核心,通过科学知识地图的方式,进一步扩展内容展开,构成演讲者整体的语境信息, 第三,我们在获得个性化信息后,展开动态语音识别、机器翻译,分解个性化、动态定制引擎。

在整个Sogou同传3.0系统的工作过程中,特别是重新加入视觉能力,引入语境引擎,这也是解决问题前所述的专用性、个性化同传市场需求的关键。“语境引擎确实需要PPT内容的解读和推理小说”陈伟解读Sogou同传3.0的核心能力。明确Sogou同传3.0技术框图下图右图:由Sogou同传3.0技术框图可知,上下文引擎主要由“PPT文本解读”和“Sogou科学知识地图”两部分组成。

语境引擎的整体工作过程可以解释为,在会议现场,通过OCR (例如广播PPT的笔记本电脑),将演说嘉宾PPT的全部内容转换为文字信息,已经从文字信息中提取了与作者领域相关的个性化内容和科学知识。基于这些科学知识,融合Sogou基于迄今为止基于Sogou百科构建的科学知识地图,扩展了一些科学知识,将语音识别的内容作为词汇训练模式,构成了Sogou同传3.0的识别翻译模式。其中,Sogou在该传统系统中识别翻译并翻译成协同模块,展开并优化翻译成模型的输出文本,该模块的作用在2次递归中也是最初,从最基本的标点符号开始,享受标点符号、文本流畅、语义单元三种能力在这个过程中,Sogou的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型升级到3.0多模式翻译系统,3.0系统基于Transformer模型,Sogou百科知识根据Sogou的官方发表,由构建上下文引擎升级的Sogou同传3.0系统的测量数据如下图右:这样在现场识别PPT内容,融合百度百科知识地图,构建上下文引擎,在计算能力和硬件上陈伟解释说,在现场进行PPT的内容识别需要通过截图(本机广播PPT )和笔记本电脑的照相机完成,语音训练在英伟达的普通P40和V100中展开训练,在训练推理小说方面不削减额外的成本。

AI同传还很难代替人类同传,多模式成为趋势导入视觉能力,再次添加科学知识图谱后的Sogou同传3.0,几乎需要代替人类同记吗? 根据在Sogou的官方发表会上发表的信息表,在实际项目管理中,Sogou同传3.0的评价分为3.82分,人工同传的评价分为4.08分。目前,AI同传似乎几乎不能取代人类同传。

博冠体育

陈伟也已经认为机器的感觉能力更强。因为机器还在继续自学(1天使用Sogou输入软件进行语音识别的总次数在8亿次以上)。但是,机器和人类的差别仅次于翻译。

对于翻译的“信、约、雅”,机器几乎可以构筑“信”,有些场景需要构筑“约”,但人可以构筑“雅”。关于翻译,AI同传面临着翻译的问题。例如,不能开玩笑,用get翻译说话人的意思。

是否有必要解读谚语,人与机器的差别还是在语言理解能力方面。所以Sogou还在做语言AI,所以必须把我们的焦点放回语言本身。回到语言本身,各种传感器变得更多,设备收集的数据和数据的种类变得更多,即能够逐渐取得更多的多模式数据,如果有多模式数据,关于模型和算法的事情也受到业界的关注多模式的构建过程非常不简单。从我们这几年的理解来看,是酋长国的简单过程。

提到多模式语音中的Sogou技术发展,陈伟说:“我们是第一家在技术上主张多模式的公司,这次的Sogou同传3.0意味着语音跨越了多模式,在这个多模式下我们的科学知识解读、语音的”。“我们的终极目标是在南北实现VPA。在软件形态的AI助理中,可以将硬件作为载体,搭载在Sogou输入软件、Sogou的搜索引擎上。

VPA的形态是面向任务的,看不到对话多的图像。在同传这个场景中,他指出Sogou同传是一种形态的VPA,可以用没有同传能力的VPA与人同传。

”。原创文章,发布许可禁令刊登。

以下,听取刊登的心得。


本文关键词:博冠体育,博冠,体育,搜狗,同传,3.0,引入,视觉,能力,知识

本文来源:博冠体育-www.north-oceancapital.com

Copyright © 2008-2022 www.north-oceancapital.com. 博冠体育科技 版权所有  备案号:ICP备19746983号-4

地址:湖北省荆门市廉江市路海大楼4509号 电话:091-403896421 邮箱:admin@north-oceancapital.com

关注我们

服务热线

091-403896421

扫一扫,关注我们