文 | 36氪研究院 李晓晓 报告要点: 人工智能翻译目前是机器翻译的两大流派之一,主要通过以深度学习算法为基础的神经网络增强翻译的流畅性 机器翻译(Machine Translation),是利用计算机把一种自然语言转变为另一种自然语言的过程,一般指自然语言之间句子和全文的翻译。智能翻译,就是充分计算机语言学、人工智能和数理逻辑学科技术通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言,并通过机器、参与的人和互联网构建出一个智能的生态系统。 机器翻译可运用场景广泛,语音、语义、图像识别技术类企业发展成熟  随着人工智能文本技术的不断发展,智能翻译可以与相对比较成熟的语音、图像等技术进行深度结合,拓展翻译的应用场景。目前国内机器翻译领域中,除了BAT等巨头布局的、用以满足自身各个模块需求的强技术应用的翻译公司,大多数是学术派创建的实验室转向公司经营类型的,在技术上相对发展较快。这些企业既为B、G端提供定制化翻译系统和云平台,同时也通过翻译耳机等智能硬件产品布局C端市场。 新译科技采用限定性神经网络智能翻译的技术,为B、G端客户提供人工智能翻译解决方案的同时通过耳机等智能硬件产品开发C端市场 新译科技成立于2014年12月,一直不断研究和完善自然语言处理技术,聚焦AI文本智能翻译,服务于语言服务、专利、法律、医疗和金融行业,构建沟通无障碍服务体系。2017年公司智能翻译产品通过国家科技成果认定,并获得深圳青年技术奖,以及人工智能最高奖——吴文俊人工智能科学技术奖。 新译科技先后成立北京、深圳、新疆和澳门公司,以软、硬件为载体,为国家“一带一路”多语传播平台建设提供服务;为金融、专利、法律、医学等垂直领域提供全球化基础性多语沟通提供服务;为政府公共服务、旅游服务、会议服务建设事业做贡献,并不断完善多语大数据平台。 以下为报告正文 (完整版报告点此下载) 1.行业概况 1.1 人工智能翻译是机器翻译发展的最新阶段 机器翻译(Machine Translation),是利用计算机把一种自然语言*转变为另一种自然语言的过程,一般指自然语言之间句子和全文的翻译。机器翻译运用语言学原理,通过识别语法、词汇,调用存储词库,自动进行对应翻译。但由于这种基于统计模型的机器翻译采用的是规则的对应翻译的方法,因此当各种语法、词法、句法发生变化或者不规则时,每一步的错误率会像滚雪球一样使最终结果有很大的偏差;同时,调序模型的不完善覆盖不到全局特征也会导致统计机器翻译阅读流畅性差。所以在最新的技术中主要就是要打破规则性翻译带来的生硬的、阅读不畅的问题,使句子变得更加通顺,符合人们讲话的思维。 标注*:自然语言在这里泛指所有由人类创造和使用的语言。 图示:基于统计模型的机器翻译 2016年前后出现的神经网络机器翻译(Natural Machine Translation)能够训练一张可以从一个序列*映射到另一个序列的神经网络,输出的可以是一个变长的序列,在对话和文字概括方面获得较好的表现,能够解决机器翻译的流畅性差等问题。NMT其实是一个encoder-decoder系统,encoder把源语言序列进行编码,并提取源语言中信息,通过decoder再把这种信息转换到另一种语言即目标语言中来,从而完成对语言的翻译。但是,神经网络翻译机器有时候会出现漏译、过译、缺少语义信息等问题。 标注*:文中序列即指输入和输出的语句。 图示:基于神经网络的机器翻译    来源:36氪研究院根据公开资料整理 图示:智能机器翻译生态贴图 图示:机器翻译发展历程    数据来源:36氪研究院根据公开资料整理 1.2 不断革新的技术和广阔的市场需求是人工智能翻译行业发展的主要驱动力 机器翻译经过半个多世纪的发展,现在已经形成一个既包括传统的、基于实例的机器翻译(EBMT),也包括目前主流的SMT、NMT等技术在内的综合线上翻译服务系统生态圈,每个系统的革新都伴随着技术的变革和各种需求的推动。 1.2.1 语音识别、语义识别、图像识别和大数据算法是关键技术驱动力 现在的人工智能和大数据技术能够为翻译系统带来新的变革,例如突破规则性的机器翻译只擅长短句翻译的局限性,在原始数据量够大的情况下通过增加网络层数提高NMT的运算效果等。但是人工智能翻译依旧存在较大的难点,需要新的技术来解决。 图示:统计模型与神经网络模型的优缺点对比 来源:36氪研究院整理 1.2.2 市场需求和人才稀缺是现在智能翻译行业的主要驱动力 随着“一带一路“政策的开放,国内外的外交、贸易、旅游往来频繁,国内B端G端出海业务越来越多,对翻译人员以及软硬件的需求量也大幅增长,极大地推动了翻译企业的业务发展。 另外,我国的细分行业专业的翻译人才稀缺、人才专业性不强的现状也不能满足市场的巨大需求,比如工程类、医疗类、高新技术类等科目的翻译专业缺乏、小语种学科不够丰富都从侧面推动了智能翻译的发展。 最后,人们的消费水平以及生活质量大幅度提高,对外来的文化和语言学习已经成为生活必要的技能,而且追求新技术产品成为现在新青年的生活标志,这也构成了包括智能翻译APP、翻译笔、手表、耳机等在内的智能翻译产品C端巨大的市场需求。 1.3 机器翻译随着人工智能技术应用的不断深入,将会越来越智能,应用场景也会愈加广泛 1.3.1 人工智能翻译国内外现状  目前,国内外做智能翻译的企业侧重点有明显的差别。国外的企业侧重底层研究、重技术研发,整体而言技术先进精湛,但是展现形式相对较弱、产品类型较少,应用场景和范围也较少。而国内的智能翻译企业则更加侧重上层应用,产品类型较为丰富、应用较广泛,用户基数大与数据量较大。这一方面是由于暂时国内没有数据保护相关条例,另一方面是知识产权保护意识较弱。 图示:国内外产品及技术对比 来源:36氪研究院整理 1.3.2 市场规模及投融资现状  据中国智能制造网统计,2017年全球仅传统的翻译产业规模就达到445亿美元,2020年有望突破500亿美元。如果能够充分利用人工智能等前沿科技的推动力,继续释放出庞大的潜在需求,翻译市场将迎来更大规模的爆发。据鲸准数据显示,目前国内做机器翻译的企业有22家,其中属于人工智能翻译的企业有13家,主要包括五大类型的企业:语音同传翻译、图像翻译、穿戴翻译工具(耳机、手表等)、智能翻译系统以及定制化方案提供商。其中,有融资记录的企业占五成,处在A轮级的企业相对较多,主要的投资机构有微软创投、Funders Club、力合科创、凯泰资本、博将资本等。 接下来,对人工智能翻译的需求将随着全球化的加速不断增加,市场空间将越来越大,B端和C端等细分领域的应用也会越来越广泛;另外,深度学习算法的深度应用将为智能翻译提高语义理解的水平,提供更接近人类自然语言表达的翻译成果。 图示:各阶段获投机器翻译企业占比   数据来源:鲸准,36氪研究院整理 1.3.3 机器翻译的优势及痛点分析  机器翻译可以实现世界上不同国家不同语言间的低成本交流,其主要优点体现有:成本低,相对于人工翻译来说,机器翻译需要人工参与的程序少,基本上由计算机自动完成翻译;易把控,机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为精准的估算;速度快,计算机程序的运行速度非常快,其速度是人工翻译速度不可比拟的。 尽管机器翻译技术越来越成熟,但是翻译大行业依旧存在一些痛点。首先,市场的需求量很大,但是翻译人力不足;其次,高校教育对语言类学生的培养并不能覆盖全行业人才的需要,学校里教的偏文科类型,解决不了工科类企业的翻译需求;然后,C端的产品类型不够多样化,目前最多的是穿戴翻译耳机;最后,行业内没有界定标准的仲裁机构和统一的评价标准体系,何为准确的“信达雅”标准值得期待。 另外,还有一些技术上的痛点。目前的技术可以将文本、语音和图像识别并翻译出来,但是语义的识别和翻译依旧不能够精准表达和原文主题思想一样的意思,这方面还需要技术的突破;另外,在实现产品的离线化和行业数据规模化方面的技术也相对不够完善,目前缺乏能够应用在各个场景下的多种类语言互相翻译的离线翻译器。 最后,由于国内对于数据安全保护这方面的法律条文比较稀少,翻译系统和应用产生的大量用户语料数据得不到保护,因此软件付费、数据去中心化、实现数据共享显得尤为紧迫。 1.3.4 行业未来发展趋势 目前,机器翻译在具体应用上一般分为四种,分别是:词典翻译软件、计算机辅助翻译软件、机器翻译软件以及智能硬件。而随着全球化和互联网迅速发展,跨语言的网络资源不断呈几何级数增长,迅速改变着信息传播的方式,也极大地刺激了全球人工智能翻译产业的发展。 总得来说,人工智能翻译的发展将呈现以下趋势:实用化,未来翻译将以商业化发展为主要方向,并且实现离线化、多语言、全局化;去中心化,实现数据共享;网页端向移动端转移,提高使用便捷度;安全化,形成数据保护;垂直领域结合紧密化,形成行业翻译语料数据库;多模态化,产品多模态化能够实现文本、语言、图像全翻译,商业多模态化平台则能够提供给客户定制化的解决方案。未来,将会有越来越多的传统翻译机构转型利用人工智能技术做智能翻译,提高翻译效能降低人工成本。 2. 新译科技 新译科技成立于2014年12月,不断完善自然语言处理技术,聚焦AI文本智能翻译,一直为语言服务、专利、法律、医疗和金融行业服务,构建沟通无障碍服务体系。2017年公司智能翻译产品通过国家科技成果认定,并获得深圳青年技术奖,以及人工智能最高奖——吴文俊人工智能科学技术奖。公司成立以来以国际化的视野为目标,先后成立北京、深圳、新疆和澳门公司,目前公司把智能翻译以软、硬件为承载体,服务于国家“一带一路”多语传播平台建设;为金融、专利、法律、医学等垂直领域提供全球化基础性多语沟通服务;为政府,旅游,会议等服务,并不断完善多语大数据平台。 2.1 新译科技独有的技术支持使翻译更便捷 限定性神经网络机器翻译:限定性神经网络翻译是新译科技自主研发的最新翻译技术,它能够干预输入的句子,然后让底层神经网络的模型参数进行调整,较为准确地还原干预部分的译文表达。 专有翻译引擎:新译科技的智能翻译系统拥有大量数据支持,是基于检索和神经网络的自主翻译引擎,高稳定性的架构可稳定服务全球用户。新译科技的智能翻译能够考虑到个人用户和企业用户对专有翻译引擎的需求,以及对数据安全的顾虑。新译科技搭建的智能翻译系统除了面向通用领域外,也面向主流专业领域:专利、法律、议会报告、电商、医学、航空航天、军事等。 CAT辅助翻译:新译科技提供定制化服务器和云端两个版本供用户选择,用户享受24小时企业级安全保证。受保护的企业帐户拥有灵活的系统管理权限,可按用户、按角色来自定义访问级别。 专业语言检索:新译科技语言服务平台是面向政企及译员,提供全线上多语言翻译系统、语言资产交易和定制智能语言机器人的全综合服务平台。平台从交易的安全便捷、资源共享和智能应用等方面,促进企业和个人对语言多样化需求体验的全面提升。 语音识别、图像识别、问答系统:新译科技拥有智能的垂直语音识别和流畅的语音合成,支持多种主流语言识别;拥有大量图像数据,专注文本识别,深度学习作为底层算法支持。可瞬间识别图像中的文字,结合智能翻译,实现图像瞬时翻译;新译科技的语义分析系统,允许用户以自然语言的形式查询各行业信息,为用户提供准确、简洁的答案。 图示:新译科技在AI领域涉及的技术与应用 来源:36氪研究院根据公开资料整理 2.2  面向B端、G端、C端的软硬件产品体系完整全面 新译科技的B端和G端产品主要是面向大型央企、军工企业、互联网媒体、大数据行业及政府机关等提供软硬件翻译产品。软件产品有定制化机器翻译(限定性神经网络翻译)、辅助翻译系统以及智能翻译插件等。 定制化机器翻译是一个混合神经网络翻译引擎,该技术不仅提高了翻译的速度与准确率,还能统一管理企业语料,给企业特定的数据和管理账号,满足个性化、精细化、专业性的需求,达到保护企业数据隐私和数据安全保护的效果。 辅助翻译系统包含定制化的服务器和云端双重方案,它能够提供与之配套的所有产品,可以抓取互联网端爬不到的企业训练数据,还能借助海外数据,打破局域的限制,打通管理员和译员的两端沟通通道,增进新的功能创新,解决翻译的质量、效率与成本难题。  智能翻译插件包括有办公翻译插件和网页翻译插件,办公翻译插件可以在WPS和office两大办公系统上使用,满足多语言文档的快速转换和阅读;网页翻译插件支持各大浏览器网页翻译,一键转化母语阅读。硬件产品有翻译盒子,可以翻译十几种主流语种,已经实现离线化,可快速浏览翻译文本,减少沟通阻碍。 新译科技的C端产品主要面向大众消费者,包括在线文档翻译、PC端翻译、智译APP以及穿戴式翻译产品耳机和手表。 在线文档翻译支持10种常用格式,支持通用领域、专业领域,价格低、质量高、速度快。 智译APP可实现同传、语音、文本多语智能翻译,应用在旅游、社交、住宿、商务等领域。 图示:新译-智译APP 新译翻译耳机已经在国外上市,包括两只耳机、一个充电盒以及一个专用APP,基于自研的智能算法,可实现实时唤醒耳机,同时判定发言语种,无需手动切换操作,经过初始配置后,用户只需要将另一只耳机分享给对方,即可开展自然、自由的交流。 图示:新译智能翻译耳机 图示:新译科技产品体系   来源:新译科技 2.3  新译科技拥有较强的技术优势和资源 技术优势:四个实验室联合研究,提供前沿技术支持。澳门大学自然语言处理与葡中智能翻译(NLP2CT)实验室、葡萄牙里斯本L2F语音实验室、美国卡耐基梅隆大学LTI实验室的最新的自然语言处理技术、新译-澳大-清华人工智能研究院这四个实验室为新译科技提供技术人才和原创技术;另外,新译科技会将研究课题带到国外实验室共同开发新技术,在拥有更多的知识产权的同时,还能压缩新译科技内部的研发成本。 图示:新译-澳大-清华人工智能研究院 资源优势:首先,企业最初的语料来源于澳门大学提供给创业企业的平行和单语语料库;其次,借助B、G端服务以及军工体系下的自有云服务器上的数据形成大语料资源库。 图示:澳门大学自然语言处理与葡中智能翻译(NLP2CT)实验室 3.商业模式 新译科技的商业模式主要有两种:一种是项目制,项目制就是单一售卖某一种翻译系统,采用一次性买断收费的模式;一种是多模态化形式,提供给客户一个包含所有产品的平台,客户在平台库里选择自己所需要的翻译系统,满足客户各个部门或各个领域所需要的产品形态和专业度,具有定制化和个性化的特点。其直接盈利形式有三种:第一,定制化服务收费,主要是机器翻译、辅助翻译等文本翻译应用层衍生品开发服务;第二,赋能型服务费API,例如机器人、手机端特定的收费项目;第三,自有产品,就是文本翻译和语言翻译衍生品及服务费。 在未来,新译科技还会在以B、G端产品为主的同时,向C端硬件产品延伸,为普通消费者提供多样化的翻译产品。 4. 公司运营战略及数据 新译科技的运营策略主要分产品和品牌两个方向。未来新译科技的产品主要以B、G端软件系统为止,C端硬件为辅,低调布局国外旅游市场,高调布局国内云端产品。现在内部正在搭建运营团队,借B端打造C端线上产品,今年在国内首先由三大运营商带动C端产品销售,通过运营商集中采购,然后作为顾客选购通讯套餐做赠送礼物的方式打开市场。此外,新译科技的产品也将逐渐从描述性语言和非描述语言两方面达到信达雅的境界,新译科技将会从以下四个方面提升翻译水平:提升限定性神经网络翻译技术、增强交互式辅助翻译水平、提高语义翻译的技术、改进自动修正技术提高后编译能力水平。品牌也主要由C端产品的上市来带动。 新译科技的目前拥有30多家央企和政府机构等客户,提供给他们翻译软件系统,此部分收入占全年总收入的70%-80%。去年的总收入达8000万,今年上半年已经实现亿元营收,预计今年利润达1500万。企业盈利能力较强,营收增长速度较快。 数据来源:新译科技 5. 公司团队 新译科技目前拥有近百人的团队,核心技术研发人员主要在清华大学自然语言处理研究中心,澳门团队主要开发机器翻译的各个衍生品,深圳团队做自然语言处理底层设计,北京团队负责前端、产品和销售。 田亮,新译科技CEO,澳门大学博士,主攻自然语言处理机器翻译课题研究,领团队充分利用机器翻译、语义检索、神经网络、语音识别等自然语言处理技术,构建新型的语言生态服务圈,重构新型语言生态商业模式,变革当前翻译行业效率低下和全球沟通不便捷的问题。 关于36氪研究院 36 氪研究院是 36 氪子品牌,专注于一级市场的行业研究,通过定性定量结合的方式研究新兴行业与企业,欢迎大家积极与我们交流讨论。 分析师: 李晓晓  lixiaoxiao@36kr.com   Wechat:15011504594 ; 长期关注教育、 人工智能行业,并关注文娱、消费等热点领域。