小牛开源计划(NiuTrans Open Source,NOS)顺利进行中

李家小猫爷

来自:李家小猫爷(喵呜~)
2018-08-28 16:40:00

×
加入小组后即可参加投票
  • 李家小猫爷

    李家小猫爷 (喵呜~) 楼主 2018-08-29 14:54:58

    #niutrans小牛翻译# 小牛团队一直非常看好人机智能交互的应用前景,基于自然语言理解的语音智能交互,将是人工智能的下一个里程碑工作。 让机器懂得人类语言,将来所有的设备成为智能设备,有能力与人直接进行语音交流,不仅仅是些自动问答,还可以实现语音助手等智能服务。 小牛雅智公司自年初创立以来,依托于东北大学自然语言处理实验室小牛NLP研究团队,专注“小牛大脑”研发计划(NiuBrain),核心思想就是基于自然语言理解技术,结合语音技术,基于小牛云服务,目的为所有的智能设备提供高级智能人机交互服务和语言理解能力,真正实现让机器更懂语言。 该研发计划通过不断的迭代升级优化,永无止境坚持下去,为合作伙伴提供最新研究成果,希望大家合作愉快!

  • 李家小猫爷

    李家小猫爷 (喵呜~) 楼主 2018-09-03 16:11:54

    #niutrans小牛翻译# 伪数据技术是神经机器翻译有效的性能优化技术之一,特别适合于训练数据缺乏和新应用领域迁移的时候。伪数据技术的基本思想是,利用一定规模的单语数据,比如说中文数据,采用机器翻译系统翻译成英文,这就完成伪数据的自动构造,简单来说就是假的双语数据。利用伪数据去训练,有可能改善神经机器翻译系统的翻译品质。但是在实际应用过程中,还有一些问题没有得到很好的解答,值得进一步的思考。比如,如何选择单语数据来完成伪数据的自动构造呢?在训练的过程中真实的数据和伪数据的比例多少为合适呢?伪数据的权重该怎么设置呢?等等,对最终的效果都是有影响的,值得进一步探讨。

    小牛翻译现在比较关心的是一些技术如何落地的问题,在学术界经常被称为工程问题,不一定能写出很高水平的研究论文,所以往往被研究人员忽略,但是这些问题决定了小牛翻译的品质。机器翻译,性能为王,用户只关心最后的翻译效果,不关心是怎么做的。

  • 李家小猫爷

    李家小猫爷 (喵呜~) 楼主 2018-09-03 16:12:12

    #niutrans小牛翻译# 相对于统计机器翻译而言,神经机器翻译有一个优势就是增量式训练,适合解决领域迁移和领域自适应的问题。比如想把一个通用的机器翻译系统,采用一部分专利领域的数据,利用增量式训练的技术,改善这套系统在专利领域的翻译品质,而不用重新训练整套系统。增量式训练简单效率高。但如何保证增量式训练不会损害系统的品质,能够达到或接近类似全部重新训练的效果。在实际应用过程中,我们到底是采用增量式训练的,还是采用全部重新训练的方法,来提高系统的品质,这个问题好像一直没有给出准确的答案,值得进一步探讨。

    简单来说,什么情况下我们可以采用增量式训练?什么情况下我们应该采用全部重新训练?

  • 李家小猫爷

    李家小猫爷 (喵呜~) 楼主 2018-09-06 14:54:30

    #niutrans小牛翻译#小牛翻译开放平台2.0 正式版计划于9月14号正式上线。欢迎感兴趣的朋友参与测试,并通过平台提供宝贵的修改意见。所提的意见一旦被平台正式采纳,小牛团队将为被采纳人在平台上注册的账号提供一定的积分,该积分可以直接代替现金购买平台上的具体服务,作为奖励。 测试开放时间截止在9月12号之前,小牛翻译开放平台2.0测试版开放网址(建议采用pc机浏览器): https://developer.niutrans.vip/ 小牛翻译所支持的112个语种翻译引擎正在不断上线到开放平台中,预计在一个月之内全部上线完毕,敬请期待

你的回复

回复请先 , 或 注册

14705 人聚集在这个小组
↑回顶部