Russian-english model produces senseless result

Hello everyone. I have a problem with russian-english translation model, which gives a senless output.
Several examples :

src: Меня зовут Антон
translation: Lei Scorpii
correct: My name is Anton

src: Джадд Трамп выиграл свой первый титул чемпиона мира по снукеру в 2019
translation: The other day gave birth to a rich girl, bearing 201.
correct: Judd Trump has won his maiden world snooker champion title in 2019

src: Я буду ждать тебя у оперного театра
translation: I know a lot of things.
correct: I will wait for you near opera theatre

Preprocessing steps for training model (several corpuses were used):

  1. Cynical selection for paracrawl corpus (only for this one)
  2. Tokenization of all corpuses using moses tokenizer
  3. Formal cleaning of datasets (removing the same sentences in both languages, too long sentences, sentences with huge amount of non-cyrillic or non-latin characters, etc.)
  4. Application of BPE
  5. Final preprocessing using preprocess.py from OpenNMT

For inference we use the following pipeline (WMT was used for inference):

  1. WMT tokenization
  2. Application of BPE for WMT
  3. Translation
  4. Removing of BPE characters and detokenization

For translation on server we use only tokenization (difference implementation of tokenization were tested, like sacremoses, pyonmttok, razdel (python library for russian language tokenization)), but result is the same.

Any ideas?

Hi,

Could you give more details about the training? e.g what was preprocess and train commands, how does the validation loss look like, etc.

Антон, добрый день.
Меня зовут Константин. Я вижу, что вы пользуетесь openNMT, скажите, можно ли у вас проконсультироваться по некоторым вопросам. Наша компания хочет сделать свой переводчик на основе openNMT , чтобы не платить большие суммы Google. Нам бы хотелось знать стоит ли игра свеч, и во что мы ввязываемся.
Спасибо.

Hi Guillaume, I’ve discovered that problem lies not in OpenNMT, but in use of pair Apache + Flask, so topic could be closed

Приветствую Константин,
в меру сил могу ответить. Но разработка в общем-то тоже будет недешевой, во-первых зарплаты ML инженерам, во-вторых затраты на инстансы, если у вас нет серверов с GPU для ML задач, то аренда самого дешевого инстанса c GPU на амазоне (p2.xlarge, использует nvidia tesla k80) будет стоить 90 центов в час.

1 Like

Спасибо за ответ, Антон.
Прошу прощения за, возможно, наивный вопрос) Зачем нам собственные МЛ инженеры, если на этапе обучения одного и того же движка все компании первый год делают приблизительно одно и то же, и приходят соответсвенно к одному и тому же результату. Не будет ли экономически целесообразнее купить чью-то рабочую обученную модель, а так же методику и дальше посадить пару контентщиков, продолжать кормить её текстами. Или это наивное мышление, и реально нужны боевые МЛ-щики?

Антон? Может мой ответ не виден?

Уведомления на почту не приходили, не сижу на форуме постоянно все же. По поводу ваших вопросов. далеко не факт, что в принципе существует модель, удовлетворяющая вашим требованиям. И продают не модели, продают продукты.