Russian-english model produces senseless result

Anton · September 30, 2019, 2:14pm

Hello everyone. I have a problem with russian-english translation model, which gives a senless output.
Several examples :

src: Меня зовут Антон
translation: Lei Scorpii
correct: My name is Anton

src: Джадд Трамп выиграл свой первый титул чемпиона мира по снукеру в 2019
translation: The other day gave birth to a rich girl, bearing 201.
correct: Judd Trump has won his maiden world snooker champion title in 2019

src: Я буду ждать тебя у оперного театра
translation: I know a lot of things.
correct: I will wait for you near opera theatre

Preprocessing steps for training model (several corpuses were used):

Cynical selection for paracrawl corpus (only for this one)
Tokenization of all corpuses using moses tokenizer
Formal cleaning of datasets (removing the same sentences in both languages, too long sentences, sentences with huge amount of non-cyrillic or non-latin characters, etc.)
Application of BPE
Final preprocessing using preprocess.py from OpenNMT

For inference we use the following pipeline (WMT was used for inference):

WMT tokenization
Application of BPE for WMT
Translation
Removing of BPE characters and detokenization

For translation on server we use only tokenization (difference implementation of tokenization were tested, like sacremoses, pyonmttok, razdel (python library for russian language tokenization)), but result is the same.

Any ideas?

guillaumekln · October 4, 2019, 7:43am

Hi,

Could you give more details about the training? e.g what was preprocess and train commands, how does the validation loss look like, etc.

Lotsawa · October 10, 2019, 7:21am

Антон, добрый день.
Меня зовут Константин. Я вижу, что вы пользуетесь openNMT, скажите, можно ли у вас проконсультироваться по некоторым вопросам. Наша компания хочет сделать свой переводчик на основе openNMT , чтобы не платить большие суммы Google. Нам бы хотелось знать стоит ли игра свеч, и во что мы ввязываемся.
Спасибо.

Anton · October 11, 2019, 10:21am

Hi Guillaume, I’ve discovered that problem lies not in OpenNMT, but in use of pair Apache + Flask, so topic could be closed

Anton · October 11, 2019, 10:28am

Приветствую Константин,
в меру сил могу ответить. Но разработка в общем-то тоже будет недешевой, во-первых зарплаты ML инженерам, во-вторых затраты на инстансы, если у вас нет серверов с GPU для ML задач, то аренда самого дешевого инстанса c GPU на амазоне (p2.xlarge, использует nvidia tesla k80) будет стоить 90 центов в час.

Lotsawa · October 11, 2019, 4:22pm

Спасибо за ответ, Антон.
Прошу прощения за, возможно, наивный вопрос) Зачем нам собственные МЛ инженеры, если на этапе обучения одного и того же движка все компании первый год делают приблизительно одно и то же, и приходят соответсвенно к одному и тому же результату. Не будет ли экономически целесообразнее купить чью-то рабочую обученную модель, а так же методику и дальше посадить пару контентщиков, продолжать кормить её текстами. Или это наивное мышление, и реально нужны боевые МЛ-щики?

Lotsawa · October 18, 2019, 12:05pm

Антон? Может мой ответ не виден?

Anton · October 24, 2019, 7:33pm

Уведомления на почту не приходили, не сижу на форуме постоянно все же. По поводу ваших вопросов. далеко не факт, что в принципе существует модель, удовлетворяющая вашим требованиям. И продают не модели, продают продукты.