Hello everyone. I have a problem with russian-english translation model, which gives a senless output.
Several examples :
src: Меня зовут Антон
translation: Lei Scorpii
correct: My name is Anton
src: Джадд Трамп выиграл свой первый титул чемпиона мира по снукеру в 2019
translation: The other day gave birth to a rich girl, bearing 201.
correct: Judd Trump has won his maiden world snooker champion title in 2019
src: Я буду ждать тебя у оперного театра
translation: I know a lot of things.
correct: I will wait for you near opera theatre
Preprocessing steps for training model (several corpuses were used):
Cynical selection for paracrawl corpus (only for this one)
Tokenization of all corpuses using moses tokenizer
Formal cleaning of datasets (removing the same sentences in both languages, too long sentences, sentences with huge amount of non-cyrillic or non-latin characters, etc.)
Application of BPE
Final preprocessing using preprocess.py from OpenNMT
For inference we use the following pipeline (WMT was used for inference):
WMT tokenization
Application of BPE for WMT
Translation
Removing of BPE characters and detokenization
For translation on server we use only tokenization (difference implementation of tokenization were tested, like sacremoses, pyonmttok, razdel (python library for russian language tokenization)), but result is the same.
Антон, добрый день.
Меня зовут Константин. Я вижу, что вы пользуетесь openNMT, скажите, можно ли у вас проконсультироваться по некоторым вопросам. Наша компания хочет сделать свой переводчик на основе openNMT , чтобы не платить большие суммы Google. Нам бы хотелось знать стоит ли игра свеч, и во что мы ввязываемся.
Спасибо.
Приветствую Константин,
в меру сил могу ответить. Но разработка в общем-то тоже будет недешевой, во-первых зарплаты ML инженерам, во-вторых затраты на инстансы, если у вас нет серверов с GPU для ML задач, то аренда самого дешевого инстанса c GPU на амазоне (p2.xlarge, использует nvidia tesla k80) будет стоить 90 центов в час.
Спасибо за ответ, Антон.
Прошу прощения за, возможно, наивный вопрос) Зачем нам собственные МЛ инженеры, если на этапе обучения одного и того же движка все компании первый год делают приблизительно одно и то же, и приходят соответсвенно к одному и тому же результату. Не будет ли экономически целесообразнее купить чью-то рабочую обученную модель, а так же методику и дальше посадить пару контентщиков, продолжать кормить её текстами. Или это наивное мышление, и реально нужны боевые МЛ-щики?
Уведомления на почту не приходили, не сижу на форуме постоянно все же. По поводу ваших вопросов. далеко не факт, что в принципе существует модель, удовлетворяющая вашим требованиям. И продают не модели, продают продукты.