Hello, thank you so much for such a great open-source codebase for NMT.
I am trying to train a phonemes to grapheme (text) system using OpenNMT-py. The system works great. But it output < unks > a lot of time.
Isn’t possible to output closet possible word, instead of generating < unks>?
=====================================================================
Example1:
SRC (phonemes separated by space): g a ɪ c t s a ɪ t ɪ c m ʏ s n v i ɐ l e ː b ɛ n s m ɪ t e l ɪ m p ɔ ɾ t ə ʔ i ː n g ɾ ɔ s z e m ʔ ʊ m ʏ ŋ f ɔ n ʃ t a ː ɐ n ʔ a o s ʃ ɛ ɾ a l p ː ɐ ɔ ʊ b ə i ː ə n
TGT (words): gleichzeitig müssen wir lebensmittelimporte in grossem umfang von staaten ausserhalb der eu beziehen
Models Ouput: gleichzeitig müssen wir < unk > in grossem umfang von staaten ausserhalb der eu beziehen
=====================================================================
Example2:
SRC (phonemes separated by space): p ɔ k n e d ɪ ɡ ə h ɛ ʀ ə s p ʀ a ʁ ɡ e ɡ ɔ j a ɡ ɔ h a t a ɪ n ə z ɔ l x ə ɛ ə ʃ a ɪ ə n ʊ ŋ k ɡ e z e ə n
TGT (words): o gnädiger herr sprach diego jago hat eine solche erscheinung gesehn
Model’s Ouput: < unk > herr < unk > < unk > gegen < unk > < unk > hat eine solche < unk > < unk >
=====================================================================