About Unknown Words

Hi,
I recently encountered a problem when using OpenNMT. I trained a character-level Japanese-Chinese nmt model, the vocabulary size was set as 30000 (actually 4200 and 6000 in training data, respectively) during the pre-processing. Then I accidentally input word-level test-data to translate, not the character-level test-data. I think the test-result should be very many Unknown Words, but it doesn’t, it has no Unknown Words, just a lot of wrong translations at character-level. I didn’t use the option -replace_unk.

Can anyone answer?
Or have encountered this question?

Thanks.

I use the opennmt-lua version.

Hi,

It seems your vocabulary has full coverage over the training data and so your model did not learn how to handle unknown words.

Thank you for your kind reply.
Yes, it should be the same as what you wrote.

Here is part of the translation log:

[05/30/19 22:15:39 INFO] SENT 2100: 我们 认为 , 作为 检索 结果 的 视频剪辑 一个个 时间 都 较 短 , 有 可能 进行 大量 的 检索 。

[05/30/19 22:15:39 INFO] PRED 2100: こ れ に よ り , プ レ ー ナ ー の メ デ ィ ア は も っ と も 短 く , メ ー カ ー が あ る 。

[05/30/19 22:15:39 INFO] PRED SCORE: -43.85

[05/30/19 22:15:39 INFO]

[05/30/19 22:15:41 INFO] SENT 2101: 因此 , 有 必要 在 节省 博物馆 研究员 从 检索 结果 名单 逐一 选择 并 播放 视频剪辑 的 时间 , 有效 地 进行 观看 方面 下工夫 。

[05/30/19 22:15:41 INFO] PRED 2101: こ れ に よ り , エ レ メ ー ド で は , プ レ ー ヤ ー に よ る メ ー ル ア ー カ ー に よ る も の で あ り , ア バ タ ー で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -64.08

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2102: 此外 , 在 使用 视频 的 展示 等 中 , 由于 博物馆 研究员 并 不是 总在 当场 进行 解说 , 因此 要 考虑 自动 重复 视频剪辑 与 解说 信息 的 流程 结构 。

[05/30/19 22:15:41 INFO] PRED 2102: さ ら に , メ モ リ ン グ な ど に お い て は , メ モ リ ア プ レ ー シ ョ ン で は , メ デ ィ エ ー ジ ェ ン ジ ャ ー , メ デ ィ ア に お い て , メ デ ィ エ ー ジ ェ ン ジ ャ ー に お い て , プ レ イ ヤ ー ド で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -98.32

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2103: 因此 , 在 本 研究 中 , 通过 将 检索 到 的 内容 进行 同步 连续 播放 , 就 能 解决 这些 问题 。

[05/30/19 22:15:41 INFO] PRED 2103: さ ら に , 本 稿 で は , こ れ ま で の メ デ ィ エ ー ジ ェ ン チ ャ ー を 行 う こ と に よ り , エ ネ ル ギ ー に よ る .

[05/30/19 22:15:41 INFO] PRED SCORE: -46.45

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2104: 同步 连续 播放 , 指 的 是 将 被 检索 到 的 视频剪辑 与其 附带 的 解说 信息 、 关联 内容 进行 声画 合成 , 同时 不间断 地 进行 连续 播放 ( 图 6 ) 。

[05/30/19 22:15:41 INFO] PRED 2104: プ レ イ ヤ ー ド で は , さ ら に さ ら に さ れ た エ レ ベ ー ジ を 指 し て い る メ モ リ , メ デ ィ ア メ ト リ ウ ム を 指 す ( 図 6 ) 。

[05/30/19 22:15:41 INFO] PRED SCORE: -63.46

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2105: 根据 同步 连续 播放 , 能够 将 检索 到 的 全部 视频剪辑 进行 总览 , 并且 能够 有效 地 对 检索 结果 进行 视听 。

[05/30/19 22:15:41 INFO] PRED 2105: ア プ レ ー シ ョ ン で は , こ れ ま で の メ デ ィ ア ー キ ン グ を 行 う こ と に よ っ て , メ ー ル ア ー カ ー に お い て , メ モ リ ン グ に 対 し て , こ れ に 対 す る .

[05/30/19 22:15:41 INFO] PRED SCORE: -88.11

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2106: 此外 , 由于 根据 同步 连续 播放 , 被 检索 到 的 视频剪辑 被 结合 到 了 一起 , 因此 能够 制作 符合 解说 题目 的 原创 视频 。

[05/30/19 22:15:41 INFO] PRED 2106: こ れ に よ り , メ デ ィ エ ー ジ ョ ン は , 被 覆 さ れ て い た も の が , ま た , メ デ ィ ア レ メ ー ド に よ る も の で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -60.17

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] Translated 59183 words, src unk count: 32275, coverage: 54.5%, tgt words: 109591 words, tgt unk count: 0, coverage: 0%,

[05/30/19 22:15:41 INFO] PRED AVG SCORE: -1.24, PRED PPL: 3.45

The Chinese words usually have one or two characters, so that the src unk coverage: 54.5% that make sense. But with this coverage, the tgt words have 0 unk counts.

And here is some logs in word-level:

[05/20/19 15:34:41 INFO] SENT 2100: 我们 认为 , 作为 检索 结果 的 视频剪辑 一个个 时间 都 较 短 , 有 可能 进行 大量 的 检索 。

[05/20/19 15:34:41 INFO] PRED 2100: 我々 は , 検索 結果 として の ビデオ クリップ 1つ ずつ 時間 が 短く , 大量 の 検索 を 可能 に する と 考え られる .

[05/20/19 15:34:41 INFO] PRED SCORE: -11.80

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2101: 因此 , 有 必要 在 节省 博物馆 研究员 从 检索 结果 名单 逐一 选择 并 播放 视频剪辑 的 时间 , 有效 地 进行 观看 方面 下工夫 。

[05/20/19 15:34:41 INFO] PRED 2101: そこで , 学芸 員 の 省 で 検索 結果 から 逐一 ビデオ クリップ を 選択 し 再生 する 時間 を 選択 し , 効果 的 に 見る 工夫 を 行う 必要 が ある .

[05/20/19 15:34:41 INFO] PRED SCORE: -13.49

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2102: 此外 , 在 使用 视频 的 展示 等 中 , 由于 博物馆 研究员 并 不是 总在 当场 进行 解说 , 因此 要 考虑 自动 重复 视频剪辑 与 解说 信息 的 流程 结构 。

[05/20/19 15:34:41 INFO] PRED 2102: また , ビデオ を 用い た 展示 など で は , 学芸 員 が その 場 で 解説 する の で は ない ため , 自動的 に ビデオ クリップ や 解説 情報 の 流れ 構造 を 繰り返す .

[05/20/19 15:34:41 INFO] PRED SCORE: -13.18

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2103: 因此 , 在 本 研究 中 , 通过 将 检索 到 的 内容 进行 同步 连续 播放 , 就 能 解决 这些 问题 。

[05/20/19 15:34:41 INFO] PRED 2103: そこで 本 研究 で は , 検索 さ れ た コンテンツ を 同期 連続 再生 する こと により , これら の 問題 を 解決 する .

[05/20/19 15:34:41 INFO] PRED SCORE: -7.07

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2104: 同步 连续 播放 , 指 的 是 将 被 检索 到 的 视频剪辑 与其 附带 的 解说 信息 、 关联 内容 进行 声画 合成 , 同时 不间断 地 进行 连续 播放 ( 图 6 ) 。

[05/20/19 15:34:41 INFO] PRED 2104: 同期 連続 再生 と は , 検索 さ れ た ビデオ クリップ と それ に 付随 する 解説 情報 , 関連 コンテンツ を <unk> 合成 し , 同時に 途切れ ず に 連続 的 に 放送 さ れる ( 図 6 ) .

[05/20/19 15:34:41 INFO] PRED SCORE: -14.76

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2105: 根据 同步 连续 播放 , 能够 将 检索 到 的 全部 视频剪辑 进行 总览 , 并且 能够 有效 地 对 检索 结果 进行 视听 。

[05/20/19 15:34:41 INFO] PRED 2105: 同期 連続 再生 により , 検索 さ れ た 全 ビデオ クリップ を 一覧 する こと が でき , 検索 結果 に対する 視聴 が 有効 に 行える .

[05/20/19 15:34:41 INFO] PRED SCORE: -10.09

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2106: 此外 , 由于 根据 同步 连续 播放 , 被 检索 到 的 视频剪辑 被 结合 到 了 一起 , 因此 能够 制作 符合 解说 题目 的 原创 视频 。

[05/20/19 15:34:41 INFO] PRED 2106: また , 同期 連続 再生 により , 検索 さ れ た ビデオ クリップ が 結合 さ れ て いる ため , 解説 テーマ に 合っ た オリジナル ビデオ を 作成 できる .

[05/20/19 15:34:41 INFO] PRED SCORE: -8.42

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] Translated 59183 words, src unk count: 1974, coverage: 3.3%, tgt words: 69362 words, tgt unk count: 1825, coverage: 2.6%,

[05/20/19 15:34:41 INFO] PRED AVG SCORE: -0.34, PRED PPL: 1.40

We can see <unk> in PERD 2104. There are 3.3% src and 2.6% tgt unk counts that make sense.