About Unknown Words

renzhe0009 · May 30, 2019, 9:49am

Hi，
I recently encountered a problem when using OpenNMT. I trained a character-level Japanese-Chinese nmt model, the vocabulary size was set as 30000 (actually 4200 and 6000 in training data, respectively) during the pre-processing. Then I accidentally input word-level test-data to translate, not the character-level test-data. I think the test-result should be very many Unknown Words, but it doesn’t, it has no Unknown Words, just a lot of wrong translations at character-level. I didn’t use the option -replace_unk.

Can anyone answer?
Or have encountered this question?

Thanks.

renzhe0009 · May 30, 2019, 9:50am

I use the opennmt-lua version.

guillaumekln · May 30, 2019, 12:18pm

Hi,

It seems your vocabulary has full coverage over the training data and so your model did not learn how to handle unknown words.

renzhe0009 · May 30, 2019, 1:55pm

Thank you for your kind reply.
Yes, it should be the same as what you wrote.

Here is part of the translation log:

[05/30/19 22:15:39 INFO] SENT 2100: 我们 认为 ， 作为 检索 结果 的 视频剪辑 一个个 时间 都 较 短 ， 有 可能 进行 大量 的 检索 。

[05/30/19 22:15:39 INFO] PRED 2100: こ れ に よ り ， プ レ ー ナ ー の メ デ ィ ア は も っ と も 短 く ， メ ー カ ー が あ る 。

[05/30/19 22:15:39 INFO] PRED SCORE: -43.85

[05/30/19 22:15:39 INFO]

[05/30/19 22:15:41 INFO] SENT 2101: 因此 ， 有 必要 在 节省 博物馆 研究员 从 检索 结果 名单 逐一 选择 并 播放 视频剪辑 的 时间 ， 有效 地 进行 观看 方面 下工夫 。

[05/30/19 22:15:41 INFO] PRED 2101: こ れ に よ り ， エ レ メ ー ド で は ， プ レ ー ヤ ー に よ る メ ー ル ア ー カ ー に よ る も の で あ り ， ア バ タ ー で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -64.08

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2102: 此外 ， 在 使用 视频 的 展示 等 中 ， 由于 博物馆 研究员 并 不是 总在 当场 进行 解说 ， 因此 要 考虑 自动 重复 视频剪辑 与 解说 信息 的 流程 结构 。

[05/30/19 22:15:41 INFO] PRED 2102: さ ら に ， メ モ リ ン グ な ど に お い て は ， メ モ リ ア プ レ ー シ ョ ン で は ， メ デ ィ エ ー ジ ェ ン ジ ャ ー ， メ デ ィ ア に お い て ， メ デ ィ エ ー ジ ェ ン ジ ャ ー に お い て ， プ レ イ ヤ ー ド で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -98.32

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2103: 因此 ， 在 本 研究 中 ， 通过 将 检索 到 的 内容 进行 同步 连续 播放 ， 就 能 解决 这些 问题 。

[05/30/19 22:15:41 INFO] PRED 2103: さ ら に ， 本 稿 で は ， こ れ ま で の メ デ ィ エ ー ジ ェ ン チ ャ ー を 行 う こ と に よ り ， エ ネ ル ギ ー に よ る ．

[05/30/19 22:15:41 INFO] PRED SCORE: -46.45

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2104: 同步 连续 播放 ， 指 的 是 将 被 检索 到 的 视频剪辑 与其 附带 的 解说 信息 、 关联 内容 进行 声画 合成 ， 同时 不间断 地 进行 连续 播放 （ 图 ６ ） 。

[05/30/19 22:15:41 INFO] PRED 2104: プ レ イ ヤ ー ド で は ， さ ら に さ ら に さ れ た エ レ ベ ー ジ を 指 し て い る メ モ リ ， メ デ ィ ア メ ト リ ウ ム を 指 す （ 図 ６ ） 。

[05/30/19 22:15:41 INFO] PRED SCORE: -63.46

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2105: 根据 同步 连续 播放 ， 能够 将 检索 到 的 全部 视频剪辑 进行 总览 ， 并且 能够 有效 地 对 检索 结果 进行 视听 。

[05/30/19 22:15:41 INFO] PRED 2105: ア プ レ ー シ ョ ン で は ， こ れ ま で の メ デ ィ ア ー キ ン グ を 行 う こ と に よ っ て ， メ ー ル ア ー カ ー に お い て ， メ モ リ ン グ に 対 し て ， こ れ に 対 す る ．

[05/30/19 22:15:41 INFO] PRED SCORE: -88.11

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] SENT 2106: 此外 ， 由于 根据 同步 连续 播放 ， 被 检索 到 的 视频剪辑 被 结合 到 了 一起 ， 因此 能够 制作 符合 解说 题目 的 原创 视频 。

[05/30/19 22:15:41 INFO] PRED 2106: こ れ に よ り ， メ デ ィ エ ー ジ ョ ン は ， 被 覆 さ れ て い た も の が ， ま た ， メ デ ィ ア レ メ ー ド に よ る も の で あ る 。

[05/30/19 22:15:41 INFO] PRED SCORE: -60.17

[05/30/19 22:15:41 INFO]

[05/30/19 22:15:41 INFO] Translated 59183 words, src unk count: 32275, coverage: 54.5%, tgt words: 109591 words, tgt unk count: 0, coverage: 0%,

[05/30/19 22:15:41 INFO] PRED AVG SCORE: -1.24, PRED PPL: 3.45

The Chinese words usually have one or two characters, so that the src unk coverage: 54.5% that make sense. But with this coverage, the tgt words have 0 unk counts.

And here is some logs in word-level:

[05/20/19 15:34:41 INFO] SENT 2100: 我们 认为 ， 作为 检索 结果 的 视频剪辑 一个个 时间 都 较 短 ， 有 可能 进行 大量 的 检索 。

[05/20/19 15:34:41 INFO] PRED 2100: 我々 は ， 検索 結果 として の ビデオ クリップ １つ ずつ 時間 が 短く ， 大量 の 検索 を 可能 に する と 考え られる ．

[05/20/19 15:34:41 INFO] PRED SCORE: -11.80

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2101: 因此 ， 有 必要 在 节省 博物馆 研究员 从 检索 结果 名单 逐一 选择 并 播放 视频剪辑 的 时间 ， 有效 地 进行 观看 方面 下工夫 。

[05/20/19 15:34:41 INFO] PRED 2101: そこで ， 学芸 員 の 省 で 検索 結果 から 逐一 ビデオ クリップ を 選択 し 再生 する 時間 を 選択 し ， 効果 的 に 見る 工夫 を 行う 必要 が ある ．

[05/20/19 15:34:41 INFO] PRED SCORE: -13.49

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2102: 此外 ， 在 使用 视频 的 展示 等 中 ， 由于 博物馆 研究员 并 不是 总在 当场 进行 解说 ， 因此 要 考虑 自动 重复 视频剪辑 与 解说 信息 的 流程 结构 。

[05/20/19 15:34:41 INFO] PRED 2102: また ， ビデオ を 用い た 展示 など で は ， 学芸 員 が その 場 で 解説 する の で は ない ため ， 自動的 に ビデオ クリップ や 解説 情報 の 流れ 構造 を 繰り返す ．

[05/20/19 15:34:41 INFO] PRED SCORE: -13.18

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2103: 因此 ， 在 本 研究 中 ， 通过 将 检索 到 的 内容 进行 同步 连续 播放 ， 就 能 解决 这些 问题 。

[05/20/19 15:34:41 INFO] PRED 2103: そこで 本 研究 で は ， 検索 さ れ た コンテンツ を 同期 連続 再生 する こと により ， これら の 問題 を 解決 する ．

[05/20/19 15:34:41 INFO] PRED SCORE: -7.07

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2104: 同步 连续 播放 ， 指 的 是 将 被 检索 到 的 视频剪辑 与其 附带 的 解说 信息 、 关联 内容 进行 声画 合成 ， 同时 不间断 地 进行 连续 播放 （ 图 ６ ） 。

[05/20/19 15:34:41 INFO] PRED 2104: 同期 連続 再生 と は ， 検索 さ れ た ビデオ クリップ と それ に 付随 する 解説 情報 ， 関連 コンテンツ を <unk> 合成 し ， 同時に 途切れ ず に 連続 的 に 放送 さ れる （ 図 ６ ） ．

[05/20/19 15:34:41 INFO] PRED SCORE: -14.76

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2105: 根据 同步 连续 播放 ， 能够 将 检索 到 的 全部 视频剪辑 进行 总览 ， 并且 能够 有效 地 对 检索 结果 进行 视听 。

[05/20/19 15:34:41 INFO] PRED 2105: 同期 連続 再生 により ， 検索 さ れ た 全 ビデオ クリップ を 一覧 する こと が でき ， 検索 結果 に対する 視聴 が 有効 に 行える ．

[05/20/19 15:34:41 INFO] PRED SCORE: -10.09

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] SENT 2106: 此外 ， 由于 根据 同步 连续 播放 ， 被 检索 到 的 视频剪辑 被 结合 到 了 一起 ， 因此 能够 制作 符合 解说 题目 的 原创 视频 。

[05/20/19 15:34:41 INFO] PRED 2106: また ， 同期 連続 再生 により ， 検索 さ れ た ビデオ クリップ が 結合 さ れ て いる ため ， 解説 テーマ に 合っ た オリジナル ビデオ を 作成 できる ．

[05/20/19 15:34:41 INFO] PRED SCORE: -8.42

[05/20/19 15:34:41 INFO]

[05/20/19 15:34:41 INFO] Translated 59183 words, src unk count: 1974, coverage: 3.3%, tgt words: 69362 words, tgt unk count: 1825, coverage: 2.6%,

[05/20/19 15:34:41 INFO] PRED AVG SCORE: -0.34, PRED PPL: 1.40

We can see <unk> in PERD 2104. There are 3.3% src and 2.6% tgt unk counts that make sense.