Weird translation result, when try to build a short-conversation model

Hello, I am really confused with my translation result from my model.
I am trying to reproduced the result from the papar:Neural Responding Machine for Short-Text Conversation

And I tried with the weibo data refered in the paper, I tried first with a two-layer model,with config like this:
rnn_size = 1000
word_vec_size = 620
rnn_type = GRU

And I tried the model after 12 epch training,and the translation result down below is really wired:
[04/05/17 14:40:41 INFO] SENT 85: 卷福 , 你 够 了 《 神探夏 洛克 》 第三 季 片 场 。 转
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-7.39] !
[04/05/17 14:40:41 INFO] [-7.69] 。
[04/05/17 14:40:41 INFO] [-12.37] , 个
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] SENT 86: 上课 干过 这 事 的 童鞋 举手 !
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-7.16] !
[04/05/17 14:40:41 INFO] [-7.18] 。
[04/05/17 14:40:41 INFO] [-12.69] , 是
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] SENT 87: 以退为进 , 奋斗 不息 。 不 多 说 , 都 明白 。 各位 , 辛苦 。
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-6.70] !
[04/05/17 14:40:41 INFO] [-7.00] 。
[04/05/17 14:40:41 INFO] [-11.66] , 个
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] SENT 88: 阿狸 周边 雨伞 杯子 棒球帽 新品 上市 咯 alink
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-6.23] !
[04/05/17 14:40:41 INFO] [-6.52] 。
[04/05/17 14:40:41 INFO] [-12.63] 我 是 是
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] SENT 89: 有 多少 人 以 友谊 的 名义 , 爱 一 个 人 。
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-6.97] !
[04/05/17 14:40:41 INFO] [-7.26] 。
[04/05/17 14:40:41 INFO] [-11.80] , 个
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] SENT 90: 莫 愁 老师 也许 是 没有 自称 父母 双亡 走到 现在 的 唯一 一 个 选手 。
[04/05/17 14:40:41 INFO]
[04/05/17 14:40:41 INFO] BEST HYP:
[04/05/17 14:40:41 INFO] [-6.97] !
[04/05/17 14:40:41 INFO] [-7.24] 。
[04/05/17 14:40:41 INFO] [-12.05] , 个

It seems that all the translation prediction is all the same ,so similar ,and of course this is not what i want it .
It seems that this kind of thing always happens when training sequence to sequence model,

Anyone saw this kind of result before? Please help! Thanks!

How many sentences are in this dataset? Also, what is the final validation perplexity?

there are 4430000 sentence in the dataset ,and final perplexity is 483.14, I am runing to epoch 11, and learning rate is 0.0039 now ,more training seems not helping reduce the perlexity.

This is a high perplexity. Could you share all the options you used?

My config is here:
rnn_size = 1000
word_vec_size = 620
rnn_type = GRU
and the other options are default
I wonder if this model is not well trained, but this is already the 11th epch ,and learning rate is so small now.

There is perhaps some thing wrong with your training sets. Can you share the 20 first lines of your input prepared files as an example ?

sure , what i am trying to do is to build a chinese short converstation model(from post to response),so my examples are chinese,tokenized, and splited by blank space.

here is examples:
---------------post examples------------
中国 移动 营销 行来 发展 报告 alink
小马 也 疯狂 ------ 地位 之 争 。
那些 年 , 我们 一起 偷看 过 的 电视 。 「 暴 走 漫画 」
北京 的 小 纯洁们 , 周日见 。 # 硬汉 摆 拍 清纯 照 #
要是 这 一 年 哭泣 的 理由 不 再 是 难过 而 是 感动 会 多么 好
对于 国内 动漫 画作者 引用 工笔 素材 的 一些 个人 意见 。
猫咪 保镖 最 赞 了 ! 你们 看懂 了 吗 ? ! ( 来自 : 9gag )
莫愁 和 所有 人 开 了 一 个 玩笑 —— 其实 , 她 是 会 正常 唱歌 的 … …
你 见 过 皮卡丘 喝水 的 样子 吗 ?
如果 有 个 人 能 让 你 忘掉 过去 , 那TA 很 可能 就是 你 的 未来 。
我 在 北京 , 24 岁 , 想 去 马尔代夫 , 一 个 人 。
哥 你 还 跳 不 跳楼 了 ? 我们 要 下班 啊 !
龙 生 龙 , 凤 生 凤 , 是 个 喵咪 它 就萌 。
从 胚胎 期 开始 的 面部 特征 演变 过程
本 届 轮值 主席 王石致 开幕词 。 讲 60 岁 上 哈佛 。
非常 不 喜欢 北京 现在 的 天气 … … 非常 … …
我 第一 次 坐 飞机 是 进 安达 信 的 入职 培训 , 在 深圳 。 你们 哪 ?
人生 如 戏 , 全 靠 演技 。 小 受 吓坏 了 。
为什么 这 世上 会 有 人 以 刁难 他人 为乐 呢 ?
算了 算了 , 我 看出来 了 , 你们 都 想 看 男人 ! 上 张 美 男图 。

----------------response examples------------------
王 大姐 , 打字 细心 一点
于 老师 不 给 劝劝 架么 告诉 他们 再 挣 也 不 是 老大
真不愧是 这么 走 出来 的 爹·······
嗷嗷 大 湿的 左手 在 干嘛 , 看 着 小 纯洁 撸么 。
我 已经 快 感动 得 哭了 。
( ノ´∀ ` * ) ノ 大师 说 的 好 ! 各 种 长 知识 了
喵喵 保镖 抢镜了哟 。
说 是 会 咳嗽 就 会 唱歌 。 她 的 问题 是 一 咳嗽 猫 都 跑 。
小 日本 的 东西 再 好 都烦
····关键 是 那人 是否 忘记 他 的 过去 。
我 在 太原 , 24 岁 , 想 去 捷克 , 两 个 人 。
我 想 说 很多 这样 的 人 其实 不 是 想 跳楼 的 。
微信都 加了 , 说好 的 8.20 呢 !
自然 生理 变化 中 的 面部 演化 过程
任总 , 再 有 这 机会 带 我 去 呗
我 也 不 喜欢 那 种 又 冷 又 下雨 的 天气 了 !
去 帝都 游乐园 玩 。 那 时候 20 块 进去 随便 玩
人生 如 戏 , 全 靠 演技 。
因为 他们 没 钱 买 可乐
多 放 点 男模 的 照片 看看

Could you try a training with LSTM instead of GRU to see if it makes a difference?

ok,I will try tonight and see if there is differences,but i think it will take some time,
i will come back and post the result here :slight_smile:

Of course, since I’m not reading chinese, I used a translator to have an idea of them. Is there really some kind of logic between source and target sentences ? With the translated ones, I find it really hard…

This is trying to build a conversation model, and this idea comes from the paper: Neural Responding Machine for Short-Text Conversation (L. Shang, 2015)

In this paper ,they do build such a model and achieve a state of art results. What i am doing now is trying to reproduce the result from this paper,and the dataset is offered by the author in the github.

1 Like

you can consider the dataset are from the conversations in the chinese twitter (weibo) :slight_smile:

hi,after trying lstm ,it seems everything goes well now ,Thanks everyone for your advices,thank you!

For everyone wondering, the GRU implementation is actually correct but it may require a lower initial learning rate.

I have tried LSTM, 2 layers with 500 hidden units, similar results with you.