Topics tagged tokenizer

Topic	Replies	Views	Activity
The translation results consist entirely of the special character `<unk>`. Community opennmt-py , tokenizer	0	1001	August 23, 2024
How to use pre-trained BPEmb subword embeddings with latest versions of OpenNMT and OpenNMT-py? Support tokenizer , opennmt-py	5	4826	June 16, 2024
Input to reshape is a tensor with 528066 values, but the requested shape has 352022 Support tokenizer , opennmt-tf	0	1277	November 20, 2023
Weighted datasets and tokenization Feature Requests tokenizer	1	1224	September 19, 2023
Error converting model to ctranslate2 Support tokenizer , ctranslate2 , opennmt-tf	5	2532	April 7, 2023
Translate_batch(): incompatible function arguments. for ctranslate2 Support tokenizer , ctranslate2 , opennmt-tf	1	4819	January 18, 2023
Low bleu score with Sentencepiece comparing to othoner tokenizers Support tokenizer , opennmt-tf	2	2560	August 12, 2022
Getting no output when usig SentencePiece Support tokenizer , opennmt-tf	1	1716	April 23, 2022
Using Sentencepiece/Byte Pair Encoding on Model Support opennmt-py , tokenizer	42	26343	March 16, 2022
Overfitting Model Support tokenizer , opennmt-py	2	1623	February 28, 2022
Question about English to Chinese Support opennmt-tf , tokenizer	7	5484	February 17, 2022
Translation Example in OpenNMT 2.0 Docs Tutorials tokenizer , opennmt-py	12	5502	October 2, 2021
Single character tokenization? Research tokenizer	10	7651	August 26, 2021
Hard spaces lost when tokenizing Support tokenizer	5	3617	July 19, 2021
How Much Does Tokenization Affect Neural Machine Translation? Research tokenizer	1	2766	June 21, 2021
Different subword tokenization in same word pattern Support opennmt-tf , tokenizer	3	1679	November 20, 2020
Tokenizer v1.20.0 with SentencePiece v0.1.92 potentially problematic? Development tokenizer	5	2570	October 3, 2020
Tokenizer (sp_model, vocabulary_threshold) with unexpected results Support tokenizer	6	1619	September 29, 2020
How to define the tokenization technique in opennmt-tf Support opennmt-tf , tokenizer	1	1432	July 8, 2020
Korean - English Model Support tokenizer	14	6145	May 25, 2020
Tensor conversion/ValueError when training with online tokenizer Support tokenizer , opennmt-tf	7	2885	May 11, 2020
Data not being Tokenized properly Support tokenizer , opennmt-tf	4	1507	May 10, 2020
Character tokenizer with TF2 version Support tokenizer , opennmt-tf	2	1711	March 17, 2020
Problems with pyonmttok Support tokenizer , opennmt-py	4	3286	October 2, 2019
Core dump while loading the tokenizer Support opennmt-py , tokenizer	3	2076	September 16, 2019
Issue with special character U+FF5F Support tokenizer , opennmt-tf	18	3503	August 14, 2019