I have try many ways, an example is this:
[[‘▁Dell’, ‘▁Control’, ‘Va’, ‘ult’, ‘TM’, ‘▁sur’, ‘▁les’, ‘▁ordin’, ‘ateurs’, ‘▁por’, ‘tables’, ‘▁Lat’, ‘itude’, ‘▁-’, ‘▁Sto’, ‘cke’, ‘▁et’, ‘▁tra’, ‘ite’, ‘▁les’, ‘▁informations’, ‘▁d’, “'”, ‘identi’, ‘fication
‘, ‘▁et’, ‘▁le’, ‘▁code’, ‘▁criti’, ‘que’, ‘▁en’, ‘▁dehors’, ‘▁des’, ‘▁ve’, ‘cteurs’, ‘▁d’, "’“, ‘atta’, ‘que’, ‘▁habitu’, ‘els’, ‘▁des’, ‘▁logi’, ‘ci’, ‘els’, ‘▁mal’, ‘ve’, ‘ill’, ‘ants’, ‘.’, ‘’, 'fra_Latn
'], [‘▁Ê’, ‘tre’, ‘▁capable’, ‘▁de’, ‘▁faire’, ‘▁du’, ‘▁cur’, ‘ling’, ‘▁était’, ‘▁un’, ‘▁autre’, ‘▁sport’, ‘▁dans’, ‘▁lequel’, ‘▁je’, ‘▁pou’, ‘vais’, ‘▁être’, ‘▁ac’, ‘tif’, ‘▁et’, ‘▁devenir’, ‘▁bon’, ‘.’, '”’, ’
', ‘fra_Latn’]]
[‘cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas c
as cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas
cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas
cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas ca
s cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas cas’, ‘ARBARBARBARBARBARBARBARBARBARB
ARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBARBAR ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇’]
In this example, I only add the language at the end of each segment. I have tried to add it to the beginning and to add also token.
I get same random results with all that I have tried.
I Have tried also this:
source_sents_subworded = [sent + ["</s>", src_lang] for sent in source_sents_subworded]
and this:
source_sents_subworded = [[src_lang] + sent + ["</s>"] for sent in source_sents_subworded]
I am doing this call:
translations = model.translate_batch(
source_sents_subworded, batch_type="tokens", max_batch_size=batch_size,
beam_size=beam_size, target_prefix=target_prefix
)
where target_prefix is [[‘eng_Latn’], [‘eng_Latn’]]
I did not have problems with c2translate NLLB models that Guillaume shared (the ones that are not finetuned). Same set up seems to not work with my transformed fine-tuned version, I tried all that but did not get the expected results.