Commit b9f02c3b by xuchen

set the max input sentence for sentencepiece

parent eab628bd
...@@ -36,6 +36,8 @@ def gen_vocab( ...@@ -36,6 +36,8 @@ def gen_vocab(
f"--vocab_size={vocab_size}", f"--vocab_size={vocab_size}",
"--character_coverage=0.9995", "--character_coverage=0.9995",
f"--num_threads={cpu_count()}", f"--num_threads={cpu_count()}",
f"--input_sentence_size=50000000",
"--shuffle_input_sentence=true",
f"--unk_id={UNK_TOKEN_ID}", f"--unk_id={UNK_TOKEN_ID}",
f"--bos_id={BOS_TOKEN_ID}", f"--bos_id={BOS_TOKEN_ID}",
f"--eos_id={EOS_TOKEN_ID}", f"--eos_id={EOS_TOKEN_ID}",
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论