Retokenization 发音 定义 Definition retokenization (再分词/重新切分词元):在自然语言处理(NLP)中,指把一段文本(或已有的分词结果)重新进行分词/切分为 token 的过程,通常为了匹配某个模型或词表(vocabulary)的要求(如 BPE、WordPiece、SentencePiece),或为对齐不同系统的标注与输入格式。
发音 Pronunciation (IPA) /ritoknazen/
例句 Examples The dataset requires retokenization before training. 这个数据集在训练前需要重新分词。
To align the gold annotations with the model’s subword vocabulary, we performed retokenization and updated all token offsets. 为了让人工标注与模型的子词词表对齐,我们进行了重新分词,并更新了所有词元的偏移位置。
词源 Etymology 由 **re-**(“再、重新”)+ token (“词元/标记”)+ -ization (“……化/过程”)构成,字面意思就是“把文本再 token 化的过程”。该词多见于计算语言学与机器学习工程语境中。
相关词 Related Words 文献与作品 Literary / Notable Works Sennrich, Haddow & Birch (2016) , Neural Machine Translation of Rare Words with Subword Units (子词切分与重切分讨论常与 retokenization 同现) Kudo & Richardson (2018) , SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Devlin et al. (2019) , BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (相关实现与复现工作中常提及为匹配 WordPiece 而进行的 retokenization)