Detokenization
释义 Definition
Detokenization(反分词/去分词):在自然语言处理(NLP)中,把已经被分割成“词元(tokens)”的文本重新合并、恢复为更自然的连续文本的过程;常用于机器翻译、文本生成等系统的后处理(例如处理空格、标点、缩写等)。也可泛指把“token 序列”还原为可读字符串。
发音 Pronunciation (IPA)
/ditoknazen/
例句 Examples
The system performs detokenization after translation.
系统会在翻译完成后进行去分词处理。
Accurate detokenization improves readability by fixing spacing around punctuation and restoring contractions.
准确的去分词能通过修正标点周围的空格并还原缩写形式来提升可读性。
词源 Etymology
由前缀 **de-**(表示“去除、逆向”)+ token(词元/标记)+ -ization(表示“……化/过程”)构成,字面意思是“把 token 的状态逆转、进行去 token 化”,即把分好的词元重新合成为自然文本。
相关词 Related Words
文学与著作中的用例 Literary & Notable Works
- Statistical Machine Translation(Philipp Koehn)在机器翻译流水线中讨论分词与去分词等处理步骤。
- Speech and Language Processing(Daniel Jurafsky & James H. Martin)在文本处理与NLP流程相关章节中涉及与 token/重建文本相关的概念。
- Moses Statistical Machine Translation System(工具与文档/论文)常见于其脚本与说明中(如“detokenizer”)用于翻译输出后处理。
- OpenNMT / Marian NMT 等开源神经机器翻译框架文档与论文在数据预处理与生成结果后处理部分出现“detokenization/ detokenizer”的术语。