
Tokenization 是指将某物分割成更小单元(称为"token",即标记/令牌)的过程。在不同领域有不同含义:在自然语言处理中,指将文本拆分为词或子词单元;在金融领域,指将敏感数据(如信用卡号)替换为无意义的替代符号以保护安全;在区块链领域,指将资产转化为数字代币。
/to.kn.aze.n/
Tokenization is an essential step in natural language processing.
标记化是自然语言处理中的一个关键步骤。
By applying tokenization to credit card numbers, the payment system ensures that sensitive data is never stored in plain text, significantly reducing the risk of a security breach.
通过对信用卡号进行令牌化处理,支付系统确保敏感数据永远不会以明文形式存储,从而大大降低了安全漏洞的风险。
该词由 token 加后缀 -ization 构成。token 源自古英语 tācen,意为"符号、标记",与古高地德语 zeihhan(标记)同源。后缀 -ization 来自拉丁语和希腊语,表示"使之成为……的过程"。整个词的意思即"将事物转化为标记/令牌的过"。该词在20世纪后期随计算机科学和信息安全的发展而广泛使用。