
词形还原,指将一个词的各种屈折变化形式(如时态、复数等)还原为其基本形式(词元/词根形式)的过程。这是自然语言处理(NLP)中的一项重要技术。
/lmtazen/
Lemmatization helps search engines find results even when you use different forms of a word.
词形还原帮助搜索引擎在你使用一个词的不同形式时也能找到相关结果。
In natural language processing, lemmatization is preferred over stemming because it considers the full vocabulary and morphological analysis of words to return a proper base form.
在自然语言处理中,词形还原比词干提取更受青睐,因为它会考虑完整的词汇表和词的形态分析,从而返回正确的基本形式。
该词源自语言学术语 lemma(词元),来自希腊语 lēmma,意为"被取用的东西"或"假设",在语言学中特指一个词的标准形式或词典收录形式。后缀 -ization 表示"使之成为……的过程",源自拉丁语 -izātiō。整个词的意思就是"将词语还原为词元的过程"。该术语主要在20世纪后半叶随着计算语言学发展而广泛使用。