7．8 分词、词干提取与词形还原 -Python机器学习基础教程(下)

当前位置:　首页>> 技术小册>> Python机器学习基础教程(下)

7.8 分词、词干提取与词形还原

在自然语言处理（NLP）领域，文本预处理是构建高效、准确模型的关键步骤之一。分词、词干提取与词形还原作为文本预处理的三大核心技术，对于提升文本数据的处理效率和模型的性能至关重要。本章节将深入探讨这三项技术的原理、应用场景及实现方法，旨在为读者在Python环境下进行机器学习项目时提供坚实的理论基础与实践指导。

7.8.1 分词（Tokenization）

7.8.1.1 概述

分词是将连续的自然语言文本切割成一系列有意义的单元（通常是词或短语）的过程。这些单元（即“token”）是后续文本分析（如词性标注、命名实体识别等）和机器学习模型训练的基础。不同语言因其语法结构和书写习惯的不同，分词方法也各异。对于英文等以西文为主的语言，分词相对简单，因为单词之间通常由空格分隔；而对于中文、日文等没有显式分隔符的语言，分词则成为了一个挑战。

7.8.1.2 Python实现

在Python中，可以通过多种库来实现分词，包括nltk（自然语言工具包）、jieba（针对中文）、spaCy等。

英文分词示例：使用nltk库

首先，需要安装并导入nltk库，并下载相应的资源（如punkt模型用于句子分割）。

import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
text = "Python machine learning is fun and exciting."
tokens = word_tokenize(text)
print(tokens)

中文分词示例：使用jieba库

jieba支持三种分词模式：精确模式、全模式和搜索引擎模式。

import jieba
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)  # 精确模式
print("精确模式: " + "/ ".join(seg_list))
seg_list = jieba.cut(text, cut_all=True)  # 全模式
print("全模式: " + "/ ".join(seg_list))

7.8.2 词干提取（Stemming）

7.8.2.1 概述

词干提取是一种将单词缩减到其基本形式（词干）的过程，旨在减少词汇的多样性，提高文本处理的效率。与词形还原不同，词干提取通常不依赖于词汇的语法和形态信息，而是基于一系列启发式规则来删除单词的后缀，因此可能会产生非词汇化的结果。

7.8.2.2 Python实现

Python中，nltk库提供了词干提取的工具，如PorterStemmer、SnowballStemmer等。

from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
words = ['running', 'runner', 'run', 'runs']
stemmed_words = [stemmer.stem(word) for word in words]
print(stemmed_words)  # 输出可能是 ['run', 'runn', 'run', 'run']

注意，上述例子中runner的词干化结果runn并不是一个实际存在的英文单词，这显示了词干提取可能带来的问题。

7.8.3 词形还原（Lemmatization）

7.8.3.1 概述

词形还原是将单词还原到其词典中的基本或词根形式的过程，同时保留其词性信息。与词干提取相比，词形还原能够更准确地反映单词的语义，因为它依赖于词汇的语法和形态分析。词形还原通常用于需要深入理解文本含义的场景，如情感分析、文本摘要等。

7.8.3.2 Python实现

在Python中，nltk库同样提供了词形还原的功能，通过WordNetLemmatizer类实现。

from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lemmatizer = WordNetLemmatizer()
words = ['running', 'runners', 'ran', 'run']
# 需要指定词性，否则默认使用名词词性
# 'n'名词, 'v'动词, 'a'形容词, 'r'副词, 's'形容词卫星词(satellite adjective)
pos_tag = {'n':'n', 'v':'v', 'a':'a', 'r':'r', 's':'s'}
lemmatized_words = [lemmatizer.lemmatize(word, pos=pos_tag.get(word[-1].lower(), 'n')) for word in words]
print(lemmatized_words)  # 尝试根据词尾判断词性，实际应用中可能需要更复杂的词性标注