1、项目2初识文本基础处理应用中文分词技术1实训目标(1) 掌握安装jieba库的方法。(2) 掌握使用jieba库中的CUt函数获取语料库中的文本标识列表的方法。(3) 掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Paddle
2、Paddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpcech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本
3、处理的关键步骤。在处理中文文本时,需要将连续的文本序列切分成词汇单元,这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要,如文本分类、信息检索、机器翻译等。因此,掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础,也是实现中文文本相关应用的前提条件。本实训将通过jieba库,分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。4实训步骤4.1 以全模式进行中文分词首先进入NLP虚拟环境,执行Condainstalljieba或pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现,则表示安装成功。以“热
4、爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用全模式进行中文分词,如代码4-1所示。代码4-1使用全模式进行中文分词importjiebatext=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。segjist=jieba.cut(sentence=text,cut_all=Truc)PrintC全模式:V.join(segjist)在代码4-1中,使用到jieba库中的CUt函数获取语料库中的文本标识列表,其中,cut函数的常用参数说明如表4-1cut函数的常用参数说明所示。表4-1cut
5、函数的常用参数说明参数名称参数说明sentence接收str,表示需要进行分词的文本内容。无默认值cut-all接收bool,表示是否采用全模式分词。默认为FaISe运行代码4-1使用全模式进行中文分词代码4-1,得到分词结果如下。全模式:热爱/学习/是/一种/积极/积极向上/向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。全模式会输出所有可能的分词结果。4.2 以精确模式进行中文分词以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用精确模式进行中文分词,如代
6、码4-2所示。代码4-2使用精确模式进行中文分词importjiebatext=,热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut(text,cut_all=False)Print(精确模式:7.join(SegJiSt)运行代码4-2,得到分词结果如下。精确模式:热爱/学习/是/一种/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。精确模式仅输出一种分词结果。4.3 以搜索引擎模式进行中文分词以“热爱学习是一种积极向上的品质,它可以
7、让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用搜索引擎模式进行中文分词,如代码4-3所示。代码4-3使用搜索引擎模式进行中文分词importjiebatext热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut_fbr_search(text)PrintC搜索引擎模式:n,7.join(segjist)运行代码4-3,得到分词结果如下。搜索引擎模式:热爱/学习/是/一种/积极/向上/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。搜索引擎模式会输出所有可能的分词结果。除了一些适合全模式和搜索引擎模式的场合,一般情况下会较多地使用精确模式。5实训小结技术点自评达标未达标能够安装jieba库能够使用jieba库中的CUl函数获取语料库中的文本标识列表能够使用全模式、精确模式、搜索引擎模式进行中文分词心得体会(如遇到的问题及解决方法、存在的不足之处等):