ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:15.83KB ,
资源ID:591422      下载积分:5 金币
已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《自然语言处理技术》——实训4 应用中文分词技术.docx)为本站会员(极速器)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(发送邮件至doc331@126.com或直接QQ联系客服),我们立即给予删除!

《自然语言处理技术》——实训4 应用中文分词技术.docx

1、项目2初识文本基础处理应用中文分词技术1实训目标(1) 掌握安装jieba库的方法。(2) 掌握使用jieba库中的CUt函数获取语料库中的文本标识列表的方法。(3) 掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。2实训环境环境版本说明Windows1064电脑操作系统Python3.8.5Python语言版本pandas1.3.0主要用于数据读取、清洗等操作NumPy1.21.6主要用于Python中的数值计算jieba0.42.1主要用于文本分词Gensim4.2.0主要用于检索文本、计算文本相似度、训练词向量、建模主题等Matplotlib3.3.0主要用于数据可视化Paddle

2、Paddle2.4.2是一个深度学习框架,提供了高效的计算框架和优化算法PaddleSpcech1.2.0主要用于语音和音频中的各种关键任务的开发scikit-learn1.0.2广泛地用于统计分析和机器学习建模等数据科学领域Librosa0.8.1主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库NLTK3.5是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等SciPy1.7.3是一个科学计算工具包,可用于数学、科学、工程学等领域pyttsx32.9.0主要用于将文本转换成语音3实训说明中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本

3、处理的关键步骤。在处理中文文本时,需要将连续的文本序列切分成词汇单元,这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要,如文本分类、信息检索、机器翻译等。因此,掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础,也是实现中文文本相关应用的前提条件。本实训将通过jieba库,分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。4实训步骤4.1 以全模式进行中文分词首先进入NLP虚拟环境,执行Condainstalljieba或pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现,则表示安装成功。以“热

4、爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用全模式进行中文分词,如代码4-1所示。代码4-1使用全模式进行中文分词importjiebatext=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。segjist=jieba.cut(sentence=text,cut_all=Truc)PrintC全模式:V.join(segjist)在代码4-1中,使用到jieba库中的CUt函数获取语料库中的文本标识列表,其中,cut函数的常用参数说明如表4-1cut函数的常用参数说明所示。表4-1cut

5、函数的常用参数说明参数名称参数说明sentence接收str,表示需要进行分词的文本内容。无默认值cut-all接收bool,表示是否采用全模式分词。默认为FaISe运行代码4-1使用全模式进行中文分词代码4-1,得到分词结果如下。全模式:热爱/学习/是/一种/积极/积极向上/向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。全模式会输出所有可能的分词结果。4.2 以精确模式进行中文分词以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用精确模式进行中文分词,如代

6、码4-2所示。代码4-2使用精确模式进行中文分词importjiebatext=,热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut(text,cut_all=False)Print(精确模式:7.join(SegJiSt)运行代码4-2,得到分词结果如下。精确模式:热爱/学习/是/一种/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。精确模式仅输出一种分词结果。4.3 以搜索引擎模式进行中文分词以“热爱学习是一种积极向上的品质,它可以

7、让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用搜索引擎模式进行中文分词,如代码4-3所示。代码4-3使用搜索引擎模式进行中文分词importjiebatext热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。seg_list=jieba.cut_fbr_search(text)PrintC搜索引擎模式:n,7.join(segjist)运行代码4-3,得到分词结果如下。搜索引擎模式:热爱/学习/是/一种/积极/向上/积极向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。搜索引擎模式会输出所有可能的分词结果。除了一些适合全模式和搜索引擎模式的场合,一般情况下会较多地使用精确模式。5实训小结技术点自评达标未达标能够安装jieba库能够使用jieba库中的CUl函数获取语料库中的文本标识列表能够使用全模式、精确模式、搜索引擎模式进行中文分词心得体会(如遇到的问题及解决方法、存在的不足之处等):

宁ICP备18001539号-1