《Python》实训九 “结巴”中文分词库的使用.docx

资源描述

1、实训任务：结巴中文分词库的使用学校名称：班级名称：学号/工号:学生姓名：实训日期:(I)了解jieba库的基本功能(2)熟练掌握jieba库的安装(3)熟练掌握Jieba库的常用函数使用，包括：jieba.Icut(三)jieba.Icut(s,cut_alI=True)、jieba.lcut_for_search(三)、jieba.add_word(w)(4)掌握jieba库的三种分词模式的应用2 .实训环境普通电脑，并安装以下软件：(1) Windows7(或者以上版本)操作系统(2) PyCharm软件(3) Python3.8以上版本3 .实训内容任务一：jieba库的三种分词模式的训

2、练1、任务内容(I)编写程序，应用jieba库的三种分词模式，对字符串“jieba是优秀的中文分词第三方库”进行分词。函数名称描述jieba.Icut(三)精确模式，返回一个列表类型。jieba.Icut(s,cutalI=True)全模式，返回一个列表类型。jieba.Icutforsearch(三)搜索引擎模式，返回一个列表类型。jieba.addword(w)向分词的词典增加新词W。(2)要求关键代码做好注释，效果如下图所示行范例11-1jieba库的三醒AC:ProgramFileSPython39python.exeD:/PythOnBOokpythonProjectll范例II-I

3、jieba库的三种分词模式.pyp8.42.1Buildingprefixdietfromthedefaultdictionary.IrpLoadingmodelfromcacheC:UsersADMINIlAppDataLocalTempjieba.cachei三i精确模式：路，不，通行，不得，在，此，小便，路，不，通行，不得，在，此，小便S寺全模式：路，不通，通行行不得不得，在，此，小便，路，不通通行，行不得，不得，在，此，小便，i搜索引擎模式：路，不，通行，不得，在，此，小便，路，不，通行，不得，在，此，小便加入新词后的精确模式：路，不，通行，不得，在，此，小便，路，不，通行，不得，在，

4、此，小便Loadingmodelcost.597seconds.Prefixdiethasbeenbuiltsuccessfully.2、任务提交要求(1)提交任务运行的截图，放在下面E:32424python.exeE:32424PyCharmCommunityEdition223.3.5pythonProject9.1.1.py,8.42.1BuildingprefixdietfromthedefaultdictionaryDumpingmodeltofilecacheC:Users32424AppdataLocalTempjieba.cache精确模式i路，不，,三t,不得，小便，路，不

5、通行，不得，在，此，小便全模式：路，不通，通行，行不得，不得，小便，路，不通，通行，行不得，不得，在，此，小便搜索引擎模式：路不通行，不得，小便，路，不通行，不得，在，Jfcr小便加入新词后的精确模式：路，不通行，不得，小便，路，不，通行，不得，在此，小便Loadingmodelcost8.495seconds.Prefixdiethasbeenbuiltsuccessfully.进程已结束，退出代码为B(2)提交任务的代码jiebaU(jieba.).IST路不通行不得小便路不通行不得在此小便，卜CSukJi班4七应6),卜力八1(精确模式：/CSt)vreilt-jiebaJcit(j=

6、Tnxc).cs土司匕Ck(三)，匕加(,搜索引擎模式：/cs|/。4。44_卬。匕4，计算机编程语言)卜CS”化守icb4.ct(三)，加入新词后的精确模式：/CS化)|3、参考答案及解析/范例11-1jieba库的三jgpy一,712Tjieba库的:种豆诃模式2importjiebaprint(jieba._version_)5S=,路不通行不得在此小便路不通行不得在此小便result=jiebacut(三)#，1PPint(精确模式：,result)9result=jieba.!cut(sicut.all=True)#二Print(”全模式*11iresult)12result=jie

7、ba.lcut_for_search(三)#一TPPintr搜索引擎模式：”，result)1516 /#jieba.enablepaddle()装动PaddIe型式.49旗之辰笈的文杨枭期版有不支持17 tfresult=jieba.cut(s,usepaddle=True)#使用P(IddIe模式18 #print(,paddleu,result)19jieba.add_word(计算机编程语言)并入,result=jieba.lcut(三)#IPPint(加入新词后的精确模式，result)23解析略任务二：英文文本解析1、任务内容编写程序，对一个txt格式的英文文章(比如english

8、txt)进行文本解析。(1)程序提示输入一个英文文章的路径。(2)打开该文件，并读取全部内容。读取文件时请注意字符的编码格式。字符转换为小字，并把特殊字符“！”#$用()*+/：K=?、_I”删除。(3)进行分词和统计，把前10个高频词显示出来。(4)要求关键代码做好注释C:ProgramFilesPython39python.exeDlyj写教材/Python/配套素材/=人请输入要打开的文件路径及名称，以txt结尾：d:/english.txtyoutoiwho$theX盲havethosethatwantandmake2615l98866662、任务提交要求(1)提交任务运行的截图，放

9、在下面forchin,!#$%()*+/:;=?0A_I,:C:Users3224Desktopkk.txt1245672技术部2组织2吉安2光电2徐一航1你好1书上1台湾1回归1进程已结束，退出代码为0(2)提交任务的代码I()：I仇430二加NK请输入要打开的文件路径及名称，以七乂七结尾:fo-(fnaej二).Itxt=f0%qd().Itxt=txtJoWC匕()If。匕Chi八!#，()为+Itxt=txt.replace(Ch,)，txtl#调用函数W0%=k4wcttt.sp七()卜OU心二.IwodWOds:Ico”八tswokdj=COU八ts.gct(WOrdJ)十，1CH

10、S二(CO八芯/七CHASO)卜tcnS.sort(kcg=ShaSWmx：xLHe/eHSC=7Vc)|Ii():.IWo匕d,co八七二itCmSprii.t(ll5,ll.forat(ordjcoit)i3、参考答案及解析一英文文本解析,py2#定义；个函数defgetext():Tname=input(请希入要打开的文件路径及名称，以txt结尾：)foopen(fnane4encodings1UTF-S)txt=fo.read()#.read()：,:VLtxt=txtower()#仃、forchin,!#$%()*+/:;=?(aA_|:txt=txt.replace(chf,)re

11、turntxt#现用的数hamlettxt=getext()#进行分间和统H胤U悬搔文室史恿量越黑室整式收二位二全的宴愚/f将康累保查成姆代葺友义:力能*惠碧L因为赛fl雷里集曼烈族集通出理的次数隹为；二便瞳冠#遍历WOrdS列表的每一个值WOrdS=hamlettxt.split()counts=Torwordinwords:countsword=counts.get(word,0)+1Items=Iist(counts.items()items.sort(key=lambdax:xl,reverse=True)foriinrange(10):wordzcount=itemsiffitems

12、ihprint(:5.format(wordfcount)解析略任务三：中文文本解析1、任务内容编写程序，对一个txt格式的中文文章(比如学习强国简介.txt)进行文本解析。(1)程序提示输入一个中文文章的路径。(2)打开该文件，并读取全部内容。读取文件时请注意字符的编码格式。(3)进行分词和统计，把前10个高频词显示出来。在分词时需要使用Iiebiao=Jieba.Icut(txt)进行分词。(4)要求关键代码做好注释C:ProgramFilesPython39python.exe11D:lyj/写教材/Python/酉1套素材/实训任务二请输入要打开的文件地址及文本名称，以txt结尾，路径

13、要使用/:/学习强国简介Buildingprefixdietfromthedefaultdictionary.ALoadingmodelfromcacheC:UsersADMINIlAppDataLocalTempjieba.cache三iLoadingmodelcost0.638seconds.若Prefixdiethasbeenbuiltsuccessfully.j学习66强国30平台22上线17201916手机8228思想7127PC6客户端6建设6习近平5中国5202152、任务提交要求(3)提交任务运行的截图，放在下面WUPU,UUUllL-JLLtJ川、L-LJ八八八IndexEr

14、ror:listindexoutofrange1245672技术部2组织2台湾2吉安2光电2徐一航1你好1书上1回归1当归1江西11见图为只读1(4)提交任务的代码Ijicba.版加g斗(请输入要打开的文件地址及文本名称，以伙亡结尾，路径要使用/:)|o-(fnaj=).II血4。7/血Ct(t比).,OU也二.IWd(icbia。:,IcontswordJ=CO八ts.gct(W0-djO)+WJtCHAS=(CO八2S.itCHASO),cnS.sort(kcg=ShaSWmx：xJ/c/chsc=7V“c)|()：IWord簿Oa八2二ctslpn八t(:5了.fOrVv4t(wOHdJ

15、Cotmt)巾中文文本解析,pyimportjieba3 螺匙女ISname:input(请给入要打开的文件地址及文本名称，以,txt结尾，路径要使用/:)fo=open(fnamezencoding=utf-8,)txt=fo.read()Iiebiao=jieba.Icut(txt)#counts=forwordinIiebiao:iflen(word)=l:continueelse:countsword=counts.get(word,0)+1items=list(counts.items()items.sort(key=lambdax:x1zreverse=!rue)#：foriinr

16、ange(15):word,count=itemsiprint(,:5.format(wordicount)解析略4 .实训心得体会实训任务：wordcloud词云的使用学校名称：班级名称：学号/工号:学生姓名：实训旧期：(5) 了解Jwordcloud词云的基本功能(6) 熟练掌握wordcloud词云的安装(7)熟练掌握使用WOrdChUd词云按指定的图形，生成目标图片结果(8) 掌握wordcloud的常用参数的应用(9) 掌握使用wordcloud,生成英文词云(IO)掌握使用WOrdClOUd,生成中文词云2 .实训环境普通电脑，并安装以下软件：(4) Windows7(或者以上版本

17、)操作系统(5) PyCharm软件(6) Python3.8以上版本3 .实训内容任务一：生成英文词云1、任务内容(3) 编写程序，应用wordcloud生成巩词云。(4) 具体要求：对以下字符串“PythonJAVAC#C+ASP.NETPythonandWordCloudPython”生成一个词云，并保存为图片。(5)要求关键代码做好注释，效果如下图所示NETASpJAVA2、任务提交要求(3)提交任务运行的截图，放在下面NETJAVAQWordCloudASP(4)提交任务的代码importatplotlib.pyplotaspitimportWO以CIo认CLkt=Pgth。八JAv

18、AC#C+ASP.NETPgth。八以八4WoYdC(O认4PgdI。八，-wordcloid.JordCloid(=IWhitO)Hw.gc八CmtC(仅七)#加载词云文本IW工。CCPgW。力cod.png)#输出词云文件|上化加iskow(w)，1化4加(,化OWo3、参考答案及解析中文文本解析py1范例12-2VVOrcklOUd库生成词云py|1712-2WOrClCloUd储；、importwordcloudw=wordcloud.WordCloud()#H：6H步骤2：如我迥云又军w.generate(PythonJAVAC#C+ASP.NETPythonandWordCloud

19、Python)w.to_file(pywordcloud.pngM)#3：解析略任务二：生成心形的英文词云1、任务内容编写程序，如下要求：(5) 应用wordcloud库对素材中的“phthon.txt”文件中的文本生成一个词云，并保存为图片。管理实训任务书0902加。7(:1。面库生成一心形词云共享三w图片工具第09章源代码实训任务书09029。7:1。1库生成一心形词云XKUtnsrLrVi:Python,-TutorialVi-website.NoteadvancedTpreviousIangUag.呼PleaseeProgrammingAwesometxxk11-programmers

20、v2、任务提交要求(5)提交任务运行的截图，放在下面(6)提交任务的代码importWordclobidfrokviMageiOimportithread#读取文本file=。PeACPgth。八七xtJ,e八CodiAg=if-2)txt=file,read(y)#读取图片asklage=iread(llove.pgl)SJfiW=WoYdCloIAd.ordCloidQ)#配置参数，并生成词云W=WoFdC(Ob(d.WodC(oid(backgoiAd-Co(o=whiteNWidth=6。,height=579。JnA匕匕2、任务提交要求(7)提交任务运行的截图，放在下面(8)提交任务

21、的代码importjiebaimportordcl(d伙十二程序设计语言是计算机能够理解和识别用户操作意图的一种交互体系，它按照特定规则组织计算机指令，使计算机能够自动进行各种运算处理W=WoY4cIoi4.WoYdClOb(4(Width二:LOOO,f。八t_path=msgh.ttc,height=70。),gcMate(joi(jieba.lcLit(txtw.to_file(”ComP(AtCHa八gbtagc.p八g“)PMnt(词云生成成功.)生成中文词云,pyimportjiebaimportwordcloudtxt:程序设计语言是计算机能恰理解和识别用户操作意图的一种交互体系

22、它按照特定规则组织计1w=wordcloud.WordCLoud(width=lOlfont-path=msyh.ttczheight=700)w.generate(11l,.join(jieba.Icut(txt)w.to.file(Computerlanguage.png)Pantr词云生成成功.n)解析略4.实训心得体会实训任务：可视化中文词云项目学校名称：班级名称：学号/工号:学生姓名：实训旧期：(11) 了解wordcloud词云的基本功能(12) 了解jeiba库的基本功能(13)熟练掌握jeiba库和wordcloud生成指定形状的词云2 .实训环境普通电脑，并安装以下软件：(

23、7) Windows7(或者以上版本)操作系统(8) PyCharm软件(9) Python3.8以上版本3 .实训内容任务一：生成英文词云1、任务内容(6) 编写程序，应用wordcloud生成词云。(7)背景描述：扶贫是保障贫困户的合法权益，取消贫困负担。2020年11月23日，中国832个国家级贫困县全部脱贫摘帽。我国脱贫攻坚取得的成就，见证了“中国力量”。消除绝对贫困是一项对中华民族、对人类都具有重大意义的伟业！小刘在一间大数据技术应用与开发公司工作，是一名PythOn程序员。他的项目经理要求小刘对一篇关于中国的精准扶贫的文章进行中文分词，并对高频出现的一些词语自动生成一个词云图片。这

24、个词云图将会应用于一个大数据可视化大屏展示系统中。（8）要求如下:D使用IO函数，对文本文件的读取。2）应用jieba进行中文分词。3）词频统计。4）对词频进行排序。5）对高频词进行输出显示，并对分词使用空格拼接成字符串。6）读取图片，以生成词云的形状。7）设置WOrdClOUd的参数，自动生成词云图片并保存。（9）要求关键代码做好注释，效果如下图所示2、任务提交要求（5）提交任务运行的截图,放在下面（6）提交任务的代码WoHdSCo八ts=CXC/dc50woHds=HE期R#需要排除的关键字,用于统计高频i同CeVJ5。VJoVci=#空义一个变氧MwAllword-,.joi(yword

25、s)foriinrmgc(5O):oMwordjworC(ts=itekvi八CW$9wd+=+onewd#拼接字符串:只对前5。个高频词使用空格连;PMntep16,1：)syifoYMotSncwod,WodsC0Ling怩#。&读取图片MaSIdMagC=imCadCSamP(CMaSk.jpg这#。7生成词云的系列操作CXCLdCw。SYgiA的/要和。是更多关键先生成词事W=WoHdC“d.WHdC“dOA/=A/ordcloLd.AJordCloLd(back.groLd_color-A/liteWidth=60。,height=50。)font_path=msgh.ttcst。P

26、WOrdS=CXCMdCW。力Sw4sknagc=n4sk44gc)词云我查参j.gevwate(v9JAUw0丫心#对全文的分词生成词.w.t。一fh(MgAMWO以s.png)w.gcMYate(ncwSOwoycC)#对5。个高频词生成词;wo_fi(e(mg5OWoYdS.p呵)兹g告诉用户生成结:力八十(已经生成词云图片，打开项目文件夹根目录可以查看。:MPIAt。ChineseWordCloud.pyffChineseWordClod.du# 叮理化火文词云项目importjiebaimportwordcloudfromImageioimportImread巾.nageoj,# 。

27、1谴耳4文件，井保存在mytxt中myfile=open(,article.txt,/mode=,r,iencoding=UTF-8,)mytxt=myfile.read()myfile.close()# 02便7”7i段巡展L奏用镇费遂其Inywords=jieba.Icut(mytxt)a#03同分It数WoPdSCOUntS二foronewordinmywords:iflen(oneword)=l:#continueelse:WordsCountsoneword=WordsCounts.get(oneword,0)+1exclude50Words=“ll”日期”#，foronewordi

28、nexclude50Words:del(wordsCountsoneword)#对诃银进行排序Items=Iist(wordsCounts.items()items.sort(key=lambdax:xlzreverse=True)#05输切商领词即拼装于符申new50word=*,#QnewAllword=,.join(mywords):foriinrange(50):oneword,WordsCounts=Itemsinew50word+三+oneword#:50_一print(H0:5.format(oneword/WordsCounts)#。6读取图片45689101112131415

29、1618192212223242526217232930313233343538394。masklmage=imread(1SampleMask.png1)#学校名称：班级名称：学号/工号:学生姓名：实训旧期：(14)了解requests爬虫库的基本功能(15)掌握requests爬虫库的安装方法(16)掌握requests爬虫库的基本功能(17)熟练掌握requests爬虫库下载指定的网站或者网页2 .实训环境普通电脑，并安装以下软件：(10) Windows7(或者以上版本)操作系统(11) PyCharm软件(12) Python3.8以上版本3 .实训内容任务一：抓取百度首页1、任务内

30、容(IO)编写程序，应用requests库的get()方法，实现抓取百度首页的信并保存为newshtml.txt。(11)要求关键代码做好注释，效果如下图所示名称修改日期类型大小Blnewshtml.txt2021-01-2213:50义本义档74KB?范例12-5簸requests下载T网第U.2021-01-2213:52PythonFile1KB二|newshtml.txt-记事本一X文件(F)百(E)格式(O)查看(V)帮助（三）百度新闻海量中文资讯平台/titledocumentwrite(scripttype=,textjavascript,src=7news-第1行，警!列100

31、Windows(CRLF)ANSI2、任务提交要求(7)提交任务运行的截图，放在下面文件编辑查看!STATUSOK百蛾闻一海量中文资讯平台VmeWnameTdescriptiodcontent=百度新闻是包含海资讯的新闻服务平台，真实反映每时每刻的新闻热点.您可以搜索新闻事件、热点话题、人物动态、产品资it售，快速了解它们的最新进展documentwrite(scripttype=*textjavascriptsrc=7/news-window.NEWSLOGURL=,httpslog.news.baiduxomv.gif;window.HUNTERLOGURL=7/Sfolcy0a2gl2

32、n2igoY3Kstaticfisp.staticwzaa11a.js7appidc890648bf4dd(X)d0Seb9751dd0548c30acharset=utf-8scriptsrc=7/linkrel=stylesheeftype=textcsshref=*/aliashunter-userbar-startdivwrapperadass=clearfi新闻Kfflifi(8)提交任务的代码importrequests#使用忆quests的gc()获取网页HTML代码,并编码Y=Yeq(AeStS.getChttp:/news.baidn.coM/)El避免出现乱石.在,则会重写。JtXt成功，3、参考答案及解析=newshtml.txt范例12-5使用requests下载一个网页到本地,py1:12-5/!requestsI-2importrequests#TeqUeStS加get()改取

展开阅读全文