变身抓重点小能手:机器学习中的文本摘要入门指南 | 资源( 七 )
16
17# Looping through the paragraphs and adding them to the variable
18for p in paragraphs:
19 article_content += p.text
使用urllib.request实现网页数据的抓取,再调用BeautifulSoup来解析网页数据。
第二步:数据处理
为确保抓取到的文本数据尽可能没有噪音,需要做一些基本的文本清理。这里使用了NLTK的stopwords和PorterStemmer。
PorterStemmer可以将单词还原为词根形式,就是说能把 cleaning, cleaned, cleaner 都还原成 clean。
此外还要创建一个字典,来存储文本中每一个单词的出现频率。
循环整个文本来消除 “a”、“the” 这样的停止词,并记录单词们的出现频率。
1from nltk.corpus import stopwords
2from nltk.stem import PorterStemmer
推荐阅读
- 胡桃夹子|干将莫邪新皮肤将上线,干将变身胡桃夹子,真有趣?
- edg战队|王者荣耀体验服六位英雄调整,镜、澜再削弱,钟无艳提升技能手感
- 传奇|璀璨传奇复古:道士前期有多爽?三职业最强 开荒能手 自带两个特戒
- 手办|少女前线:春田太太静享芳醇可动手办实物 咖啡台才是核心和重点
- 手机游戏|LOL手游女神诞生!美女主播发现流量密码,黑丝变身腿根纹身亮眼
- 程咬金|程咬金的三大误区,第二条是重点,程咬金居然也有连招!
- 原神|原神角色颜值不是唯一衡量标准,强度才是重点,期待新版本来袭
- 万圣节|闪耀暖暖:万圣节主题新非凡套装公开 变身古灵精怪的猫耳小魔女
- 和平精英|“吃鸡”更新3.1G,玩家在海岛里捡到3个“变身器”,光回来了!
- 最终幻想|梦幻西游:天机城的秒三技能有多垃圾?三攻变身还没平砍打的多