文档备案控制台

开发者社区问答正文

使用原生 Python 来对文本进行分词

使用原生 Python 来对文本进行分词

展开

收起

珍宝珠 2019-12-03 14:57:10 808 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

珍宝珠

首先，我们将抓取一些网页内容。然后来分析网页文本，看看爬下来的网页的主题是关于什么。我们将使用 urllib模块来抓取网页：

import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
print (html)

从打印输出中可以看到，结果中包含许多需要清理的HTML标记。我们可以用这个 BeautifulSoup 库来对抓取的文本进行处理：

from bs4 import BeautifulSoup
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
print (text)

现在，我们能将抓取的网页转换为干净的文本。这很棒，不是么？

最后，让我们通过以下方法将文本分词：

from bs4 import BeautifulSoup 
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read() 
soup = BeautifulSoup(html,"html5lib") 
text = soup.get_text(strip=True) 
tokens = [t for t in text.split()] 
print (tokens)

2019-12-03 14:57:57

赞同展开评论

问答分类：

自然语言处理 Python

问答标签：

Python文本原生Python Python原生 Python分词

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

277

5

0

阿里语音AI的“实时长文本”语音合成服务的流逝返回，有python的sdk吗？

168

1

0

在python中如何按句子进行分词呢？

501

1

0

Python 数据挖掘中，文本相似度计算方法中的其他方法又有哪些呢？

2919

1

0

Python 数据挖掘中，文本相似度计算里的本体是什么意思呢？

2900

1

0

Python 数据挖掘中，文本相似度计算里基于知识组织的方法有哪些呢？

2958

1

0

Python 数据挖掘中，文本相似度计算里基于语料库方法有哪些呢？

3006

1

0

Python 数据挖掘中，文本相似度计算里基于字符串的代表方法有哪些呢？

3096

1

0

Python 数据挖掘中文本相似度的计算有哪些方法？

2976

1

0

Python 数据挖掘中文本相似度的等级划分有哪些呀？

2816

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

如何在阿里云服务器上部署网站？2026年阿里云服务器怎么选？

部署OpenClaw多少钱？2026年阿里云 OpenClaw（Clawdbot）怎么部署及收费标准

阿里云百炼Coding Plan是什么意思？

有传言通义灵码不再增加新功能了，是这样吗？

OpenClaw（原Clawdbot）阿里云一键部署后，2026年有哪些应用场景可用到？

相关文章

给AI拜年差点翻车后，我悟了：RAG和微调，到底谁更懂“人情世故”？

抖音弹幕游戏开发之第6集：解析JSON数据·优雅草云桧·卓伊凡

2026年阿里云OpenClaw(Clawdbot)部署简单步骤教程

2026年阿里云OpenClaw(Clawdbot)部署+飞书深度接入全教程

2026年阿里云OpenClaw(Clawdbot)海外部署+Slack深度接入全指南

还有其他疑问?