文档备案控制台

开发者社区问答正文

python爬取网站板块的一个小问题，急急急 == （似乎是个很简单的项目....）

想爬取木虫首页那些板块的名字（似乎是个很简单的项目....）
写了如下代码
为何既没有我create的文件，又没有爬取结果
请大侠们给出修改意见==
谢谢！！

import requests
from requests.exceptions import RequestException
import re
import json

url = 'http://muchong.com/bbs/post.php?action=newthread'
def getpage(url):

try:
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        return response.text
    return None
except RequestException:
    return None

def parse(html):

html = getpage(url)    
pattern = re.compile('<td width="25%">.*?xmc_blue xmc_ft14.*?target="_blank">(.*?)</a></h4>',re.S)
items = re.findall(pattern,html)
write_to_file(items)
print(items)

def write_to_file(content):

with open('xiaomuchong.txt', 'a', encoding='utf-8') as f:#a代表追加
    f.write(json.dumps(content, ensure_ascii=False) + '\n')#.想输出真正的中文需要指定ensure_ascii=False

if name == '__main__':

main()

展开

收起

游客uub3gf5qnjcyg 2019-06-03 17:09:57 3000 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

游客aasf2nc2ujisi

补充楼下:

另外,你这个需要登录后才能爬取, 你也没有写登录cookies啊.

2019-11-18 14:18:47

赞同展开评论
湖畔之清风明月

暂无

没看明白你执行的 main() 函数定义在哪… 对 Python 脚本来说，进行 if __name__ == '__main__' 是指执行本脚本时默认执行的函数。你这里默认执行的 main() 函数没有定义呀，剩下的函数都只是定义，也没有执行。

2019-07-25 00:10:46

赞同展开评论

问答分类：

Web App开发 JSON iOS开发数据格式 Python Windows

问答标签：

Python网站 Python项目 Python爬取 Python网站项目 Python爬取网站

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

魔塔平台"阿里云弹性加速计算EA免费实例"-安装python项目依赖时候实例重置导致数据丢失

400

1

0

如何使用Python获取MaxCompute项目中的所有表名？

155

0

0

类似这种在线Python编程的网站，是利用了容器镜像服务ACR实现的吗？

185

0

0

python 爬取过程中如何保持多个会话？

309

1

0

MaxCompute使用python连接获取到所有项目

144

1

0

Python项目引入modelscope这个库，需要计算机资源，内存，CPU至少多少?

275

0

0

爬虫去重有哪些解决方案以及python scrapy爬取超时怎么处理？

208

1

0

python连接Maxcompute如何获取项目信息

208

1

0

现在的python项目，使用云效运行Dockerfile的命令失败，怎么解决？

160

0

0

使用python的好处是容易上手，但是在一些大型项目中，如何运行呢

168

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云邮箱个人版登录入口链接在哪？

开阿里云服务器多少钱一个？带你了解不同类型的服务器价格

在 IDEA 中使用通义灵码自动修改代码时，IDEA 报错

通义灵码的 idea 插件，版本2.11.3，在idea 2026.1下，点击代码应用按钮报错

太糟糕了 Lingma

相关文章

小书匠：一款本地优先、去中心化的全能笔记软件

一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

DaemonTool_10.6.0.275安装步骤详解（附虚拟光驱挂载ISO与MDF镜像教程）

PyTorch深度学习实战 | 人工智能项目从训练到部署

相关解决方案

更多

在网站上增加一个 AI 助手

极速搭建专属 SBTI 测评网站

网站文本内容安全检测

低成本搭建 DeepSeek 专属 AI 网站

网站静态资源访问加速

还有其他疑问?