python爬虫之BeautifulSoup4遇坑记-阿里云开发者社区

python爬虫之BeautifulSoup4遇坑记

2018-11-03 3441

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from urllib import request
from bs4 import BeautifulSoup

html = request.urlopen("https://movie.douban.com/")
bs = BeautifulSoup(html, "lxml-xml")
print(bs.title)

到目前为止，我知道的py36和37中的parser只能选择html-parser和html5lib而lxml和lxml-xml不能用

先说下经过：

1.run

2.报错如下

D:\Users\lunjiawang\wlj\devkit\anaconda\install\python.exe D:/Users/lunjiawang/PycharmProjects/script/src/Practice.py
Traceback (most recent call last):
  File "D:/Users/lunjiawang/PycharmProjects/script/src/Practice.py", line 7, in <module>
    bs = BeautifulSoup(html, "lxml-xml")
  File "D:\Users\lunjiawang\wlj\devkit\anaconda\install\lib\site-packages\bs4\__init__.py", line 198, in __init__
    % ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml-xml. Do you need to install a parser library?

Process finished with exit code 1

3.第一反应 Do you need to install a parser library?这句导致我以为自己的lxml包没有安装，故使用

pip install lxml

因为我是用的conda所以比较方便，但是这导致一个信任问题：conda真的把我要的包导进来了吗？在安装完之后还不行的情况下，我产生了这样的想法，所以开始google

4.google出来的答案基本一致：lxml版本不兼容（后来想想话是没说错，倒是容易产生迷惑），根据网上的大神(基本都是stackOverflow，github啥的)，下载4.0.0的版本，用的amd64 cp35\36下载，然后用pip install 文件目录安装。不行，报错原因简单：not support in this platform

8e32d7833f1b4623bed2fc294c6ba01aa5ed9a53

5.显而易见，平台不支持，当时的想法是系统平台，而不是py平台，继续找该问题的方法

6.直到有个网友说win10 py35需要下载3.7.2之前的版本，一脸懵逼，然后我想，既然4.0.0不行，那么py35和我的37应该差别不大，有可能还是lxml版本问题（没错啊，就是迷惑了），所以下了3.7的(其实在下载4.0.0的时候我就尝试下了3.8也不行，心想不会就一墙之隔吧)，满心激动，安装-报错，此时都有点郁闷了

7.继续找答案，在StackOverflow上有个家伙说他是py37的下载4.2.5 cp37版本的lxml就好了。嗯？cp37？难道？35\36\37都是lxml版本的意思？对啊，吐血，这样说，我37之前一直下载4.2.5之前的版本不是找死吗？因为没有cp37啊。

8到此未知，虽然问题没有解决，但是发现自己的方向找错了。我的lxml版本没问题，有问题的是？？？是什么？

9.继续寻找，到源码看看吧，发现有如下

:param features: Desirable features of the parser to be used. This
        may be the name of a specific parser ("lxml", "lxml-xml",
        "html.parser", or "html5lib") or it may be the type of markup
        to be used ("html", "html5", "xml"). It's recommended that you
        name a specific parser, so that Beautiful Soup gives you the
        same results across platforms and virtual environments.

咦，好像parser有好多个，不仅仅只有lxml嘛。难道？这个跟py版本有关？为了验证这个想法，继续google

10.狂输：

py37 Couldn't find a tree builder with the features you requested

老天不负苦心人，终于有个CSDN老哥ssITt猿写了个py36 Couldn't find a tree builder with the features you requested:的文章，既然找不到37的就用36试试呗，里面给了方法：

在报错代码中把函数参数中所有的"lxml"改成"html.parser"
例子：

bs = BeautifulSoup(r, 'lxml')
 #改成 bs = BeautifulSoup(r, 'html.parser')

11.调整，run 成功了

总结：这个过程，我一直在抱怨python怎么这么麻烦，包也没有人管理，下载个三方包还需要自己手动pip，依赖没人管理，下错了就给你error，社区（包括网站），更新的是勤快，但是有py、pip更新的勤快嘛？说不定下周我这个parser又不管用，又不知道会坑死多少人

话说回来，从这个小bug中发现自己的思路还是有点问题：首先，遇到问题马上google，这个不太好，最好的方法就是源码，看最底层的东西，如果是刚学习一个工具、语言、软件啥的，最好是从doc里面汲取最官方的东西（只是全英文理解起来不是很容易，但是很详细很完整，大家可以看我其他博客里面对es的官网翻译，最近也在逼自己看原文）；其次，动手能力差，其实很早就看到有很多parser，但是因为没想到跟这个有关就没有一个个试，总期待别人给现成的答案。再者，独立思考的能力也很重要，很明显这次的逻辑应该是：conda已经帮我安装了lxml包，但是程序报包找不到，说明程序这个报错只是表象，而不能轻易相信包的版本有问题。然后应该看前面一句报错：

Couldn't find a tree builder with the features you requested: lxml-xml

找不到lxml-xml这个features，那么我的包没问题，只是features有问题，此时进入源码发现有很多features，换一个试试就完了

哎，逻辑太重要，我总是想的比较复杂，归根结底还是因为没有很好的独立思考的能力，

愿与大家共勉共进步

python爬虫之BeautifulSoup4遇坑记

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python爬虫之BeautifulSoup4遇坑记

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像