Python-网页转义字符及正则全文匹配-阿里云开发者社区

Python-网页转义字符及正则全文匹配

2018-07-13 1371

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言大部分情况下，通过request去请求网页，response.text返回来的都是正常值，但是有一些反爬虫比较严重的网站(比如知乎)就不会是这样。知乎会返回转义字符，例如：header = { "User-Agent":"Mozilla/5.

前言

大部分情况下，通过request去请求网页，response.text返回来的都是正常值，但是有一些反爬虫比较严重的网站(比如知乎)就不会是这样。知乎会返回转义字符，例如：


header = {
    "User-Agent":"Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0",
    "HOST":"www.zhihu.com",
    "Referer":"https://www.zhihu.com/signup?next=%2F",
}
def rget():
    response = session.get("https://www.zhihu.com/signup?next=%2F", headers=header)
    target_str = response.text
    print(target_str)

rget()

在给知乎的登录页面发请求后，打印返回结果(内容太多，只返回一小部分)：

&quot;token&quot;:{&quot;xsrf&quot;:&quot;9b6c6406-db1b-45fa-8626-296c037cfc00&quot;,&quot;xUDID&quot;:&quot;ANBsasFlAg2PTgaqB1CHBtsWMijmJ20s89E=&quot;},&quot;account&quot;:{&quot;lockLevel&quot;:{}

发现有很多字符是转义的，登录需要用到的xsrf字段也在这里面，这样做正则匹配就很麻烦。

解决的办法是将html进行转义：

import html

target_str = html.unescape(response.text)

就能够得到正常的返回信息了：

"token":{"xsrf":"9febf0fd-7c47-4695-93b6-f670e518d920","xUDID":"ACDsF5lmAg2PTi2GMwQTl0Cwh88G51BOgzc="},

正则匹配

匹配xsrf的值（为了方便测试，只将一小部分值提取出来做匹配）：

tokens = '"token":{"xsrf":"9febf0fd-7c47-4695-93b6-f670e518d920","xUDID":"ACDsF5lmAg2PTi2GMwQTl0Cwh88G51BOgzc="},:'
matchs = re.search(r'xsrf[:"\w-]+', tokens)
if matchs:
    print(matchs.group(0))
else:
    print("未匹配")

得到输出结果为：

xsrf":"9febf0fd-7c47-4695-93b6-f670e518d920"

然后再借用replace将引号替换，然后用split将值用冒号分开：

import re

tokens = '"token":{"xsrf":"9febf0fd-7c47-4695-93b6-f670e518d920","xUDID":"ACDsF5lmAg2PTi2GMwQTl0Cwh88G51BOgzc="},:'
matchs = re.search(r'xsrf[:"\w-]+', tokens)

nstr = matchs.group(0).replace("\"", "").split(":")
finall = nstr[1]
print(finall)

就得到了我需要的xsrf：

9febf0fd-7c47-4695-93b6-f670e518d920

xUDID的提取也是如此，这两个值在知乎登录的时候是需要携带的，所以要提取：

import re

tokens = '"token":{"xsrf":"9febf0fd-7c47-4695-93b6-f670e518d920","xUDID":"ACDsF5lmAg2PTi2GMwQTl0Cwh88G51BOgzc="},:'
matchs = re.search(r'xUDID[:"\w-]+=', tokens)
nstr = matchs.group(0).replace("\"", "").split(":")
finall = nstr[1]
print(finall)

ACDsF5lmAg2PTi2GMwQTl0Cwh88G51BOgzc=

re正则匹配html的坑

上面的正则可以匹配到字符串了，如果正常登录的话要将请求返回的内容文本进行匹配的，也就是匹配response.text，代码是否就是

matchs = re.search(r'xUDID[:"\w-]+=', response.text)

坑就在这里！

re默认匹配的是单行字符串，而response.text的返回值虽然是一个html页面的构成，但是它是分行的，第一行是html头<! DOCUMENT html>不是我想要的整个文本进行匹配。

re是支持整个文本匹配的，需要在正则代码加上参数re.DOTALL即可：

matchs = re.search(r'xUDID[:"\w-]+=', response.text， re.DOTALL)

就可以对整个返回的文本进行匹配了

Python-网页转义字符及正则全文匹配

前言

正则匹配

re正则匹配html的坑

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python-网页转义字符及正则全文匹配

前言

正则匹配

re正则匹配html的坑

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像