文档备案控制台

开发者社区问答正文

php 抓取的页面如何处理可以只保留DOM结构，去掉CSS和JS？

正则规则写好后，页面一旦有改变就要重新修改正则。
先提取页面的 DOM，有没有比较好的办法？

展开

收起

a123456678 2016-03-25 09:48:14 2694 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

coln

Hello World

Hey Welcome

2019-07-17 19:13:31

赞同展开评论

a123456678

我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...

因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...

<?php
/* i heard that you need DOM ..? */
$doc = new DOMDocument();

/* i wrote a simple page ... change it to a curl result ... */
$doc->loadHTML( <<<HTML_SECTION
<html><head><title>Sunyanzi's Test</title></head>
<body>
  <h1>Hello World</h1>
  <a href="http://segmentfault.com/" id="onlylink">Hey Welcome</a>
</body></html>
HTML_SECTION
);

/* now we should try to get something ... */
$h1Elements = $doc->getElementsByTagName( 'h1' );

/* this line prints "Hello World" ... */
foreach( $h1Elements as $h1Node ) 
    echo $h1Node->nodeValue, PHP_EOL;

/* and this line prints "http://segmentfault.com/" ... */
echo $doc->getElementById( 'onlylink' )->getAttribute( 'href' ), PHP_EOL;

/* now i will introduce something advanced ... using XPath ... */
$xpath = new DOMXPath( $doc );

/* also prints "http://segmentfault.com/" ... locate via h1 ... */
echo $xpath->evaluate(
    'string(//h1[text()="Hello World"]/following-sibling::a/@href)'
    ), PHP_EOL;

基本上 ... 等到你熟练掌握 XPath 之后 ... 你会发现 DOM 比正则要灵活得多 ...

php 处理 XML 的能力远远超乎你的想象 ... 有空读读手册不是坏事恩 ...

2019-07-17 19:13:31

赞同展开评论

问答分类：

JavaScript 前端开发 PHP

问答标签：

CSS页面 JavaScript页面 CSS js dom页面 PHP页面

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在JavaScript中，finally语句块在try...catch结构中有什么特别之处？

157

1

0

宜搭js里获取不到页面dom元素了

444

4

0

云效有试用js vue的代码检查，会出现异常，可以忽略这个异常，但是又想保留这个规范检查该怎么做？

184

1

0

咨询一个 arms 前端接入的问题，如果接入arms js sdk 采用异步的方式，页面在初次加

909

1

0

通用文字识别，用js从页面上直接调用可以么？

737

1

0

部署LAMP php页面显示无法访问

708

1

0

请问在宜搭页面的JS里怎么调用通用文字识别？我看给的SDK都是后端语言的，没有用JS调用的

2285

1

0

RAP获取嵌套页面span元素能获取到但是点击无反应，无法触发js事件

928

1

0

请问静态文件CSS和JS，在SERVERLESS DEVOPS 发布后加载不了怎么处理？PYTHON

1176

1

0

在info.js页面中想要加一些后端的内容以及用户名、密码要怎么表示呢？

965

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

QoderWork的Credit是如何计算的？固定Token量吗？如何查看我消耗了多少Token？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

相关文章

Claude Code四大定制机制全解：CLAUDE.md、Hooks、Skills、Subagents实操指南

AI 时代的 API：大模型如何重塑接口设计

带 AI 智能助手的研发管理工具测评：9 款主流平台怎么选？

AI Agent 慢在哪？Node.js 探针把模型、工具和服务链路一次串起来

看得见，不代表人人都看得懂：数据可视化为什么越来越需要“无障碍设计”？

还有其他疑问?