Node.js使用cheerio解析html

简介: Node.js使用cheerio解析html

cheerio语法类似jQuery

doc

安装

npm i cheerio

代码实例

const cheerio = require("cheerio");

const doc = cheerio.load('<h2 class="title">Hello world</h2>', {
xmlMode: true,
decodeEntities: false
});

doc("h2.title").text("Hello there!");
doc("h2").addClass("welcome");

console.log(doc.xml());
// <h2 class="title welcome">Hello there!</h2>

项目实战

import cheerio from "cheerio";

/**
* 将外链图片转为本站连接
@param {} html
* @returns
*/
export async function replaceImage(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let elems = [];

// each不等待promise
doc("img").each(function(index, elem) {
elems.push(doc(this));
});

for (let elem of elems) {
let src = elem.attr("src");

if (src && src.indexOf(process.env.VUE_APP_BASE_URL) == -1) {
// 修改为自己的替换方法
let imageSrc = await saveImage(src);

if (imageSrc) {
elem.attr("src", imageSrc);
}
}
}

return doc.xml();
}

/**
* 提取图片连接
@param {} html
* @returns
*/
export function extractImages(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let images = [];

doc("img").each(function(index, elem) {
let src = doc(this).attr("src");
if (src) {
images.push(src);
}
});

return images;
}



/**
* 移除style属性
@param {} html
* @returns
*/
export function removeStyle(html) {
const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

doc("*[style]").removeAttr("style");

return doc.xml();
}

xml和html

const cheerio = require("cheerio");

const doc = cheerio.load("<a></a>");

// xml模式输出,a标签被处理成自闭合标签
console.log(doc.xml());
// <html><head/><body><a/></body></html>

// html格式输出,a标签没有被处理
console.log(doc.html());
// <html><head></head><body><a></a></body></html>

如果只是使用html片段,可以自己处理html返回后的结果

const cheerio = require("cheerio");

function getDom(html) {
return cheerio.load(html);
}

function toHtml(doc) {
// 将生成文本多余的标签去除
let html = doc.html();
let pattern = /<html><head></head><body>([\s\S]*)</body></html>/;
let res = html.match(pattern);
return res[1];
}

console.log(toHtml(getDom("<a></a>")));
// <a></a>
            </div>
目录
相关文章
|
数据可视化 JavaScript 前端开发
推荐8个炫酷的数据可视化大屏项目
推荐8个炫酷的数据可视化大屏项目
5429 1
|
监控 测试技术
【问题实战】Jmeter中jtl格式转换图片后如何分开展示各个性能指标?
在使用JMeter进行性能测试时,若希望将不同性能指标(如CPU、DiskIO、Mem)分别显示在不同图片中,需在测试计划中为每个指标添加独立的`jp@gc - PerfMon Metrics Collector`监控器,并设置各自的数据保存路径。通过命令行模式执行压测并使用`JMeterPluginsCMD`工具针对每个生成的`.jtl`文件转换为单独的图片,从而实现分指标展示的效果。这解决了默认情况下所有监控指标显示在同一张图片上的问题。
293 0
【问题实战】Jmeter中jtl格式转换图片后如何分开展示各个性能指标?
|
人工智能 Docker 容器
一、轻松部署的大模型开发平台dify.ai
一、轻松部署的大模型开发平台dify.ai
960 0
|
消息中间件 负载均衡 Kafka
Kafka的ISR和OSR的作用分别是什么
Kafka的ISR和OSR的作用分别是什么
982 3
|
存储 分布式计算 NoSQL
阿里云大数据ACA及ACP复习题(141~150)
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。
|
人工智能 机器人 语音技术
神器 | 全新AI配音工具,专治普通话不标准!
比如:上面的视频中,给大家演示了三种配音场景——儿童故事、伤感文字、新闻播报。你听出来了吗?
1048 1
|
人工智能 算法 数据可视化
天猫精灵开放平台AliGenie初体验
天猫精灵开放平台AliGenie初体验
天猫精灵开放平台AliGenie初体验
|
机器学习/深度学习 新零售 人工智能
案例酷丨1688平台:场景服务赋能金融普惠,让交易更安心
案例酷丨1688平台:场景服务赋能金融普惠,让交易更安心
1539 0
|
人工智能 移动开发 算法
禁忌搜索(Tabu Search)原理梳理和应用细节-附求解VRPTW问题C++代码
禁忌搜索(Tabu Search)原理梳理和应用细节-附求解VRPTW问题C++代码
禁忌搜索(Tabu Search)原理梳理和应用细节-附求解VRPTW问题C++代码
|
Python
Python 3.8.8 几个常用库的下载和离线包的制作安装
Python 3.8.8 几个常用库的下载和离线包的制作安装
4355 0