建站SEO优化之站点地图sitemap

简介: 很早以前一直觉得站点地图可有可无,反正搜索引擎爬虫都会自己去爬站内各种连接。但是对于一个新站或经常更新的站点来说,站点地图很重要性,是快速告诉搜索引擎站内有哪些内容或更新了哪些内容。并且还能针对不同以页面配置优先级等。

很早以前一直觉得站点地图可有可无,反正搜索引擎爬虫都会自己去爬站内各种连接。但是对于一个新站或经常更新的站点来说,站点地图很重要性,是快速告诉搜索引擎站内有哪些内容或更新了哪些内容。并且还能针对不同以页面配置优先级等。


站点地图通常在 robots.txt 文件中声明,具体可看之前的文章(一文搞懂SEO优化之站点robots.txt

编写规范

比较常见是 xml类型站点地图,还有RSS、mRSS 、Atom 1.0(与xml类型类似)以及文本类型站点地图。本篇主要说一说xml格式中如何实现。

因为站点地图是描述网站中都有哪些页面,不同体量的网站网页数差别很多,大型网站可能上万或几十万个网页,小型网站可能就几十个网页。如果都放到站点地图文件里会使文件太大读取困难,并且搜索引擎爬虫通常也会对站点地图大小有要求,比如谷歌就要求站点地图不能大于50M,且不超过5万个站点,那其余网站怎么办?

小型网站站点地图

小型网站规范示例

例如:https://ai-bar.com/sitemap.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://ai-bar.cn/tools</loc>
  </url>
  <url>
    <loc>https://ai-bar.cn/tools/wechat-editor</loc>
    <lastmod>2025-06-04</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://ai-bar.cn/news</loc>
    <lastmod>2025-06-04</lastmod>
  </url>
</urlset>

站点地图说明

整个站点地图信息都是通过 urlset 标签包裹,内部每一个网站链接都是通过 url 标签定义,其中 loc 是必须要有的,lastmodchangefreqpriority 为非必须的。

  • urlset 站点地图外层容器标签,照抄即可。
  • url 定义站点链接信息的父标签
  • loc 必须有,定义具体链接,必须包含域名的绝对地址,如 https://ai-bar.cn/tools,不能是相对地址如 /tools
  • lastmod 可选,最新修改时间,可是 2025-06-06,也可以是 2025-06-06T18:00:12+00:00
  • changefreq 可选,定义页面更新频率,可选值有 alwayshourlydailyweeklymonthlyyearlynever,其中 always 为每次访问网页都会变化,never 存档不更新。尽管这么规定了,实际上搜索引擎爬虫并不完全根据这里的规定来抓取。
  • priority 可选,定义页面优先级,从 0.01.0,这个标签的定义不会影响页面在搜索中的排名,只会影响在本站中的重要性。

注意
这里设置的值是相对的,如果所有页面都设置的很高,实际上搜索引擎会认为没有重要性或重要性一样,所以应根据实际情况定义。我自己在生成站点地图的时候会根据网页的目录层级来动态生成优先级,每多一个层级就减少0.2,一般来说页面的目录层级不超过3层最好。

详细规范可以看这里https://www.sitemaps.org/protocol.html

大型网站站点地图

前面介绍的是页面较少的小型网站的站点地图,对于页面较多的大型网站有所不同。

大型网站规范示例

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://test.com/sitemap1.xml</loc>
    <lastmod>2025-06-05</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://test.com/sitemap2.xml</loc>
  </sitemap>
</sitemapindex>

这个站点地图其实是管理子站点的索引文件,普通站点的 urlset 标签被替换为了 sitemapindexurl 标签被替换为了 sitemap,其余的没有什么变化。不过仔细观察可以发现,loc 中定义的不是单个网址,而是xml 的普通站点地图。

以豆瓣站点地图为例

站点地图为:https://www.douban.com/sitemap_index.xml,可以发现大约定义了 1万<sitemap>,每一个 <sitemap> 定义了 gzip 压缩的xml普通站点地图。

<?xml version="1.0" encoding="utf-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.douban.com/sitemap.xml.gz</loc>
    <lastmod>2025-05-31T20:22:12Z</lastmod>
  </sitemap>
  <!-- 其他... -->
  <sitemap>
    <loc>https://www.douban.com/sitemap9985.xml.gz</loc>
    <lastmod>2025-05-31T20:22:12Z</lastmod>
  </sitemap>
</sitemapindex>

随机下载一个发现就是前面介绍的普通网站的站点地图。

<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://movie.douban.com/celebrity/1524905/movies</loc>
    <priority>0.7</priority>
    <changefreq>weekly</changefreq>
  </url>
  <!-- 其他行... -->
</urlset>

不看不知道,一看真是惊呆了,每一个站点地图也包含了巨量的网页,随机下载了几个测试,每个几乎都有 7万个 左右的链接定义,当然也有少一些的。这么粗算下来:1万个站点地图 * 7万个链接 ,豆瓣岂不是有7亿个页面!!

好了今天就研究这么多。由此可见,大型网站(尤其C端)并不是这么容易维护,就站点地图的生成、不同子站或模块如何维护更新频率,还有更新时间等就需要统一平台来管理。

原文地址:建站SEO优化之站点地图sitemap

相关文章
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
Deep Search 如何理解业务仓库代码?
本文系统地介绍了 Deep Search 和 Deep Research 的概念、与传统 RAG 的区别、当前主流的商业产品与开源方案、在代码领域的应用(如 Deep Search for 仓库问答)以及未来的发展规划。
578 21
Deep Search 如何理解业务仓库代码?
|
6月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器4核8G配置:ECS实例规格、CPU型号及使用场景说明
阿里云4核8G服务器ECS提供多种实例规格,包括高主频计算型hfc8i、计算型c8i、通用算力型u1、经济型e等。各规格配备不同CPU型号与主频性能,适用于机器学习、数据分析、游戏服务器、Web前端等多种场景。用户可根据需求选择Intel或AMD处理器,如第四代Xeon或AMD EPYC系列,满足高性能计算及企业级应用要求。更多详情参见阿里云官方文档。
530 1
|
6月前
|
数据采集 运维 供应链
终于有人讲清楚了!ERP、MES、SRM、SCM、QMS、EAM、APS、PLM、OA、CRM、WMS、TMS、SCADA、HR...
在数字化时代,企业依赖多种信息系统提升运营效率。本文详解ERP、MES、SRM等14类系统功能与应用场景,并剖析其协同价值。从初创到全球化企业,各阶段系统引入策略清晰展现。
|
6月前
|
SQL 自然语言处理 数据库
告别切屏|阿里云DMS MCP+通义灵码30分钟搞定电商秒杀开发
近日,阿里云数据管理DMS发布 开源DMS MCP Server,支持RDS、PolarDB、OLAP、NoSQL等40+主流数据源连接的多云通用数据MCP Server,一站式解决跨源数据安全访问。点击访问开源DMS MCP Server GitHub地址:https://github.com/aliyun/alibabacloud-dms-mcp-server
562 0
|
6月前
|
数据采集 人工智能 安全
全国 CIO大会论道:阿里云上的Salesforce与企业共探AI落地的困与解
5月28日,第十一届全国CIO大会在西安召开,近400位企业CIO及IT高管齐聚,围绕“AI+数据赋能业务场景”主题探讨数智化转型路径。阿里云与瓴羊联合主办分论坛,聚焦“开启数智增长——AI落地的困与解”。会上,阿里云分享了Salesforce本土化实践,提出AI+CRM实战方法论;瓴羊则提出企业级AI能力的四层架构思路。雅戈尔与亚萨合莱等制造巨头分享了AI技术赋能业务的经验,展示AI与数据深度融合带来的新活力。
|
6月前
|
XML JSON API
深入研究: 亚马逊 amazon商品列表API接口 Python 攻略
本内容介绍了亚马逊商品列表API接口的应用价值与操作方法。在电商数据分析驱动决策的背景下,该接口可自动化获取商品基本信息(如名称、价格、评价等),助力市场调研、竞品分析及价格监控等场景。接口通过设置搜索条件(关键词、类目、价格范围等)筛选商品列表,以GET请求方式调用,返回JSON或XML格式数据,包含商品基本信息、价格、评价、图片链接及库存状态等内容。合理使用此接口可提升运营效率、降低人力成本并及时掌握市场动态。
|
6月前
|
数据采集 XML 搜索推荐
一文搞懂SEO优化之站点robots.txt
建站后千万别忘记配置 `robots.txt` 爬虫规则,对于搜索引擎发现你的站点非常重要,除了主动到搜索引擎平台提交网站之外,也要主动告诉搜索引擎网站里都有哪些网页?哪些希望被抓取?哪些不希望被抓取?
300 3
|
5月前
|
数据采集 XML 监控
Google Search Console 做SEO分析之“已发现未编入” 与 “已抓取未编入” 有什么区别?
在 Google Search Console (GSC) 中,“已发现 - 尚未编入索引”(Discovered - currently not indexed) 和 “已抓取 - 尚未编入索引”(Crawled - currently not indexed) 是两种不同的状态,如果你的站点也有这两种状态就需要注意优化了。
232 0
|
Web App开发 前端开发 JavaScript
前端开发必备神器大公开,用过的人都哭了:效率翻倍不是梦!
前端开发结合了创意与技术,本文介绍了几个提升开发效率的工具:Visual Studio Code、Webpack、Postman、GitHub 和 Chrome DevTools。这些工具分别在代码编辑、模块打包、API 测试、版本控制和网页调试等方面发挥重要作用,帮助开发者提高工作效率,优化项目管理。
250 4
|
编解码 移动开发 前端开发
详细介绍Viewport Meta标签的作用、属性以及如何在移动端开发中合理使用它,以优化网页的显示效果
【6月更文挑战第14天】本文介绍了HTML的Viewport Meta标签在移动端网页优化中的应用。该标签定义了视口属性,如宽度、高度和缩放,解决屏幕尺寸差异导致的显示问题。通过设置`width=device-width`确保页面适应设备宽度,`initial-scale=1.0`保持原始比例,`user-scalable=no`可禁用手动缩放。此外,使用`viewport-fit=cover`适配不同像素比设备的安全区域。合理利用这些属性能改善移动端网页显示效果。
716 1

热门文章

最新文章