如何使用 Python 解析 Sitemap.xml 并提取所有URL

作为网站所有者或开发者，我们时常需要从网站的 Sitemap 文件中提取所有 URL，以便开展 SEO 分析、手动提交链接、内容审核或其它自动化处理工作。本文将介绍如何使用 Python 编写一个简单的脚本来高效完成这一任务。

什么是 Sitemap？

Sitemap（网站地图）是一种 XML 格式的文件，其中记录了网站内可供搜索引擎抓取的全部页面地址。它有助于搜索引擎更好地理解网站结构并提高抓取效率。Sitemap 通常存放在网站根目录下，例如：https://www.iyanxi.com/sitemap.xml。

为什么要提取 Sitemap 中的 URL？

从 Sitemap 中批量提取 URL 主要有以下几个实际应用场景：

SEO 优化：分析网站的内容结构、页面分布与覆盖率，发现抓取盲区。
内容审核：确认关键页面是否已被正确收录，排查遗漏或错误。
数据分析：获取全站页面清单，为后续的爬虫、统计或内容分析提供基础数据。
监控与检测：定期验证 Sitemap 中 URL 的可访问性及响应状态，及时发现问题。

使用 Python 提取 Sitemap URL 的示例代码

下面提供了一个完整的 Python 脚本，可用于从指定 Sitemap 中提取所有 URL：

import requests
import xml.etree.ElementTree as ET

def fetch_and_extract_sitemap_links(sitemap_url, output_file='iyanxi_links.txt'):
    """
    从指定的sitemap URL获取内容并提取所有https://www.iyanxi.com/开头的链接
    
    Parameters:
    sitemap_url (str): sitemap.xml的URL地址
    output_file (str): 输出文件名
    """
    try:
        # 设置请求头，模拟浏览器行为
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        
        # 发送GET请求获取sitemap内容
        print(f"正在从 {sitemap_url} 获取sitemap数据...")
        response = requests.get(sitemap_url, headers=headers, timeout=10)
        
        # 检查请求是否成功
        response.raise_for_status()
        
        # 解析XML内容
        root = ET.fromstring(response.content)
        
        # 定义命名空间
        namespaces = {
            'ns': 'http://www.sitemaps.org/schemas/sitemap/0.9'
        }
        
        # 查找所有<url>元素
        urls = root.findall('.//ns:url', namespaces)
        
        # 提取符合条件的链接
        xsfly_links = []
        for url in urls:
            loc = url.find('ns:loc', namespaces)
            if loc is not None and loc.text.startswith('https://www.iyanxi.com/'):
                xsfly_links.append(loc.text)
        
        # 将链接保存到txt文件
        with open(output_file, 'w', encoding='utf-8') as file:
            for link in xsfly_links:
                file.write(link + '\n')
        
        print(f"成功提取 {len(xsfly_links)} 个链接")
        print(f"结果已保存到 {output_file}")
        
        return xsfly_links
        
    except requests.exceptions.RequestException as e:
        print(f"网络请求错误: {e}")
        return []
    except ET.ParseError as e:
        print(f"XML解析错误: {e}")
        return []
    except Exception as e:
        print(f"发生未知错误: {e}")
        return []

# 使用示例
if __name__ == "__main__":
    sitemap_url = "https://www.iyanxi.com/sitemap.xml"
    links = fetch_and_extract_sitemap_links(sitemap_url)
    
    # 可选：打印前几个链接作为预览
    if links:
        print("\n前5个链接预览:")
        for i, link in enumerate(links[:5], 1):
            print(f"{i}. {link}")
        if len(links) > 5:
            print("... (更多链接已保存到文件)")
    else:
        print("[WARNING] 未提取到任何链接，请检查 sitemap URL 或网络连接")

代码解析

导入所需库
requests：用于发起 HTTP 网络请求，获取 Sitemap 文件内容。
xml.etree.ElementTree：用于解析和处理 XML 格式的数据。
设置请求头
模拟真实浏览器的访问行为，降低因默认请求标识被目标服务器拒绝的风险。
发送请求与错误处理
通过 try-except 结构捕获网络请求失败、响应状态异常以及 XML 解析错误等潜在问题，确保脚本执行过程的稳定性。
解析 XML 内容
借助 ElementTree 解析 Sitemap 的 XML 结构，并正确处理其中可能出现的命名空间（namespace），保证 URL 节点的准确定位。
提取并过滤 URL
遍历所有 <url> 节点，提取其子节点 <loc> 中的文本内容作为页面地址。您也可根据实际需要添加自定义过滤条件，例如仅保留特定域名下的 URL。
保存提取结果
将获取到的 URL 列表逐行写入文本文件，便于后续查看或用于其它自动化流程。

如何使用该脚本

环境准备：确保本地已安装 Python 环境，并通过 pip install requests 安装所需的第三方库。
保存脚本：将上述完整代码复制并保存为本地文件，如 sitemap_extractor.py。
修改目标地址：编辑脚本中的 sitemap_url 变量，将其值替换为实际要解析的 Sitemap 地址。
运行脚本：在终端或命令行中执行 python sitemap_extractor.py。
查看结果：脚本执行完毕后，会在当前目录生成 xsfly_links.txt 文件，其中包含提取到的所有 URL。

扩展应用思路

基础脚本已具备核心提取功能，在此基础上可根据实际场景进一步扩展：

处理 Sitemap 索引文件：部分大型站点会采用 Sitemap 索引文件（即包含多个子 Sitemap 入口）。可增加递归解析逻辑，自动获取并处理所有子文件。
精细化过滤：依据 <lastmod>（最后修改时间）、<priority>（优先级）或 <changefreq>（更新频率）等字段，仅提取满足特定条件的 URL。
批量处理：同时为多个网站执行 Sitemap 解析任务，提高工作效率。

结语

通过这段简洁的 Python 脚本，我们能够快速、准确地从任意网站的 Sitemap 中提取出完整的 URL 列表。这不仅摆脱了手动复制粘贴的低效操作，也为后续的 SEO 自动化分析、站点健康监控等工作奠定了坚实基础。Python 丰富的生态使得处理网络请求与 XML 解析变得轻松直观，即便是编程新手也能迅速掌握并投入实际应用。

如何使用 Python 解析 Sitemap.xml 并提取所有URL

什么是 Sitemap？

为什么要提取 Sitemap 中的 URL？

使用 Python 提取 Sitemap URL 的示例代码

代码解析

如何使用该脚本

扩展应用思路

结语

如何在绿联 NAS 上轻松部署 OpenClaw

如何在 Claude Code 中安装官方的 Skill 插件

评论列表 (0条)：

延伸阅读:

如何基于win10系统设置python脚本开机自启