新增标题层级处理规则：1. 新增主页链接；2.新增docx后处理，合并同一层级的标题；3. 优化层级，h1不重复

2026-02-09 18:53:32 +08:00
parent c707704d80
commit dbe9ba3629
5 changed files with 224 additions and 19 deletions
--- a/1_零差云控官网爬虫方案.md
+++ b/1_零差云控官网爬虫方案.md
@@ -16,6 +16,7 @@ crawl_0131(1)/
 │   ├── base_crawler.py     # 基础爬虫类
 │   ├── product_crawler.py  # 产品页专用爬虫（处理 eRob、eCoder、配件）
 │   ├── extract_abstract.py # 摘要提取模块（使用大模型生成文档摘要）
+│   ├── post_process.py     # Word 文档后处理模块（优化连续标题）
 │   └── utils.py            # 工具函数
 └── output/                 # 输出目录
 ```
@@ -70,9 +71,13 @@ python main.py
 - 使用 `ProductCrawler` 处理产品页面（机器人关节、编码器、配件）
 - 支持多种页面布局和内容选择器
 - 自动去重标题，优化 Word 文档格式
+- **层级处理**：Markdown 和 Word 采用相同的层级处理规则，确保文档结构一致
+  - 页面内容中的 h1 自动降级为二级标题，确保层级结构清晰
+  - Word 文档生成后自动进行后处理，优化连续标题
 - **摘要提取**：`extract_abstract.py` 模块使用大模型（OpenAI API）为每个分类的文档集合生成摘要
  - 面向客户售前咨询场景，生成100-200字的简洁摘要
  - 自动生成相关链接列表
+  - 摘要前自动添加索引页链接
  - 摘要失败时自动降级为仅生成链接列表

 ## 待处理项目