新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
This commit is contained in:
@@ -16,6 +16,7 @@ crawl_0131(1)/
|
||||
│ ├── base_crawler.py # 基础爬虫类
|
||||
│ ├── product_crawler.py # 产品页专用爬虫(处理 eRob、eCoder、配件)
|
||||
│ ├── extract_abstract.py # 摘要提取模块(使用大模型生成文档摘要)
|
||||
│ ├── post_process.py # Word 文档后处理模块(优化连续标题)
|
||||
│ └── utils.py # 工具函数
|
||||
└── output/ # 输出目录
|
||||
```
|
||||
@@ -70,9 +71,13 @@ python main.py
|
||||
- 使用 `ProductCrawler` 处理产品页面(机器人关节、编码器、配件)
|
||||
- 支持多种页面布局和内容选择器
|
||||
- 自动去重标题,优化 Word 文档格式
|
||||
- **层级处理**:Markdown 和 Word 采用相同的层级处理规则,确保文档结构一致
|
||||
- 页面内容中的 h1 自动降级为二级标题,确保层级结构清晰
|
||||
- Word 文档生成后自动进行后处理,优化连续标题
|
||||
- **摘要提取**:`extract_abstract.py` 模块使用大模型(OpenAI API)为每个分类的文档集合生成摘要
|
||||
- 面向客户售前咨询场景,生成100-200字的简洁摘要
|
||||
- 自动生成相关链接列表
|
||||
- 摘要前自动添加索引页链接
|
||||
- 摘要失败时自动降级为仅生成链接列表
|
||||
|
||||
## 待处理项目
|
||||
|
||||
Reference in New Issue
Block a user