更新爬虫方案文档,增加摘要提取模块以生成文档摘要;优化基础爬虫类的标题提取逻辑,支持多个选择器,调整内容处理逻辑以去除重复标题。
This commit is contained in:
@@ -7,14 +7,15 @@
|
||||
|
||||
## 代码结构
|
||||
```
|
||||
crawl/
|
||||
crawl_0131(1)/
|
||||
├── main.py # 主入口
|
||||
├── requirements.txt # 依赖
|
||||
├── zeroerr_crawler/ # 爬虫模块
|
||||
│ ├── __init__.py
|
||||
│ ├── config.py # 配置文件(所有任务配置)
|
||||
│ ├── base_crawler.py # 基础爬虫类
|
||||
│ ├── product_crawler.py # 产品页专用爬虫
|
||||
│ ├── product_crawler.py # 产品页专用爬虫(处理 eRob、eCoder、配件)
|
||||
│ ├── extract_abstract.py # 摘要提取模块(使用大模型生成文档摘要)
|
||||
│ └── utils.py # 工具函数
|
||||
└── output/ # 输出目录
|
||||
```
|
||||
@@ -62,6 +63,17 @@ python main.py
|
||||
- 每个分类生成一个汇总文档(`xxx_汇总.md` 和 `xxx_汇总.docx`)
|
||||
- 图片保存到对应分类的 `images/` 目录
|
||||
- Word 文档中嵌入本地图片
|
||||
- 支持表格、列表、标题等格式转换
|
||||
|
||||
## 技术说明
|
||||
- 使用 `StandardCrawler` 处理标准页面(新闻、案例、问题等)
|
||||
- 使用 `ProductCrawler` 处理产品页面(机器人关节、编码器、配件)
|
||||
- 支持多种页面布局和内容选择器
|
||||
- 自动去重标题,优化 Word 文档格式
|
||||
- **摘要提取**:`extract_abstract.py` 模块使用大模型(OpenAI API)为每个分类的文档集合生成摘要
|
||||
- 面向客户售前咨询场景,生成100-200字的简洁摘要
|
||||
- 自动生成相关链接列表
|
||||
- 摘要失败时自动降级为仅生成链接列表
|
||||
|
||||
## 待处理项目
|
||||
- [ ] 报价与交期页面:https://www.zeroerr.cn/inquiry/
|
||||
|
||||
Reference in New Issue
Block a user