-
9e14b56275
优化文档导出层级与链接保真,统一正文标题映射并增强 Word 段落超链接处理。
main
Oo
2026-03-30 10:32:34 +08:00
-
d257cbaed3
优化摘要配置加载与文档输出兼容性,并补充本地配置忽略规则。
Oo
2026-03-26 09:39:07 +08:00
-
dbe9ba3629
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
oy2020
2026-02-09 18:53:32 +08:00
-
c707704d80
更新爬虫方案文档,增加摘要提取模块以生成文档摘要;优化基础爬虫类的标题提取逻辑,支持多个选择器,调整内容处理逻辑以去除重复标题。
oy2020
2026-01-31 16:34:13 +08:00
-
3c625d1c3a
更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。
oy2020
2026-01-31 09:30:33 +08:00
-
3670129972
忽略 output 文件夹,移除已跟踪的 output 文件
oy2020
2026-01-29 17:42:43 +08:00
-
51b67b9e68
初始提交:零差云控官网爬虫项目
oy2020
2026-01-29 17:29:14 +08:00