Logo
Explore Help
Sign In
scalett/crawl4zeroerr
2
1
Fork 0
You've already forked crawl4zeroerr
Code Issues Pull Requests Actions Packages Projects Releases Wiki Activity
Files
9e14b5627527aef744667890c6d34d3cb0e79dc8
crawl4zeroerr/zeroerr_crawler
History
Oo 9e14b56275 优化文档导出层级与链接保真,统一正文标题映射并增强 Word 段落超链接处理。
同时移除不再使用的文档后处理依赖,减少汇总导出流程中的冗余步骤。

Made-with: Cursor
2026-03-30 10:32:34 +08:00
..
__init__.py
初始提交:零差云控官网爬虫项目
2026-01-29 17:29:14 +08:00
base_crawler.py
优化文档导出层级与链接保真,统一正文标题映射并增强 Word 段落超链接处理。
2026-03-30 10:32:34 +08:00
config.py
更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。
2026-01-31 09:30:33 +08:00
extract_abstract.py
优化摘要配置加载与文档输出兼容性,并补充本地配置忽略规则。
2026-03-26 09:39:07 +08:00
post_process.py
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
product_crawler.py
优化文档导出层级与链接保真,统一正文标题映射并增强 Word 段落超链接处理。
2026-03-30 10:32:34 +08:00
utils.py
初始提交:零差云控官网爬虫项目
2026-01-29 17:29:14 +08:00
Powered by Gitea Version: 1.25.2 Page: 32ms Template: 3ms
English
Bahasa Indonesia Deutsch English Español Français Gaeilge Italiano Latviešu Magyar nyelv Nederlands Polski Português de Portugal Português do Brasil Suomi Svenska Türkçe Čeština Ελληνικά Български Русский Українська فارسی മലയാളം 日本語 简体中文 繁體中文(台灣) 繁體中文(香港) 한국어
Licenses API