This website requires JavaScript.
Explore
Help
Sign In
scalett
/
crawl4zeroerr
Watch
2
Star
1
Fork
0
You've already forked crawl4zeroerr
Code
Issues
Pull Requests
Actions
Packages
Projects
Releases
Wiki
Activity
Files
main
Add File
New File
Upload File
Apply Patch
crawl4zeroerr
/
zeroerr_crawler
History
oy2020
dbe9ba3629
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
..
__init__.py
初始提交:零差云控官网爬虫项目
2026-01-29 17:29:14 +08:00
base_crawler.py
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
config.py
更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。
2026-01-31 09:30:33 +08:00
extract_abstract.py
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
post_process.py
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
product_crawler.py
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
utils.py
初始提交:零差云控官网爬虫项目
2026-01-29 17:29:14 +08:00