This website requires JavaScript.
Explore
Help
Sign In
scalett
/
crawl4zeroerr
Watch
2
Star
1
Fork
0
You've already forked crawl4zeroerr
Code
Issues
Pull Requests
Actions
Packages
Projects
Releases
Wiki
Activity
5
Commits
1
Branch
0
Tags
main
Go to file
Add File
New File
Upload File
Apply Patch
Code
Clone
HTTPS
Tea CLI
Open with VS Code
Open with VSCodium
Open with Intellij IDEA
Download ZIP
Download TAR.GZ
Download BUNDLE
oy2020
dbe9ba3629
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
zeroerr_crawler
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
.gitignore
更新爬虫方案文档,增加摘要提取模块以生成文档摘要;优化基础爬虫类的标题提取逻辑,支持多个选择器,调整内容处理逻辑以去除重复标题。
2026-01-31 16:34:13 +08:00
1_零差云控官网爬虫方案.md
新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
2026-02-09 18:53:32 +08:00
main.py
初始提交:零差云控官网爬虫项目
2026-01-29 17:29:14 +08:00
requirements.txt
更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。
2026-01-31 09:30:33 +08:00
Description
No description provided
118
MiB
Languages
Python
100%