更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。

This commit is contained in:
oy2020
2026-01-31 09:30:33 +08:00
parent 3670129972
commit 3c625d1c3a
5 changed files with 332 additions and 58 deletions

View File

@@ -5,3 +5,19 @@ markdownify>=0.11.0
python-docx>=0.8.11
lxml>=4.9.0
# doc2md.py 依赖
Pillow>=9.0.0
matplotlib>=3.5.0 # 可选:用于渲染 LaTeX 公式
# wand>=0.6.0 # 可选:用于 WMF/EMF 转换(需要系统安装 ImageMagick
# html2image>=2.0.0 # 可选:用于表格渲染为图片
# test_llm.py 依赖 - RAG 方案
openai>=1.0.0
langchain>=0.1.0
langchain-openai>=0.1.0
langchain-community>=0.0.20
faiss-cpu>=1.7.4
tiktoken>=0.5.0
sentence-transformers>=2.2.0
torch>=2.0.0