更新爬虫方案文档,增加服务与支持-详细页面的输出信息;优化基础爬虫类,增强标题提取和内容去重逻辑;根据doc2md.py调整图片处理逻辑以改善Word文档生成效果。
This commit is contained in:
@@ -5,3 +5,19 @@ markdownify>=0.11.0
|
||||
python-docx>=0.8.11
|
||||
lxml>=4.9.0
|
||||
|
||||
# doc2md.py 依赖
|
||||
Pillow>=9.0.0
|
||||
matplotlib>=3.5.0 # 可选:用于渲染 LaTeX 公式
|
||||
# wand>=0.6.0 # 可选:用于 WMF/EMF 转换(需要系统安装 ImageMagick)
|
||||
# html2image>=2.0.0 # 可选:用于表格渲染为图片
|
||||
|
||||
# test_llm.py 依赖 - RAG 方案
|
||||
openai>=1.0.0
|
||||
langchain>=0.1.0
|
||||
langchain-openai>=0.1.0
|
||||
langchain-community>=0.0.20
|
||||
faiss-cpu>=1.7.4
|
||||
tiktoken>=0.5.0
|
||||
sentence-transformers>=2.2.0
|
||||
torch>=2.0.0
|
||||
|
||||
|
||||
Reference in New Issue
Block a user