新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复
This commit is contained in:
@@ -162,10 +162,17 @@ class ProductCrawler(BaseCrawler):
|
||||
elif element.name.startswith('h'):
|
||||
text = element.get_text(strip=True)
|
||||
if text and '零差云控' not in text:
|
||||
# HTML h1-h6 直接映射到 Word Heading 1-6
|
||||
# 限制在 1-9 范围内(Word 支持的最大标题级别)
|
||||
level = int(element.name[1])
|
||||
doc.add_heading(text, level=min(level, 9))
|
||||
# 对于页面内容中的标题,h1 转换为 Heading 2,h2-h6 保持原层级
|
||||
# 因为页面标题已经是 Heading 1,所以内容中的 h1 应该降级为 Heading 2
|
||||
original_level = int(element.name[1])
|
||||
if original_level == 1:
|
||||
# 页面内容中的 h1 转换为 Heading 2
|
||||
word_level = 2
|
||||
print(f" 标题层级转换: h1 '{text}' → Heading 2")
|
||||
else:
|
||||
# h2-h6 保持原层级(h2→Heading 2, h3→Heading 3, ...)
|
||||
word_level = original_level
|
||||
doc.add_heading(text, level=min(word_level, 9))
|
||||
|
||||
elif element.name == 'table':
|
||||
# 处理表格
|
||||
|
||||
Reference in New Issue
Block a user