新增标题层级处理规则:1. 新增主页链接;2.新增docx后处理,合并同一层级的标题;3. 优化层级,h1不重复

This commit is contained in:
oy2020
2026-02-09 18:53:32 +08:00
parent c707704d80
commit dbe9ba3629
5 changed files with 224 additions and 19 deletions

View File

@@ -11,13 +11,14 @@ API_KEY = "sk-LX1g8KkG61S6eUaVD567C0C187D4452c90F9E6985cDf3586"
MODEL = "Yiming"
def generate_abstract(all_pages: list[dict], category_name: str) -> str:
def generate_abstract(all_pages: list[dict], category_name: str, index_url: str = None) -> str:
"""
使用大模型生成文档摘要
Args:
all_pages: 所有页面数据列表,每个元素包含 'title', 'url', 'markdown' 等字段
category_name: 文档类别名称(如"应用案例"
index_url: 索引页完整URL可选如果提供则会在摘要前添加原文链接
Returns:
摘要文本Markdown格式包含摘要内容和链接列表
@@ -75,8 +76,11 @@ def generate_abstract(all_pages: list[dict], category_name: str) -> str:
url = page.get('url', '')
links_section += f"{i}. [{title}]({url})\n"
# 组合摘要和链接
result = f"{abstract_text}{links_section}"
# 组合摘要和链接如果提供了索引页URL则在摘要前添加原文链接
if index_url:
result = f"原文链接: {index_url}\n\n{abstract_text}{links_section}"
else:
result = f"{abstract_text}{links_section}"
return result
@@ -88,4 +92,8 @@ def generate_abstract(all_pages: list[dict], category_name: str) -> str:
title = page.get('title', '未命名')
url = page.get('url', '')
links_section += f"{i}. [{title}]({url})\n"
# 如果提供了索引页URL在链接列表前添加原文链接
if index_url:
return f"原文链接: {index_url}{links_section}"
return links_section