新增标题层级处理规则：1. 新增主页链接；2.新增docx后处理，合并同一层级的标题；3. 优化层级，h1不重复

2026-02-09 18:53:32 +08:00
parent c707704d80
commit dbe9ba3629
5 changed files with 224 additions and 19 deletions
--- a/zeroerr_crawler/extract_abstract.py
+++ b/zeroerr_crawler/extract_abstract.py
@@ -11,13 +11,14 @@ API_KEY = "sk-LX1g8KkG61S6eUaVD567C0C187D4452c90F9E6985cDf3586"
 MODEL = "Yiming"


-def generate_abstract(all_pages: list[dict], category_name: str) -> str:
+def generate_abstract(all_pages: list[dict], category_name: str, index_url: str = None) -> str:
    """
    使用大模型生成文档摘要
    
    Args:
        all_pages: 所有页面数据列表，每个元素包含 'title', 'url', 'markdown' 等字段
        category_name: 文档类别名称（如"应用案例"）
+        index_url: 索引页完整URL（可选），如果提供则会在摘要前添加原文链接
    
    Returns:
        摘要文本（Markdown格式），包含摘要内容和链接列表
@@ -75,8 +76,11 @@ def generate_abstract(all_pages: list[dict], category_name: str) -> str:
            url = page.get('url', '')
            links_section += f"{i}. [{title}]({url})\n"
        
-        # 组合摘要和链接
-        result = f"{abstract_text}{links_section}"
+        # 组合摘要和链接，如果提供了索引页URL，则在摘要前添加原文链接
+        if index_url:
+            result = f"原文链接: {index_url}\n\n{abstract_text}{links_section}"
+        else:
+            result = f"{abstract_text}{links_section}"
        
        return result
        
@@ -88,4 +92,8 @@ def generate_abstract(all_pages: list[dict], category_name: str) -> str:
            title = page.get('title', '未命名')
            url = page.get('url', '')
            links_section += f"{i}. [{title}]({url})\n"
+        
+        # 如果提供了索引页URL，在链接列表前添加原文链接
+        if index_url:
+            return f"原文链接: {index_url}{links_section}"
        return links_section