返回 Obsidian知识库

1、LLM Wiki 核心概念与架构解析

第1篇|LLM Wiki 核心概念与架构解析

适用读者:对知识管理有需求,想了解"第二大脑"工程化方案的开发者
预计阅读时间:15分钟


1.1 什么是 LLM Wiki?

LLM Wiki 是由 Andrej Karpathy 提出的一种知识管理范式:用 Markdown 文件替代向量数据库,构建一个可持续积累、交叉引用的知识库。

它的核心假设是:知识的价值随时间增长,但传统笔记工具(Notion、印象笔记)把知识锁在孤岛里,时间一久就变成了「积灰的收藏夹」。

Karpathy 的原话是这么说的:

Instead of RAG-ing forever, let's just compile the knowledge once and keep it current.

翻译成人话:与其每次问问题都从原始文档里捞答案,不如提前把答案整理好放在那里,用的时候直接调。


1.2 它解决什么问题?

场景对比:RAG vs LLM Wiki

| 维度 | RAG | LLM Wiki |
|------|-----|---------|
| 知识召回方式 | 每次 query 实时检索 | 预编译,知识已存在文件中 |
| 适合数据规模 | 海量文档(1000+篇) | 精炼知识库(50-500篇核心文档) |
| 跨文档关联 | 弱,难以发现隐含联系 | 强,wikilinks 显式关联 |
| 建库成本 | 低(直接灌入) | 高(需要人工/Agent 整理) |
| 知识一致性 | 难以避免矛盾 | Agent 维护时可主动检测矛盾 |
| 适用场景 | 问答机器人、企业知识库 | 个人/团队持续深耕的专业领域 |

结论:如果你有 500 篇以内的核心资料,且这个领域的知识会不断更新、相互引用,LLM Wiki 比 RAG 更适合你。


1.3 三层架构设计

LLM Wiki 的核心是三层分离架构,每一层有明确的职责边界:

┌─────────────────────────────────────────────────────────┐
│                     Layer 3: Schema                      │
│              SCHEMA.md — 规范、约定、标签体系              │
├─────────────────────────────────────────────────────────┤
│                     Layer 2: Wiki                        │
│   entities/   concepts/   comparisons/   queries/        │
│         Agent 读写维护的"知识页"                          │
├─────────────────────────────────────────────────────────┤
│                     Layer 1: Raw                         │
│      raw/articles/  raw/papers/  raw/transcripts/       │
│              原始来源——Immutable(不可修改)               │
└─────────────────────────────────────────────────────────┘

Layer 1 — Raw(原始层)

存放未经加工的原始来源

raw/
├── articles/      # 网页文章、博客
├── papers/        # PDF 论文
├── transcripts/   # 会议记录、访谈文字稿
└── assets/        # 图片、图表等多媒体

核心原则:Raw 层永远不修改。如果来源有错误,纠正在 Layer 2 的 wiki 页面做,Raw 层保持原样。这确保了可溯源性——任何时候都能回滚到「当时看到的原文」。

Layer 2 — Wiki(知识层)

Agent 和人共同维护的知识页

| 目录 | 用途 | 示例 |
|------|------|------|
| entities/ | 实体页(人物/公司/产品/模型) | openai-gpt4.mdtransformer架构.md |
| concepts/ | 概念页(技术/方法/理论) | rlhf.mdattention机制.md |
| comparisons/ | 对比分析页 | llama2-vs-gpt4.md |
| queries/ | 有价值的问答结果(值得存档) | 2025-rag架构演进总结.md |

Layer 3 — Schema(规范层)

SCHEMA.md 是整个 Wiki 的「宪法」,定义:

  1. Conventions:命名规则、文件格式、必须遵守的约定
  2. Tag Taxonomy:允许使用的标签列表(防止标签爆炸)
  3. Page Thresholds:什么样的内容值得建页,什么样的应该合并
  4. Update Policy:当新旧信息冲突时怎么处理

SCHEMA.md 本质上是一份给 AI Agent 的系统提示词——它让 Agent 知道如何组织知识、避免混乱。


1.4 知识流动过程

一个典型的「知识输入 → 知识输出」生命周期:

[摄入来源]
    ↓
① 原始网页 / PDF → 保存到 raw/
    ↓
② Agent 读取 raw 内容,分析关键实体和概念
    ↓
③ 判断:是否达到 Page Threshold?
    ├─ 实体出现在 2+ 来源 → 创建 entities/ 页面
    ├─ 概念被深入解释 → 创建 concepts/ 页面
    └─ 只是一句话带过 → 跳过,不建页
    ↓
④ 写页面:frontmatter + 正文 + [[wikilinks]]
    ↓
⑤ 更新 index.md(知识目录)
    ↓
⑥ 追加到 log.md(活动日志)

这个过程可以由人完成(手动整理),也可以由 Agent 自动完成(我现在的角色)。关键在于:Schema 约定了 Agent 的行为边界,不会让它自由发挥到把 wiki 搞成一团乱麻。


1.5 为什么要用 Obsidian?

你完全可以不用 Obsidian,直接用 VS Code + 文件夹就能维护 LLM Wiki。但 Obsidian 提供了几个不可替代的加成

| 功能 | 作用 |
|------|------|
| [[wikilinks]] 渲染 | 双链直接可点击跳转 |
| Graph View | 可视化知识网络,发现隐藏联系 |
| Dataview 插件 | 用类 SQL 语法查询笔记 |
| 本地存储 | 所有数据在本地,不依赖云服务 |
| YAML Frontmatter | 结构化元数据,支持过滤和搜索 |

对于 LLM Wiki 来说,Graph View + Dataview 是两个关键能力——它们把静态的 Markdown 文件变成了一个活的「知识图谱查询引擎」。


1.6 小结

  • LLM Wiki 的核心思想:知识预编译 vs RAG 的实时检索
  • 三层架构:Raw(不可变来源)→ Wiki(Agent 维护的知识)→ Schema(规范约束)
  • Obsidian 提供了 Graph View + Dataview,把文件目录变成可交互的知识图谱
  • 适合场景:500 篇以内的核心资料,持续深耕的专业领域,需要跨文档关联分析

下一篇预告:第2篇我们将动手搭建一个最小可用的 Obsidian Vault,从安装 Obsidian 到创建目录结构,一步一步做出一个能跑起来的 Wiki。


如果你觉得这篇文章有帮助,欢迎转发给需要管理知识的朋友。下一篇文章会手把手教你在 10 分钟内搭建好第一个 Obsidian Wiki。