“我们不是在收集知识,我们是在囤积信息。” 我花了整整一周,把 2000+ 条 Twitter 收藏卡片变成了 73 张真正的知识卡片。
起点:失控的数字花园
两年前,我像大多数人一样开始用 Obsidian。建了 vault,设了文件夹,然后开始——收集。
看到好的 Twitter 帖子(“码住”)→ 复制到 Obsidian 读到有价值的文章(“这个有用”)→ 存下来 刷到有趣的观点(“以后用得上”)→ 收收藏藏
一年后,我的 vault 变成了这样:
Obsidian/
├── 03_Knowledge/
│ ├── AI Agent与架构/ → 161 条
│ ├── AI产品与平台/ → 323 条
│ ├── Claude Code实战/ → 201 条
│ ├── 开发者工具/ → 323 条
│ ├── 搞钱与自动化/ → 253 条
│ ├── 数字生活/ → 292 条
│ ├── 网络与基础设施/ → 97 条
│ └── ...
└── 总计 ~2000 条 Markdown 文件
这就是经典的囤积症知识库——看似内容丰富,实则每张卡片只是原文的粗糙粘贴,信息密度极低,互相没有链接,你根本不会去回看它们。
诊断:低密度缓存综合症
我花了一天时间跑了一次全面审计。结果触目惊心:
📊 审计报告
──────────────────
vault 文件总数:2,218 个 .md
知识库卡片数:~2,000 条
重复/噪音比例:~15%
断链数量:896 条
最后更新超过 30 天的文件:>90%
真正可检索的知识:<5%
典型的问题类型:
| 问题 | 例子 | 占比 |
|---|---|---|
| 纯搬运 | 整篇复制网页内容,无摘要、无观点 | ~40% |
| 一句话收藏 | ”关于 RAG 的好文章” + URL | ~25% |
| 过时信息 | 2024 年的工具推荐,已被淘汰 | ~15% |
| 噪音内容 | 自拍、cosplay、无关图片 | ~10% |
| 重复/冲突 | 同一话题 5 条不同收藏,观点矛盾 | ~10% |
这些卡片有一个共同特征:除了标题,你无法通过任何方式检索到它们。它们占据了搜索索引,却从不提供答案。我管这个叫 “低密度缓存”——你囤的只是缓存,不是知识。
架构设计:PARA + 数字优先级
在动手清理之前,我先重新设计了 vault 的顶层架构:
Obsidian/
├── 00_Home/ ← 仪表盘 / 今日聚焦
├── 01_Projects/ ← 在做的项目(有时间线)
│ ├── llm-knowledge-base/ ← 知识库治理项目
│ ├── hermes-agent/
│ └── 自媒体全自动创作管线/
├── 02_Academics/ ← 学术(论文、课程)
├── 03_Knowledge/ ← 知识库(加工后的知识卡片)
│ └── 知识库/
│ ├── 🏠 首页(知识库地图).md
│ ├── _MOC/ ← 7 个主题入口
│ ├── 00_Agent与架构/
│ ├── 01_AI产品与平台/
│ └── 02_~09_* ← 按优先级排序
├── 04_Automation/ ← 自动化脚本、cron、工作流
├── 05_Inbox/ ← 临时收集箱(待加工)
└── hermes-memory/ ← Agent 跨会话记忆
几个关键设计决策:
1. 数字前缀排序注意力
所有目录加两位数字前缀:00_Agent与架构、01_AI产品与平台 … 09_AI思维与方法论。排序即优先级——你看目录列表的顺序,就是你该花时间的顺序。
2. 首页即地图
知识库根目录放一张 🏠 首页(知识库地图).md,打开第一眼就看到它。配合 _MOC/(Maps of Content),实现三层导航:
首页(全景地图)
└→ _MOC/(主题入口)
└→ 具体卡片(知识节点)
3. 归档不删除
原始卡片不是被删除,而是移动到 _tweet_archive/ 子目录。好处:
- 全量搜索不丢
- 可回滚 — 提炼有遗漏也能找回
- git 历史干净 — 删除变移动
提炼方法论:2000 → 73
第一步:分类批量处理
按照目录逐一处理,每次聚焦一个主题。利用 Hermes Agent 的 delegate_task 并行读取:
# 3 个子代理并行读取
delegate_task(tasks=[
{"goal": "提取核心知识点"},
{"goal": "提取第二批"},
{"goal": "提取剩余部分"}
])
每个子代理返回结果后,人工合并、去重、分类,最终写入 4-6 张总结合卡片。
第二步:总结合卡片规范
每张总结合卡片遵循:
# 标题
> 一句话核心观点
## 配置体系
关键配置项和最佳实践...
## 工作流范式
核心方法论和步骤...
规范要点:
- 单
#标题 — 禁止双#,大纲视图清晰 - 文件名 —
00_主题总结合.md、01_子主题.md - 无重复标题 — 文件名和正文标题不重复
- 分类准确 — 每张卡片只属一个目录
第三步:数据验证
提炼后执行双重验证:
- 数量验证:提炼后 + 归档 = 原来数量
- 内容验证:总结合中每条观点可追溯到原始卡片
成果数据
| 类别 | 原始 | 总结合 | 压缩比 |
|---|---|---|---|
| Agent与架构 | 161 | 5 | 97% |
| AI产品与平台 | 323 | 6 | 98% |
| Claude Code实战 | 201 | 4 | 98% |
| 开发者工具 | 323 | 7 | 98% |
| 搞钱与自动化 | 253 | 5 | 98% |
| AI思维与方法论 | 148 | 4 | 97% |
| 数字生活 | 292 | 待提炼 | - |
| 阅读与学习 | 98 | 待提炼 | - |
| 网络与基础设施 | 97 | 待提炼 | - |
| 生活与健康 | 31 | 待提炼 | - |
| 总计 | ~1,927 | ~31 | ~96% |
自动化体系
知识库维护不是一次性的——真正的挑战在于保持它不乱。
每日自动同步
# cron: 每日 23:00
cd ~/Documents/Obsidian
git add -A && git commit -m "chore: daily sync $(date +%F)" && git push
一天的工作成果自动备份到 Git 私有仓库,即使忘了手动提交也不会丢。
每周治理审计
每周日 21
自动执行:- 检查 git 状态
- 统计活跃文档 vs 归档文档
- 检查关键治理文件
- 检测主索引膨胀风险
- 写入审计日志
跨设备同步
Mac mini (24h 运行)
└→ git push (每日 23:00)
└→ GitHub 私有仓库
├→ ThinkPad Arch (git pull)
└→ 手机 (GitHub 客户端查看)
经验与教训
✅ 做对的
1. 子代理并行读取 — 2000+ 卡片不可能手动一条条读。3 个子代理并行读 161 条只需几分钟。让 AI 做航标,人类做决策。
2. 归档不删 — 挽救了至少 3 次误判,总结合遗漏的细节可从归档找回。而且心理上知道原始数据还在,下笔更敢砍。
3. 数字前缀排序 — 目录顺序就是优先级顺序。每天聚焦前几个文件夹就够了。
❌ 可以更好的
1. MOC 应该在写卡片前设计好框架 — 补建 MOC 时很多卡片之间本有关联但错过了最佳链接时机。
2. 精炼标准不一致 — 第一批太简略,第二批太详细。第三批找到平衡:一篇能带走 3 个干货。
3. Inbox 要及时清空 — 整理期间积了 50+ 条未处理新收藏,三个月后又是新的低密度缓存。
核心原则
1️⃣ 收集 ≠ 知识 — 不加提炼的收藏只是缓存
2️⃣ 归档不删除 — 安全网比完美主义更重要
3️⃣ 数字编排注意力 — 目录排序 = 优先级排序
4️⃣ 自动化治理 — 手动维护不可持续
5️⃣ 分层入口 — 首页 → MOC → 卡片,三级导航
6️⃣ 密度标准可量化 — 一篇卡片带走 3 个干货
下一步
剩下 4 个类别约 500 条卡片还在 _tweet_archive/ 中等待处理。优先级较低(数字生活类噪音较多,阅读与学习类需在读书时一并梳理),但在知识库成为真正的”第二大脑”之前,它们仍是待完成的功课。
保持规则很简单:新收藏进来的当天或次日,至少写一段个人观点的笔记。 拖延超过一周的缓存,最终都会变成知识库的垃圾。
本文所有统计数据来自真实 vault,由 Hermes Agent 配合完成数据采集和初稿整理。