第二章:从用户角度看,项目收集了哪些信息,以及如何使用

返回总目录

1. 本章导读

本章只站在用户视角,不站在开发者视角,回答两个问题:

  1. 系统实际会接触哪些用户信息。
  2. 这些信息分别被拿去做什么。

结论先行:最值得警惕的并不只是 telemetry,而是“会进入模型上下文的源码与工作信息”以及“长期持久化的 transcript/memory”。

2. 进入模型 API 的信息

相关实现:

会进入模型上下文的内容包括:

这些信息的用途是:

从敏感性排序看,这部分风险通常高于普通 analytics。

3. 本地持久化的信息

相关实现:

本地默认会保存:

具体用途:

特别值得注意:

4. Memory 相关信息

相关实现:

系统会沉淀的 memory 类型包括:

这些信息会被用于:

从用户角度,这等于系统在持续形成“长期协作画像”。

5. Analytics / Telemetry 收集的信息

相关实现:

源码显示项目在努力避免把“代码正文、文件路径原文”直接打进通用 analytics,但仍会采集较多元数据:

主要用途:

这里要区分:

6. 账户与身份信息

相关实现:

项目会读取或缓存:

用途包括:

7. Team Memory 同步会接触的信息

相关实现:

当 team memory 开启且用户满足 OAuth 条件时,系统会:

上传的不是整个仓库,而是 team memory 目录内的内容。但这些内容可能本身就包含:

虽然项目加了:

但其本质依然是“组织级知识同步”。

8. 用户主动触发的附加上传

8.1 Transcript 分享

相关实现:

在反馈场景中,用户可能主动上传:

代码会做脱敏,但这仍属于“会话内容上传”。

8.2 Grove / Help improve Claude

相关实现:

这部分面向用户的含义非常直接:

因此如果用户不希望自己的编码会话进入训练改进流程,就不应开启这项能力。

9. Remote / Bridge 场景下的信息

相关实现:

在远程或 bridge 场景下,系统还会涉及:

这不是普通本地模式的默认数据面,但一旦启用,会显著扩大信息流范围。

10. 本章小结

从用户视角,本项目接触信息大致可分三层:

  1. 进入模型的工作上下文
  2. 本地落盘的 transcript 与 memory
  3. 遥测、同步、分享、远程等附加上传

其中最关键的不是某一个日志事件,而是这些能力叠加后形成的“长期、可恢复、可检索、可同步”的用户工作画像。