札记 / Notes — HJJ 见远而行

N—012026.0412 MIN READ

把 Prompt 当作基础设施

Treating Prompts as Infrastructure

我们早已习惯把模型权重、向量库、推理服务当作基础设施来对待——它们有版本、有监控、有回滚通道。唯独 prompt，常常还躺在某个 Python 字符串里，靠人的记忆维护。

论点

进入生产的每一行 prompt，都是一段没有测试的代码。

当一次线上事故的根因，被定位为「有人改了 prompt 里的一个词」，团队才会真正意识到：prompt 是系统行为的源代码。它需要版本管理、评测集、灰度发布，以及一条随时可用的回滚通道。

这并不是要给 prompt 套上沉重的审批流程，而是把那些在软件工程里早已成熟的实践，迁移到这个新的、脆弱、却又决定产品体验的工件上。可观测，是这一切的起点。

N—022026.039 MIN READ

Beyond the Lakehouse

过去十年，数据工程的主线是「搬运」：把数据搬进数仓，再搬进湖，再搬进湖仓。我们解决了存储与计算的弹性，却把语义的难题留到了最后一公里——也最常被忽略的那一公里。

观察

我们能在三秒内查询十亿行，却说不清『活跃用户』到底是谁。

每个看板、每个报表、每个分析师，都在各自的 SQL 里重新定义同一个指标。口径在传递中悄悄分叉。湖仓让数据变得可达，却没有让数据变得可信。

语义层把口径从消费端抽离，变成一处定义、可版本化、可测试的契约。当 AI Agent 开始比人更频繁地问数，这一层的缺失会被成倍放大。它，才是数据栈真正缺失的那一层。

N—032026.0215 MIN READ

Data Contracts for AI

在传统数据管道里，上游一次 schema 变更，顶多让某个 ETL 任务报错——红色、显眼、立刻有人处理。但在 AI 系统里，同样的变更往往不报错。它只是让模型的输入分布悄悄漂移，质量在几周内缓慢劣化，而仪表盘上一切「正常」。

主张

没有契约的 AI 管道，是一条没有安全带的高速公路。

数据契约把上下游之间的期望显式化：字段、类型、语义、新鲜度，以及允许的变更方式。当契约被违反，CI 直接拒绝合入——把问题挡在生产之前。

对 AI 而言，契约不只是工程上的整洁，更是质量与安全的前提。我们要求模型信任数据，那就有责任让数据，值得被信任。