项目 · Projects札记 · Notes实验室 · Lab远景 · Vision关于 · About
札记 / NOTES

关于 AI 基础设施的思考。

不追热点,只记录在构建过程中真正想清楚的几件事。三篇关于 prompt、语义与契约的札记。

N—01把 Prompt 当作基础设施Treating Prompts as Infrastructure2026.04 · 12 MIN N—02湖仓不是终点,语义才是Beyond the Lakehouse2026.03 · 9 MIN N—03AI-Native 的数据契约Data Contracts for AI2026.02 · 15 MIN
N—012026.0412 MIN READ

把 Prompt 当作基础设施

Treating Prompts as Infrastructure

我们早已习惯把模型权重、向量库、推理服务当作基础设施来对待——它们有版本、有监控、有回滚通道。唯独 prompt,常常还躺在某个 Python 字符串里,靠人的记忆维护。

论点
进入生产的每一行 prompt,都是一段没有测试的代码。

当一次线上事故的根因,被定位为「有人改了 prompt 里的一个词」,团队才会真正意识到:prompt 是系统行为的源代码。它需要版本管理、评测集、灰度发布,以及一条随时可用的回滚通道。

这并不是要给 prompt 套上沉重的审批流程,而是把那些在软件工程里早已成熟的实践,迁移到这个新的、脆弱、却又决定产品体验的工件上。可观测,是这一切的起点。

↑ 回到顶部
N—022026.039 MIN READ

湖仓不是终点,语义才是

Beyond the Lakehouse

过去十年,数据工程的主线是「搬运」:把数据搬进数仓,再搬进湖,再搬进湖仓。我们解决了存储与计算的弹性,却把语义的难题留到了最后一公里——也最常被忽略的那一公里。

观察
我们能在三秒内查询十亿行,却说不清『活跃用户』到底是谁。

每个看板、每个报表、每个分析师,都在各自的 SQL 里重新定义同一个指标。口径在传递中悄悄分叉。湖仓让数据变得可达,却没有让数据变得可信。

语义层把口径从消费端抽离,变成一处定义、可版本化、可测试的契约。当 AI Agent 开始比人更频繁地问数,这一层的缺失会被成倍放大。它,才是数据栈真正缺失的那一层。

↑ 回到顶部
N—032026.0215 MIN READ

AI-Native 的数据契约

Data Contracts for AI

在传统数据管道里,上游一次 schema 变更,顶多让某个 ETL 任务报错——红色、显眼、立刻有人处理。但在 AI 系统里,同样的变更往往不报错。它只是让模型的输入分布悄悄漂移,质量在几周内缓慢劣化,而仪表盘上一切「正常」。

主张
没有契约的 AI 管道,是一条没有安全带的高速公路。

数据契约把上下游之间的期望显式化:字段、类型、语义、新鲜度,以及允许的变更方式。当契约被违反,CI 直接拒绝合入——把问题挡在生产之前。

对 AI 而言,契约不只是工程上的整洁,更是质量与安全的前提。我们要求模型信任数据,那就有责任让数据,值得被信任。

↑ 回到顶部