N—012026.0412 MIN READ
把 Prompt 当作基础设施
Treating Prompts as Infrastructure
我们早已习惯把模型权重、向量库、推理服务当作基础设施来对待——它们有版本、有监控、有回滚通道。唯独 prompt,常常还躺在某个 Python 字符串里,靠人的记忆维护。
论点进入生产的每一行 prompt,都是一段没有测试的代码。
当一次线上事故的根因,被定位为「有人改了 prompt 里的一个词」,团队才会真正意识到:prompt 是系统行为的源代码。它需要版本管理、评测集、灰度发布,以及一条随时可用的回滚通道。
这并不是要给 prompt 套上沉重的审批流程,而是把那些在软件工程里早已成熟的实践,迁移到这个新的、脆弱、却又决定产品体验的工件上。可观测,是这一切的起点。
↑ 回到顶部
N—022026.039 MIN READ
湖仓不是终点,语义才是
Beyond the Lakehouse
过去十年,数据工程的主线是「搬运」:把数据搬进数仓,再搬进湖,再搬进湖仓。我们解决了存储与计算的弹性,却把语义的难题留到了最后一公里——也最常被忽略的那一公里。
观察我们能在三秒内查询十亿行,却说不清『活跃用户』到底是谁。
每个看板、每个报表、每个分析师,都在各自的 SQL 里重新定义同一个指标。口径在传递中悄悄分叉。湖仓让数据变得可达,却没有让数据变得可信。
语义层把口径从消费端抽离,变成一处定义、可版本化、可测试的契约。当 AI Agent 开始比人更频繁地问数,这一层的缺失会被成倍放大。它,才是数据栈真正缺失的那一层。
↑ 回到顶部
N—032026.0215 MIN READ
AI-Native 的数据契约
Data Contracts for AI
在传统数据管道里,上游一次 schema 变更,顶多让某个 ETL 任务报错——红色、显眼、立刻有人处理。但在 AI 系统里,同样的变更往往不报错。它只是让模型的输入分布悄悄漂移,质量在几周内缓慢劣化,而仪表盘上一切「正常」。
主张没有契约的 AI 管道,是一条没有安全带的高速公路。
数据契约把上下游之间的期望显式化:字段、类型、语义、新鲜度,以及允许的变更方式。当契约被违反,CI 直接拒绝合入——把问题挡在生产之前。
对 AI 而言,契约不只是工程上的整洁,更是质量与安全的前提。我们要求模型信任数据,那就有责任让数据,值得被信任。
↑ 回到顶部