项目 · Projects札记 · Notes实验室 · Lab远景 · Vision关于 · About
项目 / PROJECTS

在建的基础设施。

四个相互咬合的系统,指向同一个目标:让数据在 AI 时代依然可观测、可治理、语义一致。以下为对外可见的进展,细节随建设推进更新。

01 / 04 在建 · IN PROGRESS
Data ProductsContractsSelf-serve

AI Data Portal数据门户

把分散在数据库、数仓与消息流中的数据,抽象为一组可发现、可订阅、带 SLA 与契约的「数据产品」。AI 应用不再直连底层表,而是面向稳定接口编程。

  • 做什么可搜索的数据产品目录——带 owner、schema、契约与新鲜度指标。
  • 为什么每个模型团队都在重复寻找、清洗同一批数据。接入成本应该一次性付清。
  • 关键决策契约即代码:上游 schema 变更必须通过下游兼容性检查才能合入。
40+
接入数据源
120
数据产品
2周 → 1天
平均接入时间
data_portal · topology
Postgres Kafka S3 / Lake PORTAL RAG Pipeline Feature Store BI / Dashboard
02 / 04 原型 · PROTOTYPE
TracingEvalCost

Prompt Observatory提示词可观测台

把每一次 LLM 调用都变成可观测事件:记录 prompt 版本、输入输出、token 成本、延迟、模型与参数;并在其上做评测、回归与漂移告警。Prompt 是生产工件,理应被监控。

  • 做什么全链路 trace——从用户请求,到 prompt 组装,到模型响应,逐跳可见。
  • 为什么改一行 prompt 可能让线上质量悄悄回退。没有监控就没有信心。
  • 关键决策prompt 每次变更自动触发评测集回归,对比通过率与成本差异。
trace · req_8f21c
SPANLATENCY retrieve · context120ms prompt · assemble v1214ms llm · gpt · 1024 tok2.4s post · validate8ms
03 / 04 在建 · IN PROGRESS
LineageQualityAccess

湖仓治理Lakehouse Governance

在 Iceberg / Delta 之上建立统一治理面——列级血缘、数据质量门禁、分级权限与审计。让规模化后的湖仓依然可信、可审、可控。

  • 做什么列级血缘:一张表的每个字段,从哪里来、被谁消费,一图看清。
  • 为什么湖仓解决了「存」,没解决「信」。规模越大,信任越稀缺。
  • 关键决策质量门禁前置——坏数据在进入下游前被拦截,而非事后救火。
100%
列级血缘覆盖
320
质量规则
实时
访问审计
04 / 04 研究 · RESEARCH
MetricsHeadless BIVersioned

语义层Semantic Layer

一个 headless 的指标定义层:指标、维度、口径在一处以代码定义、版本化、测试,再被 BI、API 与 AI Agent 一致消费。终结「同一个指标三个数」。

  • 做什么单一真相——指标的定义与计算,彻底解耦于消费端工具。
  • 为什么AI Agent 会比人更频繁地问数。口径不一致,幻觉就有了温床。
  • 关键决策口径变更走 PR、走评审、留历史——指标也应该有 Git。