项目 · Projects札记 · Notes实验室 · Lab远景 · Vision关于 · About
项目 / PROJECTS

在建的基础设施。

五个相互咬合的项目,指向同一个目标:让数据在 AI 时代依然可观测、可治理、语义一致。以下为对外可见的进展,细节随建设推进更新。

01 / 05 在建 · IN PROGRESS
Data ProductsContractsSelf-serve

AI Data Portal数据门户

把分散在数据库、数仓与消息流中的数据,抽象为一组可发现、可订阅、带 SLA 与契约的「数据产品」。AI 应用不再直连底层表,而是面向稳定接口编程。

  • 做什么可搜索的数据产品目录——带 owner、schema、契约与新鲜度指标。
  • 为什么每个模型团队都在重复寻找、清洗同一批数据。接入成本应该一次性付清。
  • 关键决策契约即代码:上游 schema 变更必须通过下游兼容性检查才能合入。
40+
接入数据源
120
数据产品
2周 → 1天
平均接入时间
data_portal · topology
Postgres Kafka S3 / Lake PORTAL RAG Pipeline Feature Store BI / Dashboard
02 / 05 在线 · LIVE
DocumentationOpsLakehouse

湖仓操作指南Lakehouse Ops Guide

面向数据工程师与业务分析师的一站式技术文档——湖仓架构、指标开发、平台操作、运维排障与 SQL 优化,覆盖从入湖到消费的全链路。把散落在群消息与个人脑子里的知识,沉淀为全文可检索的团队资产。

  • 做什么8 大模块、120+ 章节,按 / 键全文检索直达任意页面,覆盖开发、调度、排障与优化全流程。
  • 为什么知识散落意味着每个新人都要重复踩同样的坑;出事靠人肉传递,不如一次写清楚。
  • 关键决策章节自描述、搜索前置——让知识脱离「只有某个人知道」的状态,成为团队共有的可查阅底座。
8
技术模块
120+
文档章节
V2.2
持续更新
查看文档
03 / 05 原型 · PROTOTYPE
TracingEvalCost

Prompt Observatory提示词可观测台

把每一次 LLM 调用都变成可观测事件:记录 prompt 版本、输入输出、token 成本、延迟、模型与参数;并在其上做评测、回归与漂移告警。Prompt 是生产工件,理应被监控。

  • 做什么全链路 trace——从用户请求,到 prompt 组装,到模型响应,逐跳可见。
  • 为什么改一行 prompt 可能让线上质量悄悄回退。没有监控就没有信心。
  • 关键决策prompt 每次变更自动触发评测集回归,对比通过率与成本差异。
trace · req_8f21c
SPANLATENCY retrieve · context120ms prompt · assemble v1214ms llm · gpt · 1024 tok2.4s post · validate8ms
04 / 05 在建 · IN PROGRESS
LineageQualityAccess

湖仓治理Lakehouse Governance

在 Iceberg / Delta 之上建立统一治理面——列级血缘、数据质量门禁、分级权限与审计。让规模化后的湖仓依然可信、可审、可控。

  • 做什么列级血缘:一张表的每个字段,从哪里来、被谁消费,一图看清。
  • 为什么湖仓解决了「存」,没解决「信」。规模越大,信任越稀缺。
  • 关键决策质量门禁前置——坏数据在进入下游前被拦截,而非事后救火。
100%
列级血缘覆盖
320
质量规则
实时
访问审计
05 / 05 研究 · RESEARCH
MetricsHeadless BIVersioned

语义层Semantic Layer

一个 headless 的指标定义层:指标、维度、口径在一处以代码定义、版本化、测试,再被 BI、API 与 AI Agent 一致消费。终结「同一个指标三个数」。

  • 做什么单一真相——指标的定义与计算,彻底解耦于消费端工具。
  • 为什么AI Agent 会比人更频繁地问数。口径不一致,幻觉就有了温床。
  • 关键决策口径变更走 PR、走评审、留历史——指标也应该有 Git。