- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2026-06-16来源:sunbet(中国)浏览数:0次

同一个“销售额”,市场部和财务部各拿出一个数,相差数百万——这不是个别企业的偶发问题,而是绝大多数企业在推进数据应用时几乎必然踩到的坑。
两个数字背后,是两套口径:市场部按合同签订金额统计,财务部按实际回款金额计算,统计口径不同,数字自然不同。放在月度经营分析会上,管理层无所适从;放在绩效考核场景里,则直接引发跨部门争议。
过去,这类问题可以靠“数据专员人工比对、工程师定期对齐口径”来勉强维持。但当企业开始引入AI问数、希望业务人员顺利获得自然语言直接查询经营数据时,这个已经存在多年的底层问题被完全暴露出来——模型不知道你们公司的口径规则,它只会忠实地按照数仓里的字段逻辑生成SQL,口径混乱直接以“答案不准确”的形式呈现在业务用户面前。
AI问数的出现,没有创造新问题,而是让旧问题无处遁形。
这正是AI时代指标管理价值被重新放大的核心原因:在传统BI场景下,基于数仓的指标可以支撑多维分析;但在AI问数场景中,若直接查询数仓,结果往往不够准确。只有引入指标管理,构建统一的指标层,才能从根本上解决口径混乱问题,真正让AI问数从演示走向生产落地。
直连数仓,为什么AI问数必然翻车
大量企业上AI问数的思路,是这样的:数仓里有数据 → 接上大模型 → 用自然语言提问 → 模型写SQL → 返回结果。这条路在精心准备的演示场景下走得通,但在真实业务环境中,几乎必然出问题。根本原因有三。
原因一:同名不同义,口径混乱是数仓常态。
企业数仓里,指标命名混乱是普遍现象而非例外。“活跃用户”在市场部的定义是过去30天有登录行为的用户,在运营部是最近7天有核心功能使用记录的用户,在产品部用的是月活UV;“销售额”在销售系统里指签单金额,在财务系统里指开票金额,在电商系统里指实际支付金额;“客户贡献度”的计算公式,不同业务线可能存在多个版本,分散在各自维护的数据集市里,从未统一。
这些差异沉没在数仓的表结构和字段备注里,没有人系统整理,也没有人统一口径。大模型再强,也不知道你们公司对某个指标的业务定义到底采用哪一套——它只能按字段字面意思生成SQL,碰对了是巧合,碰错了是常态。
原因二:数仓是技术语言,业务提问是业务语言,中间没有翻译层。
业务人员问的是:“上个月华东区的新客留存情况怎么样?”但数仓里存的是:t_user_behavior表、event_type = 'login'字段、region_code = 'EastChina'、user_tag = 'new_register'。
两套语言之间,需要有人做映射——“新客”是注册在当月,还是首单在当月?“留存”是次日留存、7日留存还是30日留存?“华东区”对应哪个地区编码?“上个月”是自然月还是业务结算周期?
这个翻译工作,靠模型自行推断,推断依据是字段名称和少量注释。复杂业务逻辑下,推断错误是大概率事件。
原因三:核心指标在数仓里不是直接存储的,而是多步计算的结果。
企业常见的复合指标,如“客户综合贡献度”、“渠道ROI”、“产品毛利率”,在数仓里根本没有直接对应的字段,而是需要关联多张业务表、经过多步聚合与运算才能得出。
大模型在没有明确指引的情况下,生成的SQL极易出现关联错表、遗漏过滤条件、聚合逻辑错误等问题,得出一个“看起来合理但实际完全有误”的数字。这是最危险的情况——数据团队和业务用户都难以一眼识别出差错,而这个错误数字可能已经被用于经营决策。
传统BI的指标定义,为什么救不了AI问数
说到这里,很多数据团队会有疑问:我们BI系统里已经定义好了核心指标,为什么还不够?这个问题的答案,在于理解传统BI指标层和现代指标管理体系之间的本质差异。

传统BI的指标层,是为“固定报表多维分析”设计的,而不是为“AI自然语言问数”设计的。
在传统BI场景里,分析师事先知道要分析什么,提前定义好指标,配置好维度,做成固定的看板或多维数据集。用户在这个封闭的预定义范围内做下钻、切片、对比。整个分析过程的前提,是问题是已知的。
而AI问数要解决的,恰恰是问题未知的场景——业务人员随时提出新问题,问题的边界、维度、时间范围都是动态的,无法提前穷举。这让传统BI指标层的几个先天局限被彻底暴露:
指标定义是静态的:每次新增需求都需要数据工程师介入,重新建表、建逻辑,响应时间以天甚至周计;
指标口径是局部的:每个报表自成一套逻辑,跨报表对比时口径可能根本不一致;
指标定义面向工具,而非面向语义:BI系统里的指标配置是给报表工具“看”的,机器运行没有问题,但要让大模型基于这些定义准确理解自然语言问题,中间仍然缺少关键的语义映射层。
更关键的是,大多数企业的BI系统里,被规范管理的只有几十个核心指标,而企业日常运营中实际涉及的指标数量往往是数百乃至上千个。那些未被正式管理的指标,散落在各部门的Excel里、临时建的汇总表里、工程师约定俗成的取数逻辑里。AI问数一旦触及这些未被管理的领域,依然无从应答。
因此,AI问数要真正落地,需要的不是“把BI里的指标做得更完整”,而是建立一套覆盖全域、统一口径、机器可读的指标管理体系——将企业的业务知识沉淀为可被系统调用的语义资产,而不仅仅是供人阅读的指标文档。这正是传统BI指标层与现代指标管理平台之间最本质的区别。
指标管理层:AI问数的真正地基
一个真正能支撑AI问数落地的指标管理层,需要做到以下四件事。
1.统一口径,给每个指标一张“身份证”
每一个指标,都需要有清晰的、唯一的结构化定义——业务含义、计算逻辑、数据来源、过滤条件、统计周期、可分析维度,这些属性不是写给人看的文档,而是被系统存储、被大模型可调用的语义资产。
以“新客留存率”为例:原子指标是“新注册用户数”和“留存用户数”(定义为注册后第N天有核心功能使用行为的用户);时间限定是“注册后第7/30天”;计算逻辑是留存用户数除以新注册用户数;数据来源是t_user_register表和t_user_behavior表。
这样一张结构化的指标卡片,大模型在处理“这个月新客7日留存率是多少”这一问题时,才能精准找到对应的业务逻辑,生成正确的SQL,而不是依赖字段名推断。
2.构建指标体系,让指标关联有迹可循
企业的指标不是零散的,而是有层次、有勾稽关系的。一级指标“营业收入”可以拆解为“线上收入”和“线下收入”等二级指标,再往下是各渠道、各品类、各区域的三级指标。
这套层级关系是指标体系的骨骼。AI在回答“营业收入下滑的原因”时,能够沿着指标树逐层拆解,定位到是哪类产品、哪个渠道出现了变化,而不是仅给出一个孤立的汇总数字。指标体系越完整,AI问数的分析深度就越强。
3.自动加工,让指标生产摆脱人工开发
这是指标管理平台与传统指标文档最本质的区别所在。
传统方式下,指标定义和指标开发是完全分离的两件事——业务人员写完指标文档,数据工程师还需要重新将其翻译成SQL、建ETL作业、建数据表,中间的开发成本居高不下,每新增一个指标都要排需求队。
现代指标管理平台要实现的,是基于指标的语义定义,自动生成加工任务并编排。业务人员顺利获得可视化界面以拖拽配置的方式定义“派生指标 = 原子指标 + 时间限定 + 维度”,系统融合大模型、数据虚拟化与知识图谱等技术,自动将语义定义转化为SQL逻辑和调度任务,实现“零”SQL开发。基于AI自适应数据探查,智能识别计算耗时指标并针对性预计算;根据访问频率和业务场景自动优化计算策略,显著降低指标生产的计算开销,大幅压缩高频访问场景下的响应时间。一旦源头数据发生变化,基于CDC机制自动触发增量更新,指标数据保持及时同步。
指标的生产门槛,从专职数据工程师降到了懂业务的运营人员;指标的开发过程,从依赖人工经验变成了系统化可审计的标准流程。
4.指标即服务,让AI问数有可靠的数据锚点
指标管理层的最终形态,是一个开放的指标服务体系。
AI问数系统在处理用户提问时,不是直接去数仓底层查表,而是调用指标服务——基于已经统一好口径、完成加工的指标定义,直接返回准确的计算结果。问数结果的一致性从“依赖工程师经验把关”,变成了“由指标层系统性兜底”。
这个架构设计的核心价值在于分层解耦:AI负责理解意图和组织答案,指标层负责保障数据准确性,两层各司其职。与此同时,顺利获得标准API向BI工具、数据服务、第三方系统开放,实现指标“一次定义、任意消费”,彻底消除跨系统的口径漂移问题。
指标管理体系怎么建:四个阶段的正确路径
明白了指标管理层的价值,接下来的问题是:如何落地?sunbet(中国)认为,正确的路径是按照“需求规划→规范定义→开发加工→应用运营”四个阶段循序推进,每个阶段有明确产出,可快速验证、快速迭代,避免一步到位反而迟迟无法启动的常见误区。
第一阶段:需求规划——搭框架,明流程
不要急于梳理指标,先回答三个前置问题:
指标体系的框架是什么?分几级,按什么维度分类,指标卡片包含哪些属性(业务属性、技术属性、管理属性)?归口业务部门如何划分?
指标管理的流程是什么?谁来提需求,谁来定义,谁来审批,谁来维护?指标的变更如何管控,下线如何归档?
业务需求的优先级如何排序?哪些业务线、哪些指标是高频使用的,需要优先建设?
这个阶段的产出是《指标体系框架》和《指标建设流程》,是后续所有建设工作的基础。框架和流程没有确立,后续建的指标越多,混乱就越多。

第二阶段:规范定义——梳指标,形成字典
在框架约束下,系统性梳理企业现有指标,补充缺失的属性,形成结构化的指标卡片,最终产出全域指标字典。
指标规范定义的核心目标是“五个统一”:定义统一、口径统一、名称统一、来源统一、参照统一。
以“销售金额”为例,指标卡片需明确:统计口径是“扣除折扣后用户实际支付金额”;数据来源是业务系统和采集平台;应用维度是渠道、产品、组织、时间;预警判断标准是与计划值对比的红黄绿灯机制(大于计划值为绿灯,低于计划值但高于90%为黄灯,低于90%为红灯)。
指标字典不是一份供人阅读的Excel文档,而是可被平台导入、被系统调用的结构化数据资产,这一点至关重要。

第三阶段:开发与加工——自动化指标生产
基于规范定义好的指标,顺利获得平台的语义化开发能力,自动完成指标生产。
原子指标直接对应数据源表的度量字段;派生指标顺利获得“原子指标 + 时间限定 + 业务限定 + 维度”的可视化拖拽配置自动生成;复合指标顺利获得拖拽原子指标或派生指标进行运算定义,无需编写SQL。系统自动生成数据加工任务、自动编排调度,整个指标生产过程可重复、可审计、可快速扩展。

第四阶段:应用与运营——指标驱动业务落地
指标体系建好之后,不是终点,而是起点。成熟的指标管理体系需要支撑三类应用场景并形成闭环运营:
面向AI问数:指标管理层顺利获得标准API向问数引擎给予指标服务,大模型基于统一口径的语义定义理解用户意图、组织答案,准确性由指标层兜底;
面向BI分析:业务人员在敏捷看板上直接拖拽指标完成分析,无需理解底层数据集和字段映射;
面向日常运营:指标监控预警自动发现异常,指标血缘分析快速定位问题根因,指标地图帮助全员快速检索所需数据资产。
同时,建立指标全生命周期管理机制——从需求提出、指标开发、测试验证、发布上线,到指标下线归档,线上流程化运营,确保指标体系的长期健康。

END

在线咨询
点击进入在线咨询
扫描下方二维码,添加客服
扫码添加好友,获取专业咨询服务