HQL-计算不一样的 MUV
MUV-每月独立访客数(Monthly Unique Visitors),用来衡量在一个月内访问应用的不重复用户总数,这个指标有助于了解应用的用户基础规模和覆盖范围。 一、问题引入 在只考虑这个指标本身计算起来是很简单的,例如用户登录表为user_logins select
count(d
大数据
未读
FastGID-快速计算 grouping__id
本文的前置章节 hive高阶聚合,在这篇文章中详细介绍了 hive/spark sql 的高阶聚合在多层级聚合场景的应用。相信在带来效率提升的同时也会有一个烦恼,那就是 grouping__id 的计算。对于博主所在公司的中台同时存在 hive2.1 和 spark 3.0 两种引擎,上篇介绍到新老
Hive-因精度丢失导致的 join 数据异常
一、问题复现 不知你是否遇到过 join 结果明显不匹配的情况,例如on t1.join_key = t2.join_key中两个join_key明显不相等,但 join 的结果却将其匹配在一起。今日博主在通过用户 id 关联获取用户信息时发现一个用户 id 可以在用户维表中匹配出若干条(用户维表不
数仓基建-构建 hive 时间维表
众所周知 hive 的时间处理异常繁琐且在一些涉及日期的统计场景中会写较长的 sql,例如:周累计、周环比等;本文将使用维表的形式降低时间处理的复杂度,提前计算好标准时间字符串未来可能需要转换的形式。 一、表设计 结合业务场景常用的时间字符串格式为 yyyyMMdd,因此我们将这种格式字段作为维表的