SparkSQL-优雅地行列转换
行列转换是数据处理与分析中的关键操作,它能够将数据的结构从行转为列,或从列转为行。这种转换不仅简化了复杂的数据展示,还提升了数据分析的效率。在业务场景中,行列转换常用于报表生成、数据透视和多维度数据分析,通过更直观的方式呈现数据,帮助管理者快速获取关键信息。此外,它还能有效减少数据冗余,优化查询性能
ClickHouse-Kafka Engine 的正确使用方式
Kafka 是大数据领域非常流行的一款分布式消息中间件,是实时计算中必不可少的一环,同时一款 OLAP 系统能否对接 Kafka 也算是考量是否具备流批一体的衡量指标之一。ClickHouse 的 Kafka 表引擎能够直接与 Kafka 系统对接,进而订阅 Kafka 中的 Topic 并实时接受
HQL-计算不一样的 MUV
MUV-每月独立访客数(Monthly Unique Visitors),用来衡量在一个月内访问应用的不重复用户总数,这个指标有助于了解应用的用户基础规模和覆盖范围。 一、问题引入 在只考虑这个指标本身计算起来是很简单的,例如用户登录表为user_logins select
count(d
大数据
未读
FastGID-快速计算 grouping__id
本文的前置章节 hive高阶聚合,在这篇文章中详细介绍了 hive/spark sql 的高阶聚合在多层级聚合场景的应用。相信在带来效率提升的同时也会有一个烦恼,那就是 grouping__id 的计算。对于博主所在公司的中台同时存在 hive2.1 和 spark 3.0 两种引擎,上篇介绍到新老
数仓基建-构建 hive 时间维表
众所周知 hive 的时间处理异常繁琐且在一些涉及日期的统计场景中会写较长的 sql,例如:周累计、周环比等;本文将使用维表的形式降低时间处理的复杂度,提前计算好标准时间字符串未来可能需要转换的形式。 一、表设计 结合业务场景常用的时间字符串格式为 yyyyMMdd,因此我们将这种格式字段作为维表的