Bitmap 在数仓中的应用
一、背景 在数据仓库的日常工作中,我们经常需要面对海量数据的存储和高效查询问题。尤其是,当业务对性能的要求越来越高、数据量持续增长时,传统的处理方式往往显得笨拙而低效。而这时候,Bitmap(位图)作为一种“看似简单却威力强大”的数据结构,逐渐展现出它的价值。简单来说,Bitmap 就像是一种用“0
大数据
未读
shuffle 算子不一定需要 shuffle
一、Dependency Spark RDD五大属性之一的:依赖列表(Dependency),不仅描述父子 RDD 的血缘关系,更关键描述了父子 RDD 的partitions之间的关系。同时也是判断是否需要划分stage的关键,而stage的划分一定伴随着shuffle spark 的依赖通过抽象
醉意下的真实——十年软件工程师的深夜独白
作为一个在工程领域摸爬滚打十年的工程师,我今晚可能在酒精的作用下,毫无顾忌地分享一些心得体会。以下是我酒后吐真言。 我在职业发展上取得的最大进步,是通过跳槽实现的。 技术栈并不是真的那么重要,因为在我所在的领域,大约有15种基本的软件工程模式是适用的。我从事的是数据领域的工作,它与网页开发或嵌入式开