大数据
未读
三年 Sparker 都不一定知道的算子内幕
一、如何在 mapPartitions 中释放资源 mapPartitions是一种对每个分区进行操作的转换操作,于常用的map操作类似,但它处理的是整个分区而不是单个元素。mapPartitions的应用场景适合处理需要在每个分区内批量处理数据的场景,通常用于优化性能和减少计算开销。例如:减少数据
醉意下的真实——十年软件工程师的深夜独白
作为一个在工程领域摸爬滚打十年的工程师,我今晚可能在酒精的作用下,毫无顾忌地分享一些心得体会。以下是我酒后吐真言。 我在职业发展上取得的最大进步,是通过跳槽实现的。 技术栈并不是真的那么重要,因为在我所在的领域,大约有15种基本的软件工程模式是适用的。我从事的是数据领域的工作,它与网页开发或嵌入式开
开发技巧
未读
如何解决全局代理在终端不生效?
本文涉及到的背景、演示环境均为 mac,其它操作系统或环境不保证 100% 兼容,有类似需求可参考 mac 思路或与博主联系 今日在浏览大数据前沿技术时,偶然看到一篇推文介绍实时流式 sql 平台 proton 时,其官网的 Quickstart 也贴心的附上了 mac 用户的安装方式 brew t
ClickHouse 查询缓存
为了实现最佳性能,数据库需要优化其内部数据存储和处理管道的每一步。但是数据库执行的最好的工作是根本没有完成的工作!缓存是一种特别流行的技术,它通过存储早期计算的结果或远程数据来避免不必要的工作,而访问这些数据的成本往往很高。在今天的博文中,介绍一下 ClickHouse 缓存系列的最新成员——查询缓