当前位置: 首页 > news >正文

SQL进阶技巧:如何优化NULL值引发的数据倾斜问题?

目录

0 场景描述

1 问题分析

1.1 问题剖析

1.2 解决方案

2 小结


0 场景描述

实际业务中有些大量的null值或者一些无意义的数据参与到计算作业中,表中有大量的null值,如果表之间进行join操作,就会有shuffle产生,这样所有的null值都会被分配到一个reduce中,必然产生数据倾斜。

1 问题分析

1.1 问题剖析

疑问:NULL值和需要匹配的字段根本就匹配不上,为什么会进入到同一个reduce?

数据放到同一个reduce中的原因不是因为字段能不能join上,而是因为shuffle阶段的数据分发操作(数据路由算法决定的),因为join中的key要进行匹配,在mr中此时key需要被分发,只要key的hash结果是一样的,它们就会被拉到同一个reduce中,被分到


http://www.mrgr.cn/news/45242.html

相关文章:

  • Dubbo超时设置与动态调整解决方案
  • Spring Boot实现License生成与校验详解
  • 省市区json记录
  • 上交2024最新-《动手学大模型》实战教程及ppt分享!
  • 什么是源代码加密?十种方法教你软件开发源代码加密
  • openmmlab使用系列(二):图像超分辨率重构
  • 雷池+frp 批量设置proxy_protocol实现真实IP透传
  • 创客匠人收官之作,创始人lP起点与终极之道,你一定要来!
  • 马丁代尔药物大典数据库
  • 昆虫分类与检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
  • 腾讯云上传pushdocker镜像到镜像仓库
  • 《自然语言处理NLP》—— 词嵌入(Embedding)及 Word2Vec 词嵌入方法
  • kafka的成神秘籍(java)
  • 9.10Mean-Shift分割算法
  • 脑机接口技术的未来与现状:Neuralink、机械手臂与视觉假体的突破
  • Java中Cglib动态代理介绍、应用场景和示例代码
  • 思科防火墙:ASA中Object-group在ACL中的应用
  • 安装VS2022, 安装ipp, VS2022配置ipp
  • 【星汇极客】STM32 HAL库各种模块开发之DHT11模块
  • LeetCode题练习与总结:窥视迭代器--284