当前位置: 首页 > news >正文

举例说明偏差的计算方式和在计算协方差中的作用

偏差是什么

定义

偏差(Deviation) 是统计学中的一个基本概念,指的是一个观测值与其平均值(或期望值)之间的差异。简单来说,偏差描述了单个数据点在多大程度上偏离了数据的平均水平。

数学上,对于一个数据集 X = { X 1 , X 2 , … , X n } X = \{ X_1, X_2, \ldots, X_n \} X={X1,X2,,Xn},其均值为 X ˉ \bar{X} Xˉ,那么第 i i i 个数据点的偏差就是:
偏差 = X i − X ˉ \text{偏差} = X_i - \bar{X} 偏差=XiXˉ

在协方差计算中的作用

在计算协方差时,偏差用于衡量两个变量在每个样本上的共同变化程度。具体来说,协方差的计算涉及到两个变量各自的偏差乘积的平均值。

协方差的公式为:
Cov ( X , Y ) = 1 n ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)
其中:

  • ( X i − X ˉ ) (X_i - \bar{X}) (XiXˉ) 是变量 X X X 在第 i i i 个样本中的偏差。
  • ( Y i − Y ˉ ) (Y_i - \bar{Y}) (YiYˉ) 是变量 Y Y Y 在第 i i i 个样本中的偏差。
  • n n n 是样本总数。

通过计算偏差的乘积,我们能够了解两个变量是否同时高于或低于各自的均值,以及这种共同偏离的程度。

举例说明偏差的计算步骤

示例数据

假设我们有两个变量 X X X Y Y Y,以及以下观测值:

样本编号 X i X_i Xi Y i Y_i Yi
125
249
3612
4815
51017

计算均值

首先,计算 X X X Y Y Y 的均值:

X ˉ = 2 + 4 + 6 + 8 + 10 5 = 6 \bar{X} = \frac{2 + 4 + 6 + 8 + 10}{5} = 6 Xˉ=52+4+6+8+10=6

Y ˉ = 5 + 9 + 12 + 15 + 17 5 = 11.6 \bar{Y} = \frac{5 + 9 + 12 + 15 + 17}{5} = 11.6 Yˉ=55+9+12+15+17=11.6

计算每个样本的偏差

接着,计算每个样本中 X X X Y Y Y 的偏差:

样本编号 X i X_i Xi X i − X ˉ X_i - \bar{X} XiXˉ Y i Y_i Yi Y i − Y ˉ Y_i - \bar{Y} YiYˉ
12 2 − 6 = − 4 2 - 6 = -4 26=45 5 − 11.6 = − 6.6 5 - 11.6 = -6.6 511.6=6.6
24 4 − 6 = − 2 4 - 6 = -2 46=29 9 − 11.6 = − 2.6 9 - 11.6 = -2.6 911.6=2.6
36 6 − 6 = 0 6 - 6 = 0 66=012 12 − 11.6 = 0.4 12 - 11.6 = 0.4 1211.6=0.4
48 8 − 6 = 2 8 - 6 = 2 86=215 15 − 11.6 = 3.4 15 - 11.6 = 3.4 1511.6=3.4
510 10 − 6 = 4 10 - 6 = 4 106=417 17 − 11.6 = 5.4 17 - 11.6 = 5.4 1711.6=5.4

理解偏差的意义

  • 负偏差:当 X i X_i Xi Y i Y_i Yi 小于各自的均值时,偏差为负,表示该值低于平均水平。
  • 正偏差:当 X i X_i Xi Y i Y_i Yi 大于各自的均值时,偏差为正,表示该值高于平均水平。
  • 偏差大小:偏差的绝对值表示数据点偏离均值的程度。

在协方差中的应用

在协方差计算中,我们使用偏差乘积 ( X i − X ˉ ) ( Y i − Y ˉ ) (X_i - \bar{X})(Y_i - \bar{Y}) (XiXˉ)(YiYˉ) 来衡量两个变量在每个样本中的共同变化:

  • 正的偏差乘积:当两个变量的偏差同号(即都为正或都为负)时,偏差乘积为正,表示两个变量倾向于同方向变化。
  • 负的偏差乘积:当两个变量的偏差异号时,偏差乘积为负,表示两个变量倾向于反方向变化。

通过求偏差乘积的平均值,我们得到协方差,进而了解两个变量的线性相关性。

偏差与方差

偏差也用于计算方差,衡量单个变量的数据分散程度:

Var ( X ) = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 \text{Var}(X) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 Var(X)=n1i=1n(XiXˉ)2

方差是偏差的平方的平均值,表示数据点与均值之间距离的平方平均值。

总结

偏差 是衡量单个数据点与平均水平差异的关键指标。在统计分析中,偏差的计算和应用具有重要意义:

  • 衡量数据分布:偏差反映了数据的离散程度,帮助我们理解数据的分布特征。
  • 计算协方差和方差:偏差是计算协方差和方差的基础,协方差用于衡量两个变量的线性相关性,方差用于衡量数据的离散程度。
  • 数据中心化:通过计算偏差,我们可以将数据中心化,消除均值对分析的影响,提高计算的准确性。

理解偏差的概念和计算方法,对于深入掌握统计学和数据分析的基础知识非常重要。


http://www.mrgr.cn/news/31485.html

相关文章:

  • CentOS Stream 9设置静态IP
  • 第二节 OSI-物理层
  • 使用Docker快速部署FastAPI Web应用
  • TensorFlow|猫狗识别
  • VSCode中python插件安装后无法调试
  • 【OpenEuler】配置虚拟ip
  • 欠款管理代码———未来之窗行业应用跨平台架构
  • 下载 B 站封面的正确方式
  • 系统架构设计师 SOA与微服务架构篇
  • 聊聊Thread Local Storage
  • 02.06、回文链表
  • Track 09:X-XMCL
  • 十种果冻的做法
  • Python习题 191:将英文句子转为每个单词组成的列表
  • 秒懂Linux之消息队列与信号量(了解)
  • 酸枣病虫害智能化防控系统的探索与实践,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建枣类作物种植场景下酸枣病虫害智能检测识别系统
  • 第二十一节:学习Redis缓存数据库的Hash操作(自学Spring boot 3.x的第五天)
  • go语言Map详解
  • 深度学习简历面试知识——transformer、VGGish、K-means、峰值检测
  • SQL编程题复习(24/9/20)
  • VM虚拟机使用的镜像文件下载
  • Linux:虚拟文件系统/proc和self进程
  • [Unity Demo]从零开始制作空洞骑士Hollow Knight第六集:制作小骑士完整的跳跃落地行为
  • 力扣(leetcode)每日一题 LCR 187 破冰游戏(还是考的约瑟夫环)
  • F28335中断系统
  • 第二十节:学习Redis缓存数据库实现增删改查(自学Spring boot 3.x的第五天)