当前位置: 首页 > news >正文

统计学基本原理

目录

文章目录

  • 目录
  • 统计学
  • 统计学基本概念
  • 描述性统计
    • 数据可视化图表工具
  • 汇总统计
    • 统计数据的分布情况:中位数、众数、平均值
    • 统计数据的离散程度:极差、方差、标准差、离散系数
  • 相关分析
    • Pearson 线性关系相关系数
    • Spearman 单调关系相关系数
  • 回归分析
    • 回归模型
    • 一元线性回归模型
    • 多元线性回归模型
  • 判别分析
  • 聚类分析
  • 主成分分析
  • 定性和定量分析的关系

统计学

  • 定义:是一门关于 “数据资料” 的收集、整理、 描述、分析和解释的学科。
  • 目的:探索数据集合的内在特征与规律性。
  • 应用:对系统进行深入、全面的认识;对未来作出准确的预测,继而帮助决策。
  • 方法:调查研究。
  • 路径:数据收集、数据分析、建立概念、描述预测。

掌握统计学的数据科学家或工程师,他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。会编程、做数据可视化。通过海量数据进行分析,获得具有巨大价值的产品和服务,或深刻的洞见。

统计学基本概念

使用解字法,我们可以将 “统计学” 拆分为以下基本概念:

数据:英文单词 data,在拉丁文里是 “已知或事实” 的含义。典型的数据类型包括:

  • 定性变量数据(Qualitative): 用于描述事物的属性或类别,其值通常是非数值的,无法进行数学运算。
    • 名义变量(Nominal Scale):表示无顺序或等级差异的分类数据,仅用于标识或区分不同类别。例如:性别、颜色等。
    • 顺序变量(Ordinal Scale):类别具有自然顺序或等级,但类别间的差异无法量化。例如:满意度评分、教育水平等。
  • 定量变量数据(Quantitative):以数值形式表示,具有明确的数学意义,可进行算术运算
    • 区间变量(Interval Scale):数值具有等距性,但无绝对零点。例如:温度、年份、IQ 分数等。允许加减运算,但不能计算比率,例如:20℃ 不是 10℃ 的两倍热。
    • 比率变量(Ratio Scale):具有区间变量的所有特性,且还拥有绝对零点。即:“0” 可以表示 “无”。例如:身高、体重、收入等。可进行乘除运算,例如:身高 180cm 是 90cm 的两倍。

数据化:把现象转变成可以制表分析的量化形式过程。

数据收集:典型的数据来源包括:

  • 统计数据:调查数据、实验数据、汇总数据等。
  • 传感器记录数据:金融交易、市场价格、生产过程、财务、营销、传感器等。
  • 新媒体网络数据:微信、微博、QQ、手机短信、图片、视频、音频等。

数据分析:典型的分析行为包括:

  • 描述和分析系统特征,包括:现状、结构、因素之间关系等。
  • 分析系统的运行规律与发展趋势,即:动态数据。
  • 对系统的未来状态进行预测,例如:建立模型。

描述性统计

描述性统计用于将数据进行可视化展示,是一种将 “抽象思维” 转换为 “形象思维” 的工具和方法论。

把数字置于视觉空间中,读者的大脑就会更容易发现其中隐藏的模式,得出许多出乎意料的结果。—— Nathan Yau

  • 目的:通过数据来描述规律、讲述真相、解决问题。
  • 思维:问题导向。数据是用来讲故事的,而故事是面向听众的,而听众是带着问题来的,所以数据可视化使用围绕 “问题” 展开。对讲述问题有用的数据应该展示,相反则可以忽略。
  • 技巧:用数据说话的强烈意识 对系统特性的深入思考尝试性分析、对信息点敏感,尤其对异常数据点敏感。
  • 工具:图表。
  • 基本原则
  1. 准确:能清晰地表达主题。
  2. 醒目:信息点特别突出。
  3. 美观:图形使用应丰富多彩。
  4. 图、文并茂:文字应与图、表的篇幅平衡。
  5. 详略得当,防止冗长的流水帐。

数据可视化图表工具

  • 柱形图(Bar Chart):用于描述定性数据的分布。适用于定性数据,例如:豆瓣电影评分。包括堆积柱形图、百分比堆积柱形图、瀑布图、漏斗图等变体。
    在这里插入图片描述

  • 饼图(Pie Chart):用于描述数据的结构性特征。适用于定性数据,例如:北京市空气污染的主要来源。包括子母饼图、旭日图等变体。
    在这里插入图片描述

  • 面积图:用于描述数据的动态比率结构。适用于定量数据,例如:上海就业人口的三产构成(1978—2011)。
    在这里插入图片描述

  • 折线图(Line Chart):用于描述数据的动态变化规律。适用于定量数据,例如:城乡居民家庭收入/元(1991~2003)。
    在这里插入图片描述

  • 散点图(Scatter Plot):用于描述或反映 2 个定性变量之间的相关关系。例如:发电量与工业增加值的关系(1995~2019)
    在这里插入图片描述

  • 气泡图:用于描述 3 个定性变量的 n 个样本点之间的关系,例如:美国犯罪率气泡图。
    在这里插入图片描述

  • 雷达图(Radar chart):用于描述多个定性变量之间的数量关系,例如:城乡居民家庭平均每人生活消费支出(1997 年)。
    在这里插入图片描述

汇总统计

统计数据的分布情况:中位数、众数、平均值

我们通常可以使用 “中位数、众数、均值” 来描述基本的数据分布情况。但因为三者之间有着不同的特性,所以它们也有着不同的应用场景。
中位数(Median):将数据从小到大排序,处于中间位置的观测值(实际数值)。

  • 对于一个数据集,中位数经过数值运算后始终是唯一的;
  • 定性数据不能数值运算所以没有中位数;
  • 只利用了数据集的中间位置数据,所以对两端的极端值不敏感。
  • 应用场景:对于名义变量,用于描述集中趋势。

众数(Mode):出现频次最多的观测值。

  • 对于一个数据集,众数可以不唯一;
  • 众数不需要数值运算得出,所以定性数据有众数;
  • 只利用了数据集的一部分数据,所以不容易受到极端值的影响。
  • 应用场景:对于顺序变量,用于描述集中趋势。

平均值(Mean):所有数据之和除以数据的个数,反映数据的总体平均水平。

  • 对于一个数据集,均值经过数值运算后始终是唯一的;
  • 定性数据不能数值运算所以没有均值;
  • 利用了数据集的全部数据参与数值运算,所以容易受极端值影响。
  • 应用场景:定量变量,一般使用平均值。例如:歌唱比赛,首先应该利用所有评委的评分,其次应该去除最高分和最低分这 2 个极端值。

统计数据的离散程度:极差、方差、标准差、离散系数

所谓离散程度,即:数据集中每 2 个数据之间的差异程度。通常使用极差、方差、标准差、离散系数进行测量。

极差(Rang):最大值与最小值之间的差距,显然容易受到极端值的影响。

  • 四分位极差(Interquartile Rang):为了消除极端值的影响。

方差(Variance):以均值为中心,测量所有观测值与均值的平均偏离程度。

  • 总体方差(Population Variance):描述整个数据集所有数据与总体均值的偏离程度。“方差” 通常指的就是整体方差。
    在这里插入图片描述

  • 样本方差(Sample Variance):描述从整个数据集中抽取的样本数据与样本均值的偏离程度,是总体方差的估计量。当总体方差数据量特别巨大时,可以考虑用样本方差来进行预估。
    在这里插入图片描述

标准差(Standard Deviation):方差的平方根就是标准差。值得注意的是,在一个方差使用平方来表示观测值样本和均值先之间的 “垂直距离”,但平方也放大了数值的量纲。所以标准差就是对方差的平方开根,将结果数值还原为与原样本相同的量纲。

离散系数(Coefficient of Variation):标准差常用于描述一个数据集的离散程度;而离散系数则用于比较 2 个及以上数据集之间的离散程度。离散系数是一种 “无量纲” 的相对度量,公式如下,离散系数等于标准差除以均值,从而消除了量纲的影响,例如:1.4/6=0.23 和 14/60=0.23 之间的 CV 相同,但量纲相差了 10 倍。反之,通常不会使用标准差作为多个数据集之间的离散程度的比较。
在这里插入图片描述

相关分析

线性关系:线性函数 Y=f(X),每一个 X 值都唯一地对应一个 Y 值。
随机关系(Stochastic Relationship):当 X 的值给定时,Y 的取值服从一个分布,而不是一个唯一对应的 Y 值。
相关系数(The Correlation Coefficient):在随机关系场景中,需要引入一个相关系数来描述 “X” 和 “Y 的取值分布” 之间的关联程度的量化指标。简而言之,相关系数描述了 2 个变量 a、b 之间是否存在关系,以及关系是否密切(是否线性相关)。

现如今,根据不同的数据类型和数据分析需求,相关系数有多种定义和计算方法。包括:Pearson、Spearman、Kendall 等相关系数。
在这里插入图片描述

Pearson 线性关系相关系数

Pearson(皮尔逊)相关系数 r(x, y),用于衡量两个连续变量之间的 “线性相关” 程度。

  • 存在 2 个连续变量 x 和 y:
    在这里插入图片描述
  • Pearson 系数计算公式:分子为 x 和 y 的样本协方差,分母为 x 和 y 的样本方差的乘积。
    在这里插入图片描述
    r(x, y) 的取值范围诶 [-1, 1],对应的判别性质为:
    在这里插入图片描述
    最佳实践经验值为:
    在这里插入图片描述

Spearman 单调关系相关系数

Pearson 用于测量 x 和 y 连续变量之间的线性相关性,但现实中存在大量非线性相关的数据集,但它们之间也会存在某种关联关系,如单调关系。单调关系,即:即一个 x 变量增加时,另一个 y 变量是否倾向于同向或反向的变化,而不会要求严格线性关系。

Spearman 单调关系(正相关、负相关)相关系数,基于 2 个连续变量之间的秩次( Ranks,排序位置)来进行计算。可用于线性或非线性连续变量数据集,尤其适用于顺序连续变量、存在异常值的连续变量、非正态分布连续变量。

在这里插入图片描述

例如:使用 Spearman 来判别某班级 10 名学生按学习时间(小时/周)和考试成绩排名之间的单调关系。如下表。

学生学习时长 a学习时长排名 x考试成绩 b考试成绩排名 y
A十小时1992
B九小时21001
C八小时3983
D七小时4965
E六小时5974
F五小时6956
G四小时7938
H三小时8947
I二小时99110
J一小时10929

显然,以上 a 和 b 两组数据呈现出非线性特征,但这两组数据未必就不存在任何正相关或负相关的关系。同时 a 和 b 两组数据属于顺序变量类型,所以可以采用 Spearman 来测量判别。

从下述计算可知,Spearman 计算过程完全不关心 a 和 b 的实际数据,只会关系 x 和 y 的 ranks 排名关系。计算结果 Spearman 系数 ≈0.952,接近 1,表明学习时间排名与考试成绩排名存在极强的正相关。

在这里插入图片描述

回归分析

回归模型

一元线性回归模型

多元线性回归模型

判别分析

聚类分析

主成分分析

定性和定量分析的关系


http://www.mrgr.cn/news/97051.html

相关文章:

  • chromium魔改——navigator.webdriver 检测
  • STM32入门学习笔记(持续更新)
  • Unity中 JobSystem使用整理
  • 学透Spring Boot — 007. 七种配置方式及优先级
  • 【蓝桥杯】第十五届C++B组省赛
  • MySQL-SQL-DDL语句、表结构创建语句语法、表约束、表数据类型
  • github合并多个commit message以及rebase解决文件冲突
  • 【蓝桥杯】算法笔记2
  • Javaweb后端AOP记录操作日志
  • 蓝桥杯冲刺
  • Springboot学习笔记4.1
  • Apache httpclient okhttp(1)
  • 哈希表+前缀和+滑动窗口高效查找——蓝桥杯例题
  • 3499 幸运数字
  • Unity2D:从零开始制作一款跑酷游戏!
  • 【MyBatis】深入解析 MyBatis XML 开发:增删改查操作和方法命名规范、@Param 重命名参数、XML 返回自增主键方法、数据库连接池和 MySQL 开发企业规范
  • 图解AUTOSAR_LINInterface
  • 认识 Promise
  • 算法题(114):矩阵距离
  • 【动态规划】线性dp——LIS和LCS