当前位置: 首页 > news >正文

【小白学机器学习19】统计基础:什么是定量分析,量化的4个层级,因果关系分类等

目录

1 定性分析和定量分析

1.1 两种分析方式

1.2 定性分析

1.3 定量分析

1.3.1 定义

1.3.2 名字

1.4 特点和差异

1.5 两者的关系

1.6 测量的评价:切实,可靠

1.7 关于统计分析

2 定量分析的三段式逻辑:个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

2.2 三个分析层级

2.3 总体/母体,population

2.4 样本 Sample

2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢

2.5.1 总体既不可知,那么怎么知道样本近似总体?

2.5.2 那么如何保证样本高度近似,逼近总体呢?

2.5.3 具体的方法就是:随机抽样

随机抽样

随意抽样

3 量化研究的对象: 个体,和个体的属性

3.1 研究的对象:现实中我们观测到的两个维度

3.2 分析单位:

3.3 其中属性又有2个向度:

4  对数据进行定量分析,定量/量化的4个层级

4.1 定量/量化的意思

4.2 量化的4个层级

4.3 定类,称名变量

4.4  定序,顺序变量

4.5  定距,定距变量

4.6 定比,定比变量

4.7 可被定量的等级,和实际定量等级是两回事

5 变化的事物和事物之间的联系

5.1 我们只研究变化的东西

5.1.1 但是变和不变是相对的

5.2 变化的2种不同含义

5.3 对应数据的分类方法1:

5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系

5.2.2 事物之间的关系分为很多种

5.2.3 为什么喜欢研究因果关系

5.2.4 哪些算因果分析

5.3 各种变量的名称


1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

  • 定性分析:通过发掘问题、理解事件现象,去研究事物的属性,事物之间的关系等。
  • 定量分析:用数学工具,用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究(Qualitative research)是与定量研究(Study on measurement,Quantitative research)相对的概念,也称质化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。

定量研究(Study on measurement,Quantitative research)是与定性研究(Qualitative research)相对的概念,要考察和研究事物的量,就得用数学的工具对事物进行数量的分析,这就叫定量的研究,也称量化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字,差不多意思

  • 定性研究 qualitative research 
  • 质性研究,质性分析,质化研究等
  • 优点:
  1. 适合人脑的模式分析的思路
  2. 只要想象力丰富,几乎无上限?
  3. 是其他行动的前提
  • 缺点:
  1. 无法证伪,可能导致大量的错的,假的混杂在真的一起。
  2. 很难把研究对象,研究内容随机化

1.3 定量分析

1.3.1 定义

  • 量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
  • 建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字,大概都是差不多的意思

  • 定量分析,量化分析:quantitative analysis
  • 统计分析,统计方法:statistical analysis
  • 优点
  • 缺点
  1. 有时候会因为数据错误,而结论也肯定错误
  2. “错误输入导致错误的输出”
  3. “垃圾进,垃圾出”
  4. 有时候会得出一些肤浅的结论,比如关联度过高,可能本身就是存在共线性的关系等。

1.4 特点和差异

  • 定性分析,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
  • 定量分析,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式

1.5 两者的关系

  • 两种分析方式没啥好鄙视得,
  • 做定量研究之前,一般需要先有理念,设想等,也就是先有定性的分析。
  • 而不做定量分析,定性研究很难证伪,无法落地

  • 所有定量分析之前都需要定性分析吗?
  • 反例:机器学习里的无监督学习是不是已经是不需要先做定性分析的例子? 根据算法去自动分类,形成最终的结果,是研究人员事前并没有设想到的一些结论等?

1.6 测量的评价:切实,可靠

  • 切实 valid :测量的手段是合适的,可测得,可测准的,等等
  • 可靠 reliable / 有效度/ 效度/信度:反复验证,数据变化不应该太大,稳定性比较抢

1.7 关于统计分析

  • 自然科学里可重复的实验室试验,最可靠,可重复,可证伪
  • 其次是医学里的双盲试验等,比实验室试验已经打了折扣
  • 统计分析,其实并上面两者都低,只是一个做不了前面2者的一个替代品!
  • 为什么
  1. 人的特殊性
  2. 人的价值和权力,导致无法对人对实验
  3. 人的复杂性也很难做定量试验

2 定量分析的三段式逻辑:个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

  • 个体 → 样本 → 总体 
  •  普通→ 特殊 → 一般
  • cases  →  特殊 sample statistic  → 一般 population parameter
  • 现象               →  样本     →     自在之物
  • Erscheinung                    →  Ding an sich
  • 定性分析先心里有了一个模型
  • 通过收集cases,形成一个特殊的样本/殊像,再试图去估计总体的参数

  • 这个是类黑格尔逻辑分析的三段论,而不是,从个体到一般的两段论。
  • 为什么一定要有中间过程,我觉得是逻辑上的桥梁,否则很难从逻辑上推论
  • 比如,没有对样本的研究,从个体很难推论到总体

2.2 三个分析层级

  • 第1层级,个体  unit ,case, observation
  • 第2层级,样本  sample
  • 第3层级,总体、母体(认为的那个模型里)参数的具体参数 population

2.3 总体/母体,population

  • 总体是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知
  • 从柏拉图的那些 理念,理想化的实体,只存在于彼岸的东西。
  • 我们可以认识总体的一些部分,但是永远不能完全的认识。
  1. 有些总体已经封闭,比如地球上的恐龙数量
  2. 有很多总体还在变化,其数量等很多属性不可知。

2.4 样本 Sample

定义

  • 错误:样本是总体的随意的一部分
  • 不够准确:样本是总体的一部分。没错但是不够精确
  • 准确:必须尽量和母体高度形似,结构高度相似的才算样本。

样本不是随便取得总体的一部分

  • 样本和整体的关系,不是局部和整体的关系
  • 而是微缩结构和整体结构的关系
  • 理论上,样本尽量是1比1的缩略最好

2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢

2.5.1 总体既不可知,那么怎么知道样本近似总体?

  • 但是因为母体不可被真正完全认识,只能部分认识
  • 所以,样本是否和总体真的同构,高度近似,这个无法验证!

2.5.2 那么如何保证样本高度近似,逼近总体呢?

  • 那么如何保证样本高度近似,逼近总体呢?
  • 答案是:无法完全保证。无法从结果上证实,只能成程序上保证
  • 也就是结果的正确/正义无法保证,只能从过程的正确/正义上去保证

2.5.3 具体的方法就是:随机抽样

随机抽样
  • 什么是随机抽样:总体内的每个个体抽到的机会均等
  • 至少程序上保证每个个体都有被平等抽到的可能/机会/概率。
  • 随机抽样:比如随机抽取的,比如编号后随机,等距抽样等等,
  • 随机抽样,只能保证过程公正,无法保证结果公平(结果是凭运气随机的)

随意抽样
  • 有规律的往往就是非随机的,
  • 现实中,记者街头采访,各种调查都是随意抽样
  • 为什么:比如记者采访调查人们的幸福感,只是选择我国某个城市的某个街道。这也抽样,最多只能代表这个街道的某天某个时刻的人的随机性。
  • 因为,没考虑,地理范围,时间,城市差别,人群年龄,生活习惯等各种差别。
  • 这些往往都很随意,原因是什么?
  • 原因是,没有在做样本调查前,先想清楚,总体是什么,怎么让样本去逼近总体,怎么样做到让每个个体都有被平等抽到的可能。

3 量化研究的对象: 个体,和个体的属性

3.1 研究的对象:现实中我们观测到的两个维度

  • 维度1:会观测到很多的个体(但我们一般只选其中一部分就是样本,不可能研究全部)
  • 维度2:可以观测到每个个体的有很多属性(但我们一般只研究我们看重的属性,而非全部)

3.2 分析单位:

  • 单个的个体 → 一群个体(定量分析必然要分析一群个体:样本,而不只是单个)
  • 个体的部分属性

3.3 其中属性又有2个向度:

  1. 属性的名称,
  2. 属性的尺度: 属性的强弱,大小,高低等特点。针对属性的尺度,有不同的定义方法,见下文


4  对数据进行定量分析,定量/量化的4个层级

4.1 定量/量化的意思

  • 定,不是确定的意思,只是标记数据。
  • 一般来说,如果是确定数据的意义,一般是定性研究已经做完了。
  • 定量研究,是要对数据进行标记。

4.2 量化的4个层级

  • 最低:定类测量:cateforical measurement,名义测量:nominal measurement
  • 定序测量:ordinal measurement
  • 定距测量:interval measurement
  • 最高:定比测量:ratio measurement
  • 这几个层级是向下兼容的,也就是说:定量的数据肯定也是符合定距,定序,定类的!

4.3 定类,称名变量

  • 定类测量:cateforical measurement
  • 名义测量:nominal measurement
  • 只是对数据进行最 粗糙的分类操作
  • 比如,分为2类,分别为0,1类
  • 分为3类,分别为 A,B,C类 或者 A,B ,1-A-B 补集等
  • 分为10类,等等
  • 定类的数据,只能判断 = 或 !=
  • 所以,这里的数字,0,1 和A,B 或者甲乙 区别不大,只是一个标记!不是纯数字!

4.4  定序,顺序变量

  • 定距测量:ordinal measurement
  • 分类,且用数字标记不同的等级,且这些数字之间存在顺序关系。
  • 比如:军棋里的军衔 :司令> 师长> 团长> 连长>排长> 班长 等
  • 这些数据,存在 排序关系,可以比大小 
  • 可以判断  < > =

4.5  定距,定距变量

  • 定距测量:interval measurement
  • 用数字标记不同的间隔,且这个距离本身可以比较。
  • 0 表示比较的标准,不表示没有
  • 可以 + - 
  • 不适合做 x / 运算,就是也可以x / 运算,但是结果无意义

我自己举个例子

  • 比如 AB城市相距 50公里,BC城市相距100公里,CD城市相距50公里,
  • 可以说,AB城市距离=CD城市距离<BC城市距离
  • 但是不能从,从M点到D,是从M点到B的几倍。因为M点在哪儿并没有确定,也就是没有比较绝对距离的基础:原点。

网上的例子2

  • 比如身高里,没有真正的0点,0只是1个标识?
  • 所以180的人比170的人高10CM
  • 但是不能说 180的人身高是90的2倍?这也没有意义?一般不都这说么
  • 为啥? 表示不理解

网上例子3

  • 智商200的人是智商100的人的2倍,不一定?
  • 这个确实不一定是高2倍,但是一般确实是这么说吧

网上例子4

  • 20度不能是10度的2倍
  • 摄氏温度是定距变量,绝对温度才是定比变量。
  • 定距变量与定比变量的区别在于后者才有绝对零点,因此能用乘除运算说明具体数值之间的关系
  • 但是,绝对温度/华氏温度有绝对零度,绝对零度就是没有温度?这就可以是定比变量了?
  • 查了下:据说根本原因是摄氏温度的比例在物理学没有意义

网上例子5

  • 时间,2点比1点多,而且多一小时,这是+-法
  • 但是不能说2点是1点的2倍?

网上查到的比较让人信服的答案,是需要从物理学除非

绝对的0度,是物理上能量的最小值。

一般的0度,可以把10度也定义为0度,没有背后的物理学意义支撑,其实也可以 x/ 只是X /的结果没有意义

网上很多都是垃圾解释

4.6 定比,定比变量

  • 定比测量:ratio measurement
  • 定比测量,是数字标记,可以完全数字化的属性。
  • 完全数字化,意味着,可以进行数字的 +-x /各种运算。
  • 比如年龄,30>15 , 30是15的2倍,这些都是对的。

4.7 可被定量的等级,和实际定量等级是两回事

  • 比如年龄,可以定量为定比数据
  • 但是如果粗略分析里,年龄也可以划分为,儿童,成年人,老人等定序数据。
  • 取决于具体的需要。
  • 但是有些数据,比如性别就只能被 定类,无法做更高层次的分析。

5 变化的事物和事物之间的联系

  • 变化 vary
  • 常量 constant
  • 变量 varibale

5.1 我们只研究变化的东西

  • 不变是相对的,变化是绝对的
  • 日常见到很多东西是不变的
  • 不变的东西,我们无法通过观察,实验等,从中得到任何新的知识。
  • 但是变化的东西,我们可能观察到他们的变化,而且可能通过控制变量控制其变化。
  • 我们希望研究变化的东西,之间是否有关联,

5.1.1 但是变和不变是相对的

  • 变和不变的标准,有时候只合选择标准相关
  • 比如,只分析男队员的数据,那么性别就是常量
  • 如果分析的队员包括男女,那么性别就是变量

5.2 变化的2种不同含义

  • 日新月异之变化,就是事物随着时间的变化
  • 事物在不同个体之间的差异

5.3 对应数据的分类方法1:

  • 按横截面的数据, cross-sectional data
  • 按时间序列获得数据,longitudinal data ,panel data

5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系

5.2.2 事物之间的关系分为很多种

  • 万事万物都互相联系(辩证法),这个可以是相干,相干 relevant
  • 事物A 和事物B相关关系,相关 correlate,相关还有,正负相关的差别。
  • 事物A 发生后,事物B跟着发生,可能是因果关系
  1. 为什么A之后发生B只是可能
  2. 比如天气热了,大家都吃冰淇淋,都穿泳衣
  3. 我们的经验告诉我们,天气热是吃冰淇淋的原因。但是吃冰淇淋是穿泳衣的原因吗?事实上,这2个都是天气热的结果,这2个事件,高度线性相关,存在共线性。

5.2.3 为什么喜欢研究因果关系

  • 预测未来,因为因果关系可以帮我们预测未来,掌握现在的因,试图预知未来的果
  • 掌握未来
  • 理解过去
  • 等等

5.2.4 哪些算因果分析

日常语言里:

  • 1个原因引起1个结果
  • 1个原因引起多个结果
  • 多个原因引起1个结果
  • 多个原因引起多个结果

感觉数学上,无论是函数的定义,还是映射的定义

都只研究下面这几类

  • 1个原因引起1个结果(函数,双射=单射+满射)
  • 1个原因引起多个结果(函数,满射非单射)
  • 每个结果都有原因(函数,满射)

  • 多个原因引起1个结果(非函数,非映射)
  • 有结果,没有原因(非函数,非映射)
  • 有原因,没有结果(非函数,非映射)

5.3 各种变量的名称

变化vary

自变量 IV

  • independent variable
  • 决定其他变量变化的因子,因

因变量 DV

  • dependent variable
  • response variable
  • outcome variable
  • 被其他因素决定的变量,结果,果


http://www.mrgr.cn/news/56001.html

相关文章:

  • 文件误删并清空回收站:全面解析与高效恢复策略
  • asp.net core mvc发布时输出视图文件Views
  • 【详解】下载MySql安装教程(帮助数据库下载)
  • 【exceljs】纯前端如何实现Excel导出下载和上传解析?
  • nginx解决非人类使用http打开的443,解决网安漏扫时误扫443端口带来的问题
  • springboot接口Get请求实体类入参
  • set笔记
  • HTTP错误代码解决详解
  • 雅迪控股营收、净利润和毛利下滑:销量大幅减少,屡屡抽查不合格
  • 如何成功报考PMP:5个必备步骤
  • 小型内衣裤洗衣机哪个牌子好?揭晓五款巅峰热门机型,精心挑选
  • 双十一有哪些值得买的东西?2024年最全双十一好物推荐榜单来了!
  • 宠物用品电商网站:SpringBoot框架设计与开发
  • 基于SpringBoot+Vue的网上超市系统的设计与实现(带文档)
  • 计算机保研/考研资料分享
  • 右上角的钩自存elemntui样式
  • MedSAM微调版,自动生成 Prompt 嵌入实现图像分割!
  • 集成平台,互联互通平台,企业大数据平台建设方案,技术方案(Word原件 )
  • 最优化理论-最优化1
  • 启发式搜索(直观命名+详细注释版)
  • 300元内头戴式耳机哪个品牌音质好?四款高音质表现头戴品牌推荐!
  • 【C++】基于红黑树的 Map 和 Set 封装及实现过程详述
  • 电商API:定义、功能、特点及广泛应用场景解析
  • ESP-IDF搭建项目的目录结构
  • 宠物用品在线交易:SpringBoot框架的高效实现
  • Rust 中的条件变量:深入解析与实践