当前位置：首页 > news >正文

【小白学机器学习19】统计基础：什么是定量分析，量化的4个层级，因果关系分类等

news 2024/10/22 15:37:49

目录

1 定性分析和定量分析

1.1 两种分析方式

1.2 定性分析

1.3 定量分析

1.3.1 定义

1.3.2 名字

1.4 特点和差异

1.5 两者的关系

1.6 测量的评价：切实，可靠

1.7 关于统计分析

2 定量分析的三段式逻辑：个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

2.2 三个分析层级

2.3 总体/母体，population

2.4 样本 Sample

2.5 但是问题来了：总体不可知，如何保证样本和总体同结构呢

2.5.1 总体既不可知，那么怎么知道样本近似总体？

2.5.2 那么如何保证样本高度近似，逼近总体呢？

2.5.3 具体的方法就是：随机抽样

随机抽样

随意抽样

3 量化研究的对象：个体，和个体的属性

3.1 研究的对象：现实中我们观测到的两个维度

3.2 分析单位：

3.3 其中属性又有2个向度：

4 对数据进行定量分析，定量/量化的4个层级

4.1 定量/量化的意思

4.2 量化的4个层级

4.3 定类，称名变量

4.4 定序，顺序变量

4.5 定距，定距变量

4.6 定比，定比变量

4.7 可被定量的等级，和实际定量等级是两回事

5 变化的事物和事物之间的联系

5.1 我们只研究变化的东西

5.1.1 但是变和不变是相对的

5.2 变化的2种不同含义

5.3 对应数据的分类方法1：

5.2 人的思维模式，喜欢去探求不同事件之间的联系，尤其是因果关系

5.2.2 事物之间的关系分为很多种

5.2.3 为什么喜欢研究因果关系

5.2.4 哪些算因果分析

5.3 各种变量的名称

1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

定性分析：通过发掘问题、理解事件现象，去研究事物的属性，事物之间的关系等。
定量分析：用数学工具，用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究（Qualitative research）是与定量研究（Study on measurement，Quantitative research）相对的概念，也称质化研究，是社会科学领域的一种基本研究范式，也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。

定量研究（Study on measurement，Quantitative research）是与定性研究（Qualitative research）相对的概念，要考察和研究事物的量，就得用数学的工具对事物进行数量的分析，这就叫定量的研究，也称量化研究，是社会科学领域的一种基本研究范式，也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字，差不多意思

定性研究 qualitative research
质性研究，质性分析，质化研究等
优点：

适合人脑的模式分析的思路
只要想象力丰富，几乎无上限？
是其他行动的前提

缺点：

无法证伪，可能导致大量的错的，假的混杂在真的一起。
很难把研究对象，研究内容随机化

1.3 定量分析

1.3.1 定义

量化分析：就是把要分析的一个真实事物/理念中概念：变项，进行数字化，从而成为一个变量 variable,然后分析这个变量。
建模：简单的就是建一个函数表达式 /一个方程等，复杂的，很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字，大概都是差不多的意思

定量分析，量化分析：quantitative analysis
统计分析，统计方法：statistical analysis
优点
缺点

有时候会因为数据错误，而结论也肯定错误
“错误输入导致错误的输出”
“垃圾进，垃圾出”
有时候会得出一些肤浅的结论，比如关联度过高，可能本身就是存在共线性的关系等。

1.4 特点和差异

定性分析，可以教基本路数，思维方式，但具体细节，其他靠悟，更接近艺术
定量分析，可以教基本路数，还可以具体步骤，套路，招式，可证伪得思维方式

1.5 两者的关系

两种分析方式没啥好鄙视得，
做定量研究之前，一般需要先有理念，设想等，也就是先有定性的分析。
而不做定量分析，定性研究很难证伪，无法落地

所有定量分析之前都需要定性分析吗？
反例：机器学习里的无监督学习是不是已经是不需要先做定性分析的例子？根据算法去自动分类，形成最终的结果，是研究人员事前并没有设想到的一些结论等？

1.6 测量的评价：切实，可靠

切实 valid ：测量的手段是合适的，可测得，可测准的，等等
可靠 reliable / 有效度/ 效度/信度：反复验证，数据变化不应该太大，稳定性比较抢

1.7 关于统计分析

自然科学里可重复的实验室试验，最可靠，可重复，可证伪
其次是医学里的双盲试验等，比实验室试验已经打了折扣
统计分析，其实并上面两者都低，只是一个做不了前面2者的一个替代品！
为什么

人的特殊性
人的价值和权力，导致无法对人对实验
人的复杂性也很难做定量试验

2 定量分析的三段式逻辑：个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

个体 → 样本 → 总体
普通→ 特殊 → 一般
cases → 特殊 sample statistic → 一般 population parameter
现象 → 样本 → 自在之物
Erscheinung → Ding an sich
定性分析先心里有了一个模型
通过收集cases，形成一个特殊的样本/殊像，再试图去估计总体的参数

这个是类黑格尔逻辑分析的三段论，而不是，从个体到一般的两段论。
为什么一定要有中间过程，我觉得是逻辑上的桥梁，否则很难从逻辑上推论
比如，没有对样本的研究，从个体很难推论到总体

2.2 三个分析层级

第1层级，个体 unit ,case, observation
第2层级，样本 sample
第3层级，总体、母体（认为的那个模型里）参数的具体参数 population

2.3 总体/母体，population

总体是一种理想化的东西，可以说永远无法真正的/完全的认识，可以部分认知
从柏拉图的那些理念，理想化的实体，只存在于彼岸的东西。
我们可以认识总体的一些部分，但是永远不能完全的认识。

有些总体已经封闭，比如地球上的恐龙数量
有很多总体还在变化，其数量等很多属性不可知。

2.4 样本 Sample

定义

错误：样本是总体的随意的一部分
不够准确：样本是总体的一部分。没错但是不够精确
准确：必须尽量和母体高度形似，结构高度相似的才算样本。

样本不是随便取得总体的一部分

样本和整体的关系，不是局部和整体的关系
而是微缩结构和整体结构的关系
理论上，样本尽量是1比1的缩略最好

2.5 但是问题来了：总体不可知，如何保证样本和总体同结构呢

2.5.1 总体既不可知，那么怎么知道样本近似总体？

但是因为母体不可被真正完全认识，只能部分认识
所以，样本是否和总体真的同构，高度近似，这个无法验证！

2.5.2 那么如何保证样本高度近似，逼近总体呢？

那么如何保证样本高度近似，逼近总体呢？
答案是：无法完全保证。无法从结果上证实，只能成程序上保证
也就是结果的正确/正义无法保证，只能从过程的正确/正义上去保证

2.5.3 具体的方法就是：随机抽样

随机抽样

什么是随机抽样：总体内的每个个体抽到的机会均等
至少程序上保证每个个体都有被平等抽到的可能/机会/概率。
随机抽样：比如随机抽取的，比如编号后随机，等距抽样等等，
随机抽样，只能保证过程公正，无法保证结果公平（结果是凭运气随机的）

随意抽样

有规律的往往就是非随机的，
现实中，记者街头采访，各种调查都是随意抽样
为什么：比如记者采访调查人们的幸福感，只是选择我国某个城市的某个街道。这也抽样，最多只能代表这个街道的某天某个时刻的人的随机性。
因为，没考虑，地理范围，时间，城市差别，人群年龄，生活习惯等各种差别。
这些往往都很随意，原因是什么？
原因是，没有在做样本调查前，先想清楚，总体是什么，怎么让样本去逼近总体，怎么样做到让每个个体都有被平等抽到的可能。

3 量化研究的对象：个体，和个体的属性

3.1 研究的对象：现实中我们观测到的两个维度

维度1：会观测到很多的个体（但我们一般只选其中一部分就是样本，不可能研究全部）
维度2：可以观测到每个个体的有很多属性（但我们一般只研究我们看重的属性，而非全部）

3.2 分析单位：

单个的个体 → 一群个体（定量分析必然要分析一群个体：样本，而不只是单个）
个体的部分属性

3.3 其中属性又有2个向度：

属性的名称，
属性的尺度：属性的强弱，大小，高低等特点。针对属性的尺度，有不同的定义方法，见下文

4 对数据进行定量分析，定量/量化的4个层级

4.1 定量/量化的意思

定，不是确定的意思，只是标记数据。
一般来说，如果是确定数据的意义，一般是定性研究已经做完了。
定量研究，是要对数据进行标记。

4.2 量化的4个层级

最低：定类测量：cateforical measurement，名义测量：nominal measurement
定序测量：ordinal measurement
定距测量：interval measurement
最高：定比测量：ratio measurement
这几个层级是向下兼容的，也就是说：定量的数据肯定也是符合定距，定序，定类的！

4.3 定类，称名变量

定类测量：cateforical measurement
名义测量：nominal measurement
只是对数据进行最粗糙的分类操作
比如，分为2类，分别为0，1类
分为3类，分别为 A,B,C类或者 A,B ,1-A-B 补集等
分为10类，等等
定类的数据，只能判断 = 或 !=
所以，这里的数字，0，1 和A,B 或者甲乙区别不大，只是一个标记！不是纯数字！

4.4 定序，顺序变量

定距测量：ordinal measurement
分类，且用数字标记不同的等级，且这些数字之间存在顺序关系。
比如：军棋里的军衔：司令> 师长> 团长> 连长>排长> 班长等
这些数据，存在排序关系，可以比大小
可以判断 < > =

4.5 定距，定距变量

定距测量：interval measurement
用数字标记不同的间隔，且这个距离本身可以比较。
0 表示比较的标准，不表示没有
可以 + -
不适合做 x / 运算，就是也可以x / 运算，但是结果无意义

我自己举个例子

比如 AB城市相距 50公里，BC城市相距100公里，CD城市相距50公里，
可以说，AB城市距离=CD城市距离<BC城市距离
但是不能从，从M点到D,是从M点到B的几倍。因为M点在哪儿并没有确定，也就是没有比较绝对距离的基础：原点。

网上的例子2

比如身高里，没有真正的0点，0只是1个标识？
所以180的人比170的人高10CM
但是不能说 180的人身高是90的2倍？这也没有意义？一般不都这说么
为啥？表示不理解

网上例子3

智商200的人是智商100的人的2倍，不一定？
这个确实不一定是高2倍，但是一般确实是这么说吧

网上例子4

20度不能是10度的2倍
摄氏温度是定距变量，绝对温度才是定比变量。
定距变量与定比变量的区别在于后者才有绝对零点，因此能用乘除运算说明具体数值之间的关系
但是，绝对温度/华氏温度有绝对零度，绝对零度就是没有温度？这就可以是定比变量了？
查了下：据说根本原因是摄氏温度的比例在物理学没有意义

网上例子5

时间，2点比1点多，而且多一小时，这是+-法
但是不能说2点是1点的2倍？

网上查到的比较让人信服的答案，是需要从物理学除非

绝对的0度，是物理上能量的最小值。

一般的0度，可以把10度也定义为0度，没有背后的物理学意义支撑，其实也可以 x/ 只是X /的结果没有意义

网上很多都是垃圾解释

4.6 定比，定比变量

定比测量：ratio measurement
定比测量，是数字标记，可以完全数字化的属性。
完全数字化，意味着，可以进行数字的 +-x /各种运算。
比如年龄，30>15 , 30是15的2倍，这些都是对的。

4.7 可被定量的等级，和实际定量等级是两回事

比如年龄，可以定量为定比数据
但是如果粗略分析里，年龄也可以划分为，儿童，成年人，老人等定序数据。
取决于具体的需要。
但是有些数据，比如性别就只能被定类，无法做更高层次的分析。

5 变化的事物和事物之间的联系

变化 vary
常量 constant
变量 varibale

5.1 我们只研究变化的东西

不变是相对的，变化是绝对的
日常见到很多东西是不变的
不变的东西，我们无法通过观察，实验等，从中得到任何新的知识。
但是变化的东西，我们可能观察到他们的变化，而且可能通过控制变量控制其变化。
我们希望研究变化的东西，之间是否有关联，

5.1.1 但是变和不变是相对的

变和不变的标准，有时候只合选择标准相关
比如，只分析男队员的数据，那么性别就是常量
如果分析的队员包括男女，那么性别就是变量

5.2 变化的2种不同含义

日新月异之变化，就是事物随着时间的变化
事物在不同个体之间的差异

5.3 对应数据的分类方法1：

按横截面的数据, cross-sectional data
按时间序列获得数据，longitudinal data ,panel data

5.2 人的思维模式，喜欢去探求不同事件之间的联系，尤其是因果关系

5.2.2 事物之间的关系分为很多种

万事万物都互相联系（辩证法），这个可以是相干，相干 relevant
事物A 和事物B相关关系，相关 correlate，相关还有，正负相关的差别。
事物A 发生后，事物B跟着发生，可能是因果关系

为什么A之后发生B只是可能
比如天气热了，大家都吃冰淇淋，都穿泳衣
我们的经验告诉我们，天气热是吃冰淇淋的原因。但是吃冰淇淋是穿泳衣的原因吗？事实上，这2个都是天气热的结果，这2个事件，高度线性相关，存在共线性。

5.2.3 为什么喜欢研究因果关系

预测未来，因为因果关系可以帮我们预测未来，掌握现在的因，试图预知未来的果
掌握未来
理解过去
等等

5.2.4 哪些算因果分析

日常语言里：

1个原因引起1个结果
1个原因引起多个结果
多个原因引起1个结果
多个原因引起多个结果

感觉数学上，无论是函数的定义，还是映射的定义

都只研究下面这几类

1个原因引起1个结果（函数，双射=单射+满射）
1个原因引起多个结果（函数，满射非单射）
每个结果都有原因（函数，满射）

多个原因引起1个结果（非函数，非映射）
有结果，没有原因（非函数，非映射）
有原因，没有结果（非函数，非映射）

5.3 各种变量的名称

变化vary

自变量 IV

independent variable
决定其他变量变化的因子，因

因变量 DV

dependent variable
response variable
outcome variable
被其他因素决定的变量，结果，果

http://www.mrgr.cn/news/56001.html

相关文章：

文件误删并清空回收站：全面解析与高效恢复策略

asp.net core mvc发布时输出视图文件Views

【详解】下载MySql安装教程（帮助数据库下载）

【exceljs】纯前端如何实现Excel导出下载和上传解析？

nginx解决非人类使用http打开的443，解决网安漏扫时误扫443端口带来的问题

springboot接口Get请求实体类入参

HTTP错误代码解决详解

雅迪控股营收、净利润和毛利下滑：销量大幅减少，屡屡抽查不合格

如何成功报考PMP：5个必备步骤

小型内衣裤洗衣机哪个牌子好？揭晓五款巅峰热门机型，精心挑选

双十一有哪些值得买的东西？2024年最全双十一好物推荐榜单来了！

宠物用品电商网站：SpringBoot框架设计与开发

基于SpringBoot+Vue的网上超市系统的设计与实现（带文档)

计算机保研/考研资料分享

右上角的钩自存elemntui样式

MedSAM微调版，自动生成 Prompt 嵌入实现图像分割！

集成平台，互联互通平台，企业大数据平台建设方案，技术方案（Word原件）

最优化理论-最优化1

启发式搜索(直观命名+详细注释版)

300元内头戴式耳机哪个品牌音质好？四款高音质表现头戴品牌推荐！

【C++】基于红黑树的 Map 和 Set 封装及实现过程详述

电商API：定义、功能、特点及广泛应用场景解析

ESP-IDF搭建项目的目录结构

宠物用品在线交易：SpringBoot框架的高效实现

Rust 中的条件变量：深入解析与实践