当前位置: 首页 > news >正文

【小白学机器学习19】什么是统计里的定量分析

1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

  • 定性分析:通过发掘问题、理解事件现象,去研究事物的属性,事物之间的关系等。
  • 定量分析:用数学工具,用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究(Qualitative research)是与定量研究(Study on measurement,Quantitative research)相对的概念,也称质化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。

定量研究(Study on measurement,Quantitative research)是与定性研究(Qualitative research)相对的概念,要考察和研究事物的量,就得用数学的工具对事物进行数量的分析,这就叫定量的研究,也称量化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字,差不多意思

  • 定性研究 qualitative research 
  • 质性研究,质性分析,质化研究等
  • 缺点:
  1. 无法证伪,可能导致大量的错的,假的混杂在真的一起。

1.3 定量分析

1.3.1 定义

  • 量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
  • 建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字,大概都是差不多的意思

  • 定量分析,量化分析:quantitative analysis
  • 统计分析,统计方法:statistical analysis
  • 优点
  • 缺点
  1. 有时候会因为数据错误,而结论也肯定错误,“错误输入导致错误的输出”
  2. 有时候会得出一些肤浅的结论,比如关联度过高,可能本身就是存在共线性的关系等。

1.4 特点和差异

  • 定性分析,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
  • 定量分析,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式

1.5 两者的关系

  • 两种分析方式没啥好鄙视得,
  • 做定量研究之前,一般需要先有理念,设想等,也就是先有定性的分析。
  • 而不做定量分析,定性研究很难证伪,无法落地

  • 所有定量分析之前都需要定性分析吗?
  • 反例:机器学习里的无监督学习是不是已经是不需要先做定性分析的例子? 根据算法去自动分类,形成最终的结果,是研究人员事前并没有设想到的一些结论等?


3 测量的4个尺度


1 定类
2 定距
3 定比
4 定量

4 总体和样本

4.1 总体,母体,population


是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知

样本和整体的关系,不是局部和整体的关系
而是微缩结构和整体结构的关系

4.2 样本 Sample


必须尽量和高度形似母体,结构相同
尽量是1比1的缩略最好
但是因为母体不可被真正完全认识,只能部分认识,所这个不可绝对验证,只能逼近。

5 如何保证样本和总体同结构呢


如何保证样本和总体同结构呢:无法最终保证
也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证


随机抽样
有规律的往往就是非随机的
除非是随机抽取的,比如编号后随机
至少程序上保证每个个体都有被平等抽到的可能。

也说明了,公平也一样,只有过程的公平,没有结果的公平。
但是这个又在变化,继续下一次的过程。

正态分布/自然分布也说了这个问题,一定是中间大,两头小。
而且钟形曲线是无限的,天网恢恢,苏而不漏。
 

随意抽样,

Vary  variable变项----变量

   现有的理论模型
   例外是机器学习的无监督学习
量化之前,我们已经假设了
   总体是符合什么样的分布了,比如是正态分布
   正态分布的规律我们是知道的,但是不清楚每个具体的总体的正态分布的,均值,方差等具体参数!


6 量化

2 什么叫显著


显著,只是说两者存在,非随机的关系。 
不等于重要,或者其他

个体两方面
1 多个个体
2 多个属性/特征,每个属性都有1 名字 2尺度

个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/


量化与数据
数据种类一,界面数据
数据种类2,时序类数据

7 量化的对象


1 第1层级,个体  case  individual 
2 第2层级,样本  sample
3 第3层级,总体,母体的(认为的那个模型里)参数的具体参数 population

样本统计值
1 均值
2 回归系数
3 偏回归系数,净回归系数.  前期是其他参数不变时,这个参数作为自变量和因变量之间的关系。
 


http://www.mrgr.cn/news/55812.html

相关文章:

  • expressjs 如何记录操作日志
  • 未来智慧城市发展的四大引领方向
  • 如何使用Git推送本地搭建的仓库以及远程克隆的仓库
  • springBoot集成nacos注册中心以及配置中心
  • nginx解决非人类使用http打开的443,解决网安漏扫时误扫443端口带来的问题
  • 暴雨亮相第四届岩土力学与工程青年科学家论坛
  • yolo自动化项目实例解析(八)自建UI-键鼠录制回放
  • uniapp路由权限拦截守卫
  • C# 字符串处理与正则表达式
  • Python | Leetcode Python题解之第500题键盘行
  • Shiro框架认证机制详解
  • AndroidStudio移动开发:使用Service播放音乐【步骤】
  • 最小差值 II
  • 大模型 Agent 概述
  • 关于懒汉饿汉模式下的线程安全问题
  • C++基础与实用技巧第三课:内存管理与性能优化
  • 字典学习算法
  • Stylish Archer Assets Pack 女弓箭手射箭动画动作
  • Docker 部署 EMQX 一分钟极速部署
  • 什么是运动控制器?运动控制器的特点
  • Echarts 点击事件无法使用 this 或者 this绑定的数据无法获取
  • 使二进制数组全部等于 1 的最少操作次数 II
  • 回归预测||时序预测||基于灰狼优化的时域卷积TCN连接Transformer-BiLSTM的数据回归预测|时序预测Matlab程序
  • 现代C语言:C23标准重大更新
  • Moectf-week1-wp
  • WSL2Linux 子系统(十三)