当前位置: 首页 > news >正文

分段线性回归

5. 分段线性回归 (Piecewise Linear Regression)

分段线性回归是一种简单的方式,尤其当数据的弧度变化不大但有多个不同趋势段时。可以将数据分为多个区间,每个区间内拟合一条直线。最终的模型是这些直线的组合。

  • 优点:模型简单、易解释,可以很好地拟合具有轻微弯曲的数据。
  • 缺点:选择分段点可能需要试验,并且需要手动设定,适合趋势变化较明确的情况。

分段线性回归是一种分段拟合的方法,用于捕捉数据中不同区段的线性变化趋势。我们可以使用 pwlf(Piecewise Linear Fit)库实现分段线性回归,并绘制数据散点、回归线以及置信区间。

前置安装

首先,需要安装 pwlf 库:

pip install pwlf

代码示例

import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有分段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2*x + 1, lambda x: -1.5*x + 14, lambda x: 0.5*x + 3]) + np.random.normal(0, 1, x.shape)# 初始化分段线性回归模型,假设 3 个分段
model = pwlf.PiecewiseLinFit(x, y)
breakpoints = model.fit(3)# 获取预测值
x_hat = np.linspace(0, 10, 100)
y_hat = model.predict(x_hat)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据,生成新的拟合模型并预测x_sample, y_sample = resample(x, y)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(3)y_hat_sample = model_bootstrap.predict(x_hat)y_hat_bootstrap.append(y_hat_sample)# 将预测结果转换为数组
y_hat_bootstrap = np.array(y_hat_bootstrap)# 计算 95% 置信区间
lower_bound = np.percentile(y_hat_bootstrap, 2.5, axis=0)
upper_bound = np.percentile(y_hat_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归曲线和置信区间
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='gray', label='Data Points')
plt.plot(x_hat, y_hat, color='blue', label='Piecewise Linear Fit')
plt.fill_between(x_hat, lower_bound, upper_bound, color='lightblue', alpha=0.5, label='95% Confidence Interval')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with 95% Confidence Interval')
plt.legend()
plt.show()

代码说明

  1. 数据生成:创建具有分段线性趋势的数据。这里我们假设数据在不同区间内具有不同的线性关系,并在数据中加入噪声。
  2. 分段线性回归模型
    • 使用 pwlf.PiecewiseLinFit 来拟合分段线性回归。
    • 指定分段数为 3,模型将自动找到最佳分段点。
  3. 预测和置信区间
    • 生成预测值 y_hat
    • 使用 Bootstrap 方法生成 200 个不同的采样集,并对每个采样集进行拟合和预测。得到 2.5% 和 97.5% 百分位数作为 95% 的置信区间。
  4. 绘图:绘制数据散点、分段线性回归曲线和置信区间。

输出图形

在这里插入图片描述

运行此代码后会生成以下内容:

  • 灰色散点图:展示原始数据点。
  • 蓝色的分段线性回归线:拟合的分段线性回归结果,显示了不同区间的线性趋势。
  • 淡蓝色的置信区间:通过 Bootstrap 方法生成的 95% 置信区间,反映了模型的置信范围。

更复的情况是,在1-4之间能拟合,在7以上也能拟合另一个线性,但是在4-7之间不存在线性关系,不需要拟合

在这种情况下,可以通过在 pwlf 中设置不同的区间来拟合特定区段的数据,并忽略不需要拟合的区间。我们可以手动筛选出所需区间的数据,例如在区间 x ∈ [ 1 , 4 ] x \in [1, 4] x[1,4] x ∈ [ 7 , 10 ] x \in [7, 10] x[7,10] 进行线性拟合,而对区间 x ∈ [ 4 , 7 ] x \in [4, 7] x[4,7] 不进行拟合。以下代码实现了该思路,并绘制数据、分段线性回归线和置信区间。

代码示例

import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有分段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2 * x + 1, lambda x: 0.2 * x**2, lambda x: -0.5 * x + 10]) + np.random.normal(0, 1, x.shape)# 分别提取需要拟合的两个区间的数据
mask1 = (x >= 1) & (x <= 4)
mask2 = (x >= 7) & (x <= 10)
x_segmented = np.concatenate([x[mask1], x[mask2]])
y_segmented = np.concatenate([y[mask1], y[mask2]])# 使用 pwlf 进行分段线性拟合
model = pwlf.PiecewiseLinFit(x_segmented, y_segmented)
breakpoints = model.fit(2)  # 设置两个分段# 预测拟合的 y 值
x_hat1 = np.linspace(1, 4, 50)
x_hat2 = np.linspace(7, 10, 50)
y_hat1 = model.predict(x_hat1)
y_hat2 = model.predict(x_hat2)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat1_bootstrap = []
y_hat2_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据集x_sample, y_sample = resample(x_segmented, y_segmented)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(2)y_hat1_sample = model_bootstrap.predict(x_hat1)y_hat2_sample = model_bootstrap.predict(x_hat2)y_hat1_bootstrap.append(y_hat1_sample)y_hat2_bootstrap.append(y_hat2_sample)# 转换为数组并计算 95% 置信区间
y_hat1_bootstrap = np.array(y_hat1_bootstrap)
y_hat2_bootstrap = np.array(y_hat2_bootstrap)
lower_bound1 = np.percentile(y_hat1_bootstrap, 2.5, axis=0)
upper_bound1 = np.percentile(y_hat1_bootstrap, 97.5, axis=0)
lower_bound2 = np.percentile(y_hat2_bootstrap, 2.5, axis=0)
upper_bound2 = np.percentile(y_hat2_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归线和置信区间
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='gray', label='Data Points')
plt.plot(x_hat1, y_hat1, color='blue', label='Segmented Linear Fit (1-4)')
plt.plot(x_hat2, y_hat2, color='red', label='Segmented Linear Fit (7-10)')
plt.fill_between(x_hat1, lower_bound1, upper_bound1, color='lightblue', alpha=0.5)
plt.fill_between(x_hat2, lower_bound2, upper_bound2, color='lightcoral', alpha=0.5)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with Non-linear Segment Omission')
plt.legend()
plt.show()

代码说明

  1. 数据生成:生成包含不同区间的分段数据,其中区间 x ∈ [ 1 , 4 ] x \in [1, 4] x[1,4] x ∈ [ 7 , 10 ] x \in [7, 10] x[7,10] 为线性趋势,而在 x ∈ [ 4 , 7 ] x \in [4, 7] x[4,7] 之间存在非线性关系。
  2. 筛选区间:使用布尔掩码 (mask1mask2) 筛选出需要拟合的线性区间的数据,忽略不需要拟合的中间区间。
  3. 分段线性拟合:使用 pwlf 库对所选区间的数据进行分段线性回归。
  4. 置信区间计算:对两个拟合区间分别使用 Bootstrap 方法,生成 200 组不同的采样集,计算每个区间的 95% 置信区间。
  5. 绘图:绘制原始数据散点、两个区间的分段线性回归线及其置信区间。

输出图形

在这里插入图片描述

运行代码后将得到以下内容:

  • 灰色散点图:展示了所有原始数据点。
  • 蓝色和红色的分段线性回归线:分别显示在区间 x ∈ [ 1 , 4 ] x \in [1, 4] x[1,4] x ∈ [ 7 , 10 ] x \in [7, 10] x[7,10] 处的线性拟合。
  • 置信区间:通过 Bootstrap 方法生成的 95% 置信区间,分别用淡蓝色和淡红色填充。

更复的情况是,4-7之间存在一种线性关系,但完全和1-4的曲线和7以后的曲线连接不起来,这样就是3段完全分开的情况

在这种情况下,我们可以使用分段线性回归来处理三段独立的线性关系,并在每一段之间没有连接。这里是如何实现的:

  1. 分段设置:我们需要在 x ∈ [ 1 , 4 ] x \in [1, 4] x[1,4] x ∈ [ 4 , 7 ] x \in [4, 7] x[4,7] x ∈ [ 7 , 10 ] x \in [7, 10] x[7,10] 三个区间内分别进行线性拟合。
  2. 数据生成:我们将创建三段数据,确保每段的线性关系不连接。

下面是一个完整的代码示例,展示如何实现这个分段线性回归并绘制结果:

代码示例

import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有完全独立的三段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2*x + 1 + np.random.normal(0, 0.5, x.shape),   # 第一段lambda x: 3*x - 12 + np.random.normal(0, 0.5, x.shape),  # 第二段lambda x: -1.5*x + 20 + np.random.normal(0, 0.5, x.shape)  # 第三段])# 选取需要拟合的区间的数据
mask1 = (x >= 1) & (x <= 4)
mask2 = (x > 4) & (x < 7)
mask3 = (x >= 7) & (x <= 10)
x_segmented = np.concatenate([x[mask1], x[mask2], x[mask3]])
y_segmented = np.concatenate([y[mask1], y[mask2], y[mask3]])# 使用 pwlf 进行分段线性拟合,假设 3 个分段
model = pwlf.PiecewiseLinFit(x_segmented, y_segmented)
breakpoints = model.fit(3)  # 设置三个分段# 预测拟合的 y 值
x_hat1 = np.linspace(1, 4, 50)
x_hat2 = np.linspace(4, 7, 50)
x_hat3 = np.linspace(7, 10, 50)
y_hat1 = model.predict(x_hat1)
y_hat2 = model.predict(x_hat2)
y_hat3 = model.predict(x_hat3)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat1_bootstrap = []
y_hat2_bootstrap = []
y_hat3_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据集x_sample, y_sample = resample(x_segmented, y_segmented)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(3)y_hat1_sample = model_bootstrap.predict(x_hat1)y_hat2_sample = model_bootstrap.predict(x_hat2)y_hat3_sample = model_bootstrap.predict(x_hat3)y_hat1_bootstrap.append(y_hat1_sample)y_hat2_bootstrap.append(y_hat2_sample)y_hat3_bootstrap.append(y_hat3_sample)# 转换为数组并计算 95% 置信区间
y_hat1_bootstrap = np.array(y_hat1_bootstrap)
y_hat2_bootstrap = np.array(y_hat2_bootstrap)
y_hat3_bootstrap = np.array(y_hat3_bootstrap)
lower_bound1 = np.percentile(y_hat1_bootstrap, 2.5, axis=0)
upper_bound1 = np.percentile(y_hat1_bootstrap, 97.5, axis=0)
lower_bound2 = np.percentile(y_hat2_bootstrap, 2.5, axis=0)
upper_bound2 = np.percentile(y_hat2_bootstrap, 97.5, axis=0)
lower_bound3 = np.percentile(y_hat3_bootstrap, 2.5, axis=0)
upper_bound3 = np.percentile(y_hat3_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归线和置信区间
plt.figure(figsize=(12, 8))
plt.scatter(x, y, color='gray', label='Data Points', alpha=0.5)
plt.plot(x_hat1, y_hat1, color='blue', label='Segmented Linear Fit (1-4)')
plt.plot(x_hat2, y_hat2, color='green', label='Segmented Linear Fit (4-7)')
plt.plot(x_hat3, y_hat3, color='red', label='Segmented Linear Fit (7-10)')
plt.fill_between(x_hat1, lower_bound1, upper_bound1, color='lightblue', alpha=0.5, label='95% CI (1-4)')
plt.fill_between(x_hat2, lower_bound2, upper_bound2, color='lightgreen', alpha=0.5, label='95% CI (4-7)')
plt.fill_between(x_hat3, lower_bound3, upper_bound3, color='lightcoral', alpha=0.5, label='95% CI (7-10)')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with Independent Segments')
plt.legend()
plt.grid()
plt.show()

代码说明

  1. 数据生成:使用 np.piecewise 生成具有三段线性关系的数据。每一段的线性关系都包含一定的随机噪声,确保数据的真实性。
    • 第一段 ( x < 4 x < 4 x<4):线性方程 y = 2 x + 1 y = 2x + 1 y=2x+1
    • 第二段 ( 4 ≤ x < 7 4 \leq x < 7 4x<7):线性方程 y = 3 x − 12 y = 3x - 12 y=3x12
    • 第三段 ( x ≥ 7 x \geq 7 x7):线性方程 y = − 1.5 x + 20 y = -1.5x + 20 y=1.5x+20
  2. 数据筛选:将每个线性区间的数据提取出来以进行分段线性拟合。
  3. 分段线性拟合:使用 pwlf 库进行三段线性拟合。
  4. 预测和置信区间计算:分别为每段的预测值计算 Bootstrap 方法下的置信区间。
  5. 绘图:绘制散点、每段的拟合线和对应的置信区间。

输出图形

在这里插入图片描述

运行代码后将生成以下内容:

  • 灰色散点图:展示所有原始数据点。
  • 蓝色、绿色和红色的分段线性回归线:分别显示 x ∈ [ 1 , 4 ] x \in [1, 4] x[1,4] x ∈ [ 4 , 7 ] x \in [4, 7] x[4,7] x ∈ [ 7 , 10 ] x \in [7, 10] x[7,10] 的线性拟合。
  • 置信区间:通过 Bootstrap 方法生成的 95% 置信区间,分别用不同颜色的填充区域显示。

http://www.mrgr.cn/news/64136.html

相关文章:

  • 论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式
  • Linux | 零基础Ubuntu搭建JDK
  • 【漫话机器学习系列】022.微积分中的链式求导法则(chain rule of Calculus)
  • 基于 Python 大数据的拼团购物数据分析系统的设计与实现
  • RTOS 基础知识
  • PH热榜 | 2024-12-25
  • 前端用canvas绘图并支持下载
  • yarn install 出现 error Error: certificate has expired
  • AWS RDS Oracle hit ORA-39405
  • 基于SSM的游戏交易网站的设计与实现
  • 一个指针可以被声明为 `volatile`
  • 力扣每日一题2024/11/2 3226. 使两个整数相等的位更改次数
  • 【棋盘覆盖——匈牙利算法】
  • 课程讲解---深搜
  • 使用NCNN在树莓派部署深度学习模型流程
  • vue中向响应式对象中添加新属性的方法(vm.$set() )
  • 微服务设计模式 - 发布订阅模式(Publisher Subscriber Pattern)
  • JavaScript。—关于语法基础的理解—
  • nacos+maven实现多环境配置
  • 广义加性模型
  • 短剧开发新模式:从内容创新到市场突围的全攻略
  • 仅需百元/年,助你快速构建高效私有的Node.js图床
  • Yocto中MACHINE 和 DISTRO是输入,IMAGE 是他们组合的产物
  • 华为云安装docker
  • Docker — 跨平台和环境部署
  • Linux:防火墙和selinux对服务的影响