当前位置: 首页 > news >正文

共享单车轨迹数据分析:以厦门市共享单车数据为例(七)

副标题:基于POI数据的站点功能混合度探究——以厦门市为例(二)

K-means聚类算法(K-means clustering)是一种广泛使用的无监督学习方法,用于将数据集中的对象分成K个簇(cluster)。这里的“无监督”意味着我们事先并不知道每个数据点应该属于哪个类别。K-means聚类的目标是让同一个簇内的数据尽可能相似,而不同簇之间的数据差异尽可能大。简单来说,就是将性质相近的数据归为一类。

本篇文章是对岛内的地铁站站点基于6大类别POI数据进行分类,使用IBM旗下的 SPSS Statistics 软件进行分析或者使用一些SPSS在线平台都可以进行分析;

本篇文章使用的SPSS在线平台:SPSSPRO-免费专业的在线数据分析平台

软件:IBM SPSS Statistics 版本27.0

SPSS Statistics 软件的操作方法,把数据导入后选择【分析】→【分类】→【K-均值聚类】,这里需要把上篇文章提到的生活服务、医疗保健服务、商务住宅、科教文化服务、交通设施服务、公司企业这六类POI都选为变量,分类数量这里选择分为【3】类,这个是一个主观值,通过该值得出分类结果的可解释度来判断是否需要继续调整,方法选择【迭代与分类】,点击确定即可;

运行结果如下,聚类结果为3类,类别1有2个,类别2有30个,类别3有8个;

诚然专业软件可以进行更细致和更深入的分析,但是对于初入门的小伙伴来说,在线的一些SPSS分析平台也不错的选择,门槛更低(这里没有广子,纯个人使用体验),这类平台有什么好处呢,简单的来说傻瓜式入门,就类似傻瓜相机,上手直接拍就行;

以现在用在这个SPSS在线分析平台为例,如果你不确定分类的数量,可以选择【手肘法则】,另外记得勾选一下【生成类别变量】,这样在结果里会标注哪些站点是属于哪一个类别的,

这里也简单解释一下什么是手肘法则,手肘法则(Elbow Method)是一种用来确定K均值聚类算法中K值(即簇的数量)的方法,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。

通俗解释:

如果你把一些玩具球分成几堆,一开始,你只分了一两堆,你会发现有些球离得很远,这堆里的球并不那么紧密。但是,当你开始多分几堆时,你会发现每堆里的球靠得更近了,也就是每堆球更加紧密了。不过,当你继续增加堆数时,你会发现尽管你增加了堆数,但球之间的紧密程度提升得越来越慢,几乎没有什么大的变化了。

这个过程中,有一个特别的点,就是当你增加堆数时,球的紧密程度有了一个显著的提升,然后就慢慢不再有太大的变化了。这个点就像是你的手臂弯起来的那个角度,所以叫做“肘部”。这个“肘部”点就是选择合适群组数量的好地方,因为它意味着增加更多的群组带来的好处已经不多了。

另外在数据进行分析前需要对数据进行显著性分析,也就是P值分析,简单来说,就是这个数据在数值上有没有分析的价值,这部分详细解释可见:基于网格尺度的上海市人口分布空间聚集特征分析与冷热点识别_上海人口网格分析-CSDN博客

这里直接放分析结果,这个也就是平台的优势,就是对功能的整合和对结果解读的优化;

通过分析结果可以看到,在K=3时,曲线出现了明显的弯曲,之后即使K值继续增加,坡度变化也非常缓慢。这意味着K=3是一个合理的簇数量选择,因为再增加簇的数量对改善聚类效果的帮助已经不大了;

 聚类结果如下图,与SPSS Statistics 软件分析的结果一致;

聚类结果的不同簇在二维空间的分布情况;

又到了看图说话的环节,我们先来看看不同类别的站点分布情况,类别2、3基本上在岛中心位置分布同时涵盖1号线岛内的大部分站点,类型1也群体数量最多的一类,同时也基本上涵盖了地铁2、3号线的岛内大部分站点,在此基础上我们再结合百度百科的"厦门地铁"这一词条可知,厦门地铁的建设顺序也是按1、2、3号线顺序建成的,先建成的站点周边建成区通常发展更加的完善,所以在各类POI发展情况会有别于后建成的站点;

聚类种类
  • 类别1:主要特点是生活服务POI数量较高,公司企业POI数量相对较少。这些站点适合居住,因为生活便利设施丰富。
  • 类别2:生活服务POI数量适中,公司企业POI数量较高。这些站点既有一定的生活便利性,又具备较强的商业和工业特性,适合工作和商业活动。
  • 类别3:生活服务POI数量较高,公司企业POI数量也较高。这些站点综合了居住和商业的特点,适合既有居住需求又有工作需求的人群。

基于三类不同站点的特征我们把他分别进行定义,类别3定义为:商业生活服务为主导型的站点,商业生活服务为主导型的站点,这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群,且建成较早,周边业态已经成熟;

类别1定义为:企业办公为主导型的站点,因为站点建设时间等一些因素的影响,我们通过生活服务设施与公司企业POI数量的比例关系进行界定,类别3的生活服务设施与公司企业POI数量的比例关系1:5左右,而类型1的在1:7以上,也就意味着在同样多的公司企业POI情况下,该站点可以带来更多的生活服务设施POI,当然这里也存在边际递减效应,姑且先如此定论;

类别2定义为:混合功能性站点,该类型站点POI功能分布比较均衡,且大部分站点处于发展阶段,因为该类型站点最多,所以既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点,同样的因为K-means聚类是一种无监督学习方法,也不排除分类方法本身所带来的误差。

另外这里明确一个概念,就是我们讨论的前提是基于POI数量来作为讨论的基础,像医疗保健POI、科教文化POI这些类型它们的大部分主体是学校、医院,而这些POI它们各自又有自己的辐射范围,就单论数量而言,确实有些片面了,就某一类型POI的影响范围,我们另写文章进行讨论,这里我把统计出来的岛内原始数据放在这里,有兴趣的可以通过其他分类方法来进行分类;

站点生活服务医疗保健商务住宅科教文化交通设施公司企业聚类种类
吕厝753828437054010441400类别3
湖滨东路70663184084889141242类别3
火炬园39081902803184521540类别1
莲坂4253172206211450696类别1
莲花路口3251108183199424653类别1
乌石浦332688127144369488类别1
厦门火车站3012140192198399478类别1
文灶2887209180233355420类别1
江头3237117144153278327类别1
镇海路2983141104178248196类别1
体育中心153882154330368530类别2
中山公园189916798243213217类别2
后埔21138497100193213类别2
五缘湾14946690148200712类别2
塘边195371102147161268类别2
华荣路13635911284206682类别2
育秀东路142586102180287348类别2
湖里创新园13133384106134755类别2
将军祠1487119125149191276类别2
古地石155160688080213类别2
湖里公园10414411880212555类别2
软件园二期972236278177684类别2
小东山8863110582142559类别2
安兜99445766076492类别2
蔡塘123335618981244类别2
何厝61274871168793类别2
岭兜794304645125438类别2
殿前98647355643280类别2
人才中心7303284129180272类别2
建业路745288462198308类别2
坂尚94336355370268类别2
观音山406123049101477类别2
高崎67414191529253类别2
湖滨中路434143694131172类别2
邮轮中心400186231112151类别2
五通39922264125184类别2
钟宅5002913682361类别2
东宅33919222962206类别2
湿地公园38119162424212类别2
两岸金融中心1681612302567类别2

结论

  1. 商业生活服务为主导型的站点(类别3)

    • 特点:这类站点的生活服务和公司企业POI数量都较高,适合既有居住需求又有工作需求的人群。这些站点通常建成较早,周边业态已经成熟,因此在商业和服务设施方面更为完善。
    • 站点:吕厝、湖滨东路。
    • 影响:由于这些站点周边的发展较为成熟,吸引了大量企业和居民,形成了综合性的商业和居住区。
  2. 企业办公为主导型的站点(类别1)

    • 特点:这类站点的生活服务POI数量较高,但公司企业POI数量也不少。主要以企业办公为主,尽管生活服务设施丰富,但并不是主要功能。
    • 站点:火炬园、莲坂、莲花路口、乌石浦、厦门火车站、文灶、江头、镇海路。
    • 影响:这些站点主要服务于企业办公需求,周边的生活服务设施虽然丰富,但更多的是为了满足上班族的日常需求。
  3. 混合功能性站点(类别2)

    • 特点:这类站点的POI功能分布较为均衡,既有较丰富的生活服务设施,也有较多的公司企业。这些站点大多处于发展阶段,既包含生活服务类型POI占比较多的站点,也存在公司企业占比较多的站点。由于K-means聚类是一种无监督学习方法,分类方法本身可能带来一定的误差。
    • 站点:体育中心、中山公园、后埔、五缘湾、塘边、华荣路、育秀东路、湖里创新园、将军祠、古地石、湖里公园、软件园二期、小东山、安兜、蔡塘、何厝、岭兜、殿前、人才中心、建业路、坂尚、观音山、高崎、湖滨中路、邮轮中心、五通、钟宅、东宅、湿地公园、两岸金融中心。
    • 影响:这些站点的多功能性使其能够满足多种需求,适合居住和工作,但由于处于发展阶段,不同站点的具体功能分布可能有所差异。

文章仅用于分享个人学习成果与个人存档之用,分享知识,如有侵权,请联系作者进行删除。所有信息均基于作者的个人理解和经验,不代表任何官方立场或权威解读。


http://www.mrgr.cn/news/36173.html

相关文章:

  • ②无需编程 独立通道 Modbus主站EtherNet/IP转ModbusRTU/ASCII工业EIP网关串口服务器
  • 使用C计算数码管段码
  • 单词搜索问题(涉及递归等)
  • 【Linux学习】1-2 新建虚拟机ubuntu环境
  • C++ 机器人相关面试点
  • PyTorch框架安装
  • 嵌入式QT学习
  • 【HDU-2669 Romantic】
  • python里面的单引号和双引号的区别
  • 【学习笔记】UWB技术定位原理
  • 【Java 问题】基础——面相对象
  • 浅克隆与深克隆
  • 【测试项目】——个人博客系统自动化测试
  • 脏读查询SQL SELECT查询配置(DM8:达梦数据库)
  • 第L2周:机器学习|线性回归模型 LinearRegression:1. 简单线性回归模型
  • QT创建线程,QT多线程的创建和使用,QT线程池
  • Kolmogorov-Arnold——代替 MLP以提高模型的代表性和性能
  • 替换jar包中class文件
  • 去年营收增速仅1.4%,成长性恐不足,这家批发业公司终止了
  • 代码随想录冲冲冲 Day55 图论Part7