Python数据分析-世界上最富有的1000人
一、研究背景
随着全球化的加速发展和技术的进步,财富分配问题日益成为全球关注的焦点。财富的不平等现象日益明显,少数极富有的个人掌握了全球大部分的财富资源。了解全球最富有个人的财富分布及其背后的行业和国家因素,对于分析全球经济趋势、财富积累路径及行业发展具有重要意义。
本研究基于截至 2023 年全球前 1000 名最富有的个人的数据,分析了这些亿万富翁的财富来源、财富积累的行业分布、以及财富与国家或地区的关系。通过对这些数据的分析,可以帮助我们深入了解全球财富分配的现状,探索在全球经济体系中哪些行业最有可能产生巨额财富,并了解各国经济发展对个人财富积累的影响。
此外,随着数字经济、科技行业的迅速崛起,以及传统制造业、金融业的持续发展,本研究还将探索不同经济周期和全球化进程对财富分布的影响,从而为政策制定者、经济学家和企业家提供决策参考。
二、研究意义
研究全球前 1000 名最富有个人的财富分布及其背后的因素具有以下几个重要意义:
-
揭示全球财富不平等的现状:通过分析这些亿万富翁的净资产及其地理分布,可以直观地反映出全球财富集中度的情况,有助于理解财富不平等的宏观背景。
-
行业和地区的财富积累特点:通过对这些个人主要业务行业的分析,可以揭示哪些行业在当前经济中最有可能产生巨额财富,帮助投资者、企业家及政策制定者把握经济机遇。此外,分析这些个人的国家/地区分布,有助于理解各国经济政策、产业结构与财富积累的关联性。
-
为政策制定提供依据:通过研究财富分布情况,政策制定者可以更好地理解当前经济体系中的优势和问题,从而制定更有效的政策以缩小财富差距,促进社会公平与包容性增长。
-
揭示财富积累背后的产业变迁:通过长期跟踪亿万富翁的财富积累,可以帮助学术界和行业从业者了解全球产业结构的变化,从而预测未来最有可能积累财富的行业发展趋势。
三、实证分析
该数据集提供了截至 2023 年全球前 1000 名最富有的个人的详细快照。对于任何有兴趣了解全球财富分配、培养最富有个人的行业以及他们所在的国家/地区的人来说,此数据集都是宝贵的资源。它包括有关每个人的净资产、他们的主要商业利益和他们的居住国的重要信息。Top_1000_wealthiest_people.csv
代码和数据
数据概览 该数据集由 5 个关键列组成,提供对全球亿万富翁财务状况的全面见解:
名字:此列列出了每个人的全名。它对于确定谁是最富有的 1000 人至关重要。
国家:这显示了个人居住的国家/地区或其主要业务运营所在的国家/地区。它有助于了解财富的地理分布。
工业:此列标识个人积累财富的主要行业或部门。这些信息提供了关于哪些行业最有利可图的财富的见解。
净资产(以十亿计):本专栏报告每个人的估计净资产,以数十亿美元表示。它反映了他们财富的财务规模。
公司:这将列出与每个人关联的主要公司或企业。它突出了他们积累财富的主要企业。
导入代码
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
读取数据
df=pd.read_csv("Top_1000_wealthiest_people.csv")
df.head()
查看数据形状
df.info()
检查一下缺失值
df.isna().sum()
# 绘制每个数值特征的直方图
绘制每个数值特征的箱形图
for feature in numeric_features:plt.figure(figsize=(10, 6))sns.boxplot(x=df[feature])plt.title(f'Box Plot of {feature}')plt.xlabel(feature)plt.show()
全球净财富top10
top_10_richest = df.nlargest(10,"net_worth")
top_10_richest
绘制行业分布图
plt.figure(figsize=(8,6))
industry_count = df['Industry'].value_counts()
sns.barplot(y=industry_count.index ,x=industry_count.values, palette='cividis')
plt.title('industry distubution')
plt.xlabel('no of people')
plt.ylabel('industry')
plt.show()
绘制国家/地区的分布
绘制按行业划分的平均净资产
plt.figure(figsize=(8,6))
industry_net_worth=df.groupby('Industry')['net_worth'].mean().sort_values()
sns.barplot(y=industry_net_worth.index,x=industry_net_worth.values,palette='viridis')
plt.title('Average Net Worth by Industry')
plt.xlabel('Average Net Worth (in billions)')
plt.ylabel('Industry')
plt.show()
按国家绘制平均净资产
plt.figure(figsize=(8,6))
country_net_worth=df.groupby('Country')['net_worth'].mean().sort_values(ascending=False)
sns.barplot(y=country_net_worth.index,x=country_net_worth.values,palette='plasma')
plt.title('Top 10 Countries by Average Net Worth')
plt.xlabel('Average Net Worth (in billions)')
plt.ylabel('Country')
plt.show()
计算混淆矩阵
按国家和行业划分的净资产箱线图
plt.figure(figsize=(15, 10))
sns.boxplot(data=df,x='Country',y='net_worth',hue='Industry')
plt.title('Net Worth Distribution by Country and Industry')
plt.xlabel('Country')
plt.ylabel('Net Worth (in billions)')
plt.legend(loc='upper right')
plt.show()
按国家/地区查找首富
richest_by_country=df.loc[df.groupby('Country')['net_worth'].idxmax()]
richest_by_country
richest_by_industry=df.loc[df.groupby('Industry')['net_worth'].idxmax()]
richest_by_industry
按行业寻找首富
绘制代表性最多的前 5 家公司
plt.figure(figsize=(12, 8))
top_companies = df['Company'].value_counts().head(5)
sns.barplot(y=top_companies.index, x=top_companies.values, palette='cubehelix')
plt.title('Top 5 Companies with the Most Representatives')
plt.xlabel('Number of Representatives')
plt.ylabel('Company')
plt.show()
绘制代表最多的前 10 个国家
plt.figure(figsize=(12, 8))
top_countries =df['Country'].value_counts().head(10)
sns.barplot(y=top_countries.index, x=top_countries.values, palette='plasma')
plt.title('Top 10 Countries with the Most Representatives')
plt.xlabel('Number of Representatives')
plt.ylabel('Country')
plt.show()
绘制按行业划分的净资产分布
plt.figure(figsize=(12, 8))
sns.boxplot(y='Industry', x='net_worth', data=df, palette='muted')
plt.title('Distribution of Net Worth by Industry')
plt.xlabel('Net Worth (in billions)')
plt.ylabel('Industry')
plt.show()
绘制按国家/地区划分的净资产分布
plt.figure(figsize=(12, 8))
top_countries_net_worth = df[df['Country'].isin(df['Country'].value_counts().head(10).index)]
sns.boxplot(y='Country', x='net_worth', data=top_countries_net_worth, palette='Set3')
plt.title('Distribution of Net Worth by Country')
plt.xlabel('Net Worth (in billions)')
plt.ylabel('Country')
plt.show()
四、结论
通过对全球前 1000 名最富有个人的数据分析,本研究得出以下结论:
-
财富集中度极高:全球财富分配极不平衡,前 1000 名个人控制了全球极大比例的财富。财富集中于少数人手中,而这些个人往往通过特定的高利润行业获得了巨额财富。
-
科技和金融行业占据主导地位:从行业分布来看,科技行业和金融业是创造亿万富翁的主要来源,尤其是近年来科技公司快速崛起,带来了大量的财富积累。制造业、零售和资源行业也占据了一定比例,但总体上,现代高科技行业对财富的积累影响显著。
-
财富的地理分布不均衡:在地域分布上,欧美国家特别是美国和欧洲富豪的数量占据显著比例。这些地区拥有成熟的资本市场和先进的科技产业,是财富积累的核心地带。相比之下,亚洲国家,特别是中国的亿万富翁数量快速增长,反映了新兴市场的经济快速发展和全球经济重心的转移。
-
亿万富翁主要通过企业积累财富:数据表明,大多数亿万富翁的财富积累来源于他们在相关企业中的股权,尤其是他们创立或参与领导的大型企业。这也突显了企业创新、市场化运作在财富积累中的重要性。
本研究为理解全球财富分布及其行业和地域特点提供了宝贵的洞见,对于未来全球财富格局的变化及其背后的经济驱动因素有重要参考价值。