气泡图
import numpy as np
import matplotlib.pyplot as plt
# Fixing random state for reproducibility
np.random.seed(19680801)
N = 50
x = np.random.rand(N)
y = np.random.rand(N)
colors = np.random.rand(N)
area = (30 * np.random.rand(N))**2 # 0 to 15 point radii
plt.scatter(x, y, s=area, c=colors, alpha=0.5)
plt.show()
在复杂散点图绘制的基础上对代码进行修改,使之变为气泡图
原始散点图:
import numpy as np #数学处理库
import pandas as pd #用于处理.csv excel html 文本等文件
import matplotlib as mpl #画图像的库
import matplotlib.pyplot as plt #画二维图像的库
import seaborn as sns #颜色库
datasets=pd.read_csv("./midwest_filter.csv")
watch_cat=datasets['category']
#print(watch_cat)#查看原始标签
categories=np.unique(datasets['category'])#去掉重复项
#print(categories)#查看去重后类别
#print(len(categories))#查看有几个类别
#开始绘制复杂散点图
#我们需要循环和类别数目一样的次数,目前有14各类别
#我们用循环的i来生成小数,这样就可以生成不同的颜色
#以下两个步骤可以去掉图例的边框
plt.style.use('seaborn-whitegrid')#设定整体风格
sns.set_style("white")#设置背景
plt.figure(figsize=(16,10),
dpi=120,
facecolor='w',
edgecolor='k')#定义画布,分辨率,背景,边框
for i in range (len(categories)):
plt.scatter(datasets.loc[datasets["category"]==categories[i],"area"],
datasets.loc[datasets["category"]==categories[i],"poptotal"],
s=20,c=np.array(plt.cm.tab10(i/len(categories))).reshape(1,-1),
label=categories[i])
#开始装饰
plt.gca().set(xlim=(0.0,0.12),ylim=(0,80000))#控制横纵坐标的范围
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.ylabel('Population',fontsize=22)
plt.xlabel('Area',fontsize=22)
plt.title("scatterplot of midwest Area vs Population",fontsize=22)
plt.legend(fontsize=12)
plt.show()
要产生气泡图的实质是要让点的大小随着某一个类别的值的大小而变化,那么,就是要对s参数进行改变。我们之前可以让颜色变化同理就可以让点的尺寸变化,修改下面的代码看看效果,主要看s的部分:
for i in range (len(categories)):
plt.scatter(datasets.loc[datasets["category"]==categories[i],"area"],
datasets.loc[datasets["category"]==categories[i],"poptotal"],
s=datasets.loc[datasets["category"]==categories[i],"popasian"],
c=np.array(plt.cm.tab10(i/len(categories))).reshape(1,-1),
label=categories[i])
但是存在很多问题,我们一一来解决: 问题1:点的颜色不透明,符号不好看,不是我们想要的; 加入下面的代码我们再来看看,增加了透明度,边缘颜色,边缘线宽参数之后:
for i in range (len(categories)):
plt.scatter(datasets.loc[datasets["category"]==categories[i],"area"],
datasets.loc[datasets["category"]==categories[i],"poptotal"],
s=datasets.loc[datasets["category"]==categories[i],"popasian"],
c=np.array(plt.cm.tab10(i/len(categories))).reshape(1,-1),
edgecolors=np.array(plt.cm.tab10(i/len(categories))).reshape(1,-1), # 描边颜色与主题颜色相同
linewidths=0.5,
alpha=0.7, # 修改透明度
label=categories[i])
问题2:以人数绝对值为点的大小不合理,最好使用占比表达,但是占比的数值都比较小,怎么能使用它呢? 我们可以整体给占比乘一个比较大的数,扩大以后,显示就没有问题了,代码修改和效果如下:
问题3:气泡图整饰的问题,图例很难看,点超出范围了,图名不正确。
plt.gca().set(xlim=(0.0,0.12),ylim=(0,90000))#控制横纵坐标的范围
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.ylabel('Population',fontsize=22)
plt.xlabel('Area',fontsize=22)
plt.title("Bubble Plot with Encircling",fontsize=22)
plt.legend(fontsize=12,markerscale=0.5)#现有图例的0.5倍