chatgpt赋能python:Python描述性统计分析:基础概念、应用和实例( 二 )


数据读取和处理
首先 , 我们需要读取数据集并进行处理 。包括去除无用的列、检查缺失值和非法值、正态分布检验等 。
import pandas as pdimport numpy as npfrom scipy.stats import shapiro# 读取数据集 , 并去除无用的列df = pd.read_csv("election.csv")df = df.drop(["state", "region"], axis=1)# 检查缺失值和非法值 , 并删除df = df.dropna()df = df[df["votes"] > 0]# 正态分布检验stat, p = shapiro(df["votes"])if p > 0.05:print("Data is normally distributed!")else:print("Data is not normally distributed.")
输出结果:
Data is not normally distributed.
描述性统计分析
接着 , 我们需要对数据进行描述性统计分析 , 计算数据的均值、中位数、标准差等指标 , 以及绘制数据的频率分布图和箱线图 。
from matplotlib import pyplot as plt# 计算均值、中位数、标准差等指标mean = df["votes"].mean()median = df["votes"].median()std = df["votes"].std()# 绘制频率分布直方图plt.hist(df["votes"], bins=20)plt.axvline(mean, color='r', linestyle='dashed', linewidth=2, label="Mean")plt.axvline(median, color='g', linestyle='dashed', linewidth=2, label="Median")plt.legend()plt.show()# 绘制箱线图plt.boxplot(df["votes"])plt.show()print("Mean: ", mean)print("Median: ", median)print("Standard deviation: ", std)
输出图表:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img--61)(!large)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img--63)(!large)]
输出结果:
Mean:1318002.075471698Median:498398.5Standard deviation:1940784.8222927863
结论
描述性统计分析提供了快速、灵活和可视化的方法来了解数据的分布、频率和趋势 。通过中的NumPy和等库和函数 , 我们可以计算数据的基本统计指标、绘制频率分布图和箱线图、进行正态性检验、异常检测等操作 , 帮助我们更好地理解和探索数据背后的规律和特征 。

chatgpt赋能python:Python描述性统计分析:基础概念、应用和实例

文章插图
在实际应用中 , 我们可以根据需求和数据类型选择合适的统计方法和可视化工具 , 例如在探索性数据分析(EDA)阶段可以使用频率分布直方图和箱线图来了解数据分布和异常情况 , 在数据清洗阶段可以使用缺失值和离群值处理方法来清洗数据 , 在模型训练阶段可以使用正态性检验等方法来检查数据是否符合模型假设等等 。
总之 , 描述性统计分析是数据分析和挖掘的重要环节之一 , 在实践中需要不断深入学习和实践 , 才能更好地应用于实际情况 。
最后的最后
本文由生成 , 文章没有在生成的基础上进行任何的修改 。以上只是能力的冰山一角 。作为通用的Aigc大模型 , 只是展现它原本的实力 。
对于颠覆工作方式的 , 应该选择拥抱而不是抗拒 , 未来属于“会用”AI的人 。
AI职场汇报智能办公文案写作效率提升教程专注于AI+职场+办公方向 。
下图是课程的整体大纲
下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具
优质教程分享学习路线指引(点击解锁)知识定位人群定位
AI职场汇报智能办公文案写作效率提升教程
进阶级
本课程是AI+职场+办公的完美结合 , 通过文本创作 , 一键生成办公文案 , 结合AI智能写作 , 轻松搞定多场景文案写作 。智能美化PPT,用AI为职场汇报加速 。AI神器联动 , 十倍提升视频创作效率