专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

数据分析师的常用方法(数据分析师必须掌握的6种方法论和8种思路)

来源:小易整编  作者:小易  发布时间:2020-04-02 11:43
摘要:1 分布分析: 发现各个维度下数据的分布情况 研究数据分布特征和分布类型; 主要统计量:极差 大小反应分布情况是否稳定 频率分布情况: 一般用直方图 分组区间使用pd.cut . 累积频率.cumsum() 定量一般用直方图 。 定性字段一般用饼图 分组组距及组数 2 对比分析 绝对...

1 分布分析:

发现各个维度下数据的分布情况

研究数据分布特征和分布类型;

主要统计量:极差 大小反应分布情况是否稳定

频率分布情况: 一般用直方图 分组区间使用pd.cut . 累积频率.cumsum()

定量一般用直方图 。 定性字段一般用饼图

分组组距及组数

数据分析师最常用的数据分析方法。你都掌握了吗?

2 对比分析

绝对数比较

相对数比较

3 统计分析

集中趋势度量:

算数平均数 .mean()

位置平均数:中位数。median() 。 众数.mode()、。。。

离中趋势度量

极差

分位差 样本描述性统计.describe() . 四分之三位数/四分之一位数

方差、标准差

数据分析师最常用的数据分析方法。你都掌握了吗?

4 帕累托分析 (贡献度分析) 二八定律

首先对目标数据进行排序:

data.sort_values(0,ascending = False,inplace=True)

然后求出累计占比:

data['累计占比'] = data[0].cumsum()/data[0].sum()

制作图表:

plt.figure(figsize=(16,7))
​
data[0].plot(kind='bar', color='g',title='haha')
​
plt.xticks(rotation=0)
​
data['累计占比'].plot(style = '--ko', secondary_y = True)
​
plt.axvline(6,color='r',linestyle='--')
​
plt.show()
数据分析师最常用的数据分析方法。你都掌握了吗?

5 正态性检验

  • 直方图初判
data = pd.DataFrame(np.random.randn(1000)*1000+16,columns=['value'])
fig = plt.figure(figsize=(16,10))
ax1 = fig.add_subplot(2,1,1)
ax1.scatter(data.index,data.value) #散点图
ax2=fig.add_subplot(2,1,2)
ax2.hist(data['value'],bins=50) #直方图
plt.show()
  • K-S检验

理论推导:

  1. 算出均值、标准差
  2. 统计频率、降序排列 ,计算累计频率
  3. 算出 标准化取值 = (值-平均数)/方差
  4. 通过查表 根据标准化取值 得出理论分布
  5. 用累计频率-理论分布 。 接着查表 得出p 。 如果p>0.05 基本满足正太分布

直接使用函数

from scipy import stats
​
u = data['value'].mean()
std = data['value'].std()
stats.kstest(data['value'],'norm',(u,std))

6 相关性分析

首先检验数据是否符合正态分布,

如果符合使用皮尔森相关系数:data.corr()

不符合的话使用 斯皮尔曼相关系数:data.corr(method='spearman')

7 数据处理

判断是否有缺失值 :

data.isnull() / data.notnull()返回布尔型结果

删除缺失值

data.dropna(inplace=True)

替换缺失值:

 data.fillna('填充的值',inplace=True)
 data.fillna(method='pad') . 用之前的值填充 。 backfill用之后的值填充

拉格朗日插值法填充数据:

def f(s,n,k=5):
 y = s[list(range(n-k,n+k+1))]
 y = y[y.notnull()]
 return lagrange(y.index,list(y))(n)
​
for i in range(len(data)):
 if data[0].isnull()[i]:
 data[0][i] = f(data[0],i)
 print(f(data[0],i))

数据标准化:

0-1 标准化

def f(df,*cols):
• df_n = df.copy()
• for col in cols:
• ma = df_n[col].max()
• mi = df_n[col].min()
• df_n[col+'_n'] = (df_n[col]-mi) / (ma-mi)
• return df_n
​
df_n = f(data,'value1','value2')
df_n
​
​

z-score标准化

z-score 标准化 把非标准正太分布 换成标准正太腹部 (值-平均值)/标准差

def f_z(df,*cols):
• df_z = df.copy()
• for col in cols:
• me = df_z[col].mean()
• std = df_z[col].std()
• df_z[col+'_z'] = (df_z[col]-me) / std
• return df_z
​
df_z = f_z(data,'value1','value2')
df_z

数据连续属性离散化

等宽法:

#cut 方法 划分区间
​
bins = [1,30,50,100]
cats = pd.cut(data['age'],bins,right=False)
data['age_a'] = cats

等频法:

#等频划分 按照分位数划分 以相同的数量记录到某个区间
# qcut 方法
​
data = pd.Series(np.random.rand(1000))
cats = pd.qcut(data,10)
cats.value_counts(sort=False)


本文地址:问答解惑频道 https://www.hkm168.com/live/129029.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!


问答解惑
小编:小易整编
相关文章相关阅读
  • 祝福老师句子大全,教师节送礼必备(感恩教育恩人)

    祝福老师句子大全,教师节送礼必备(感恩教育恩人)

    祝福老师句子大全,教师节送礼必备(感恩教育恩人)教师节是每年的9月10日,这一天是我们向教育恩人表达感激之情和祝福的日子。在这个特殊的日子里,送上一句祝福老师的话语,表达我们对教育工作者的敬意和感激之情,成为了每位学生们献给老师的最好礼物。...

  • 贺知章名句赏析,诗人风采展示(品味优美诗歌)

    贺知章名句赏析,诗人风采展示(品味优美诗歌)

    贺知章名句赏析,诗人风采展示(品味优美诗歌)贺知章,唐代诗人,被誉为“豪放派”代表之一。他的诗歌生动有力,意境深远,语言通俗易懂,充满浓郁的民族气息。他留下了许多优美的诗句,让人感慨万千,不得不赞叹其诗才与风采。其中,著名的“海内存知己,天...

  • 纸飞机折法,制作简单易学(挑战手工艺术)

    纸飞机折法,制作简单易学(挑战手工艺术)

    纸飞机折法,制作简单易学(挑战手工艺术)纸飞机是一款低成本、简单易学的手工艺品,因其制作过程简单易懂,大家可以尝试在家,不需要太多专业工具。首先准备一张A4大小的白纸,将其折成一半,然后再打开,将两边的边角对齐,再次往中间折叠。在折叠的位置...

  • 中超赛程表,看球购票攻略(跟随绿茵场之旅)

     中超赛程表,看球购票攻略(跟随绿茵场之旅)

    中超赛程表,看球购票攻略(跟随绿茵场之旅)中超联赛一直以来都备受球迷关注,每个赛季都会有无数的球迷前往现场观看比赛。为了让广大球迷更好地安排自己的观赛计划,我们在这里为大家介绍一下中超赛程表和看球购票的攻略。中超赛程表中超联赛一般从3月份开...

  • 春节习俗大全,传统文化策源地(领略浓郁年味)

    春节习俗大全,传统文化策源地(领略浓郁年味)

    春节习俗大全,传统文化策源地(领略浓郁年味)春节是中国最重要的传统节日,也被称作“年节”、“新春节”等,是一个具有重大历史意义和文化内涵的节日。说到春节,就不得不提到具有浓郁地域特色和文化内涵的习俗,这些习俗既体现了中华民族的优秀文化传统,...

  • “水”字旁常用字,快速记忆方法(提高汉字识别能力)

    “水”字旁常用字,快速记忆方法(提高汉字识别能力)

    “水”字旁常用字,快速记忆方法(提高汉字识别能力)汉字是中国文化的重要组成部分,对于中文学习者而言,汉字的认识和记忆是非常重要的。其中“水”字是汉字中的一个旁常用字。在学习这个字时,我们可以采用一些快速记忆方法,提高汉字识别能力。首先,我们...

  • 做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)

    做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)

    做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)做梦时梦见很多蛇是一种比较常见的梦境,对于这种梦境的解释和分析是非常重要的。从心理学的角度来看,这种梦境不仅反映了我们潜意识中的想法和情感,也可以为我们指引未来的行动。首先,梦见很多蛇可能说明我们...

  • 制作铃声详解,打造个性化手机(表现自我风格)

    制作铃声详解,打造个性化手机(表现自我风格)

    制作铃声详解,打造个性化手机(表现自我风格)随着移动设备的普及,手机不仅是通信工具,也成为了一种个性化的表现方式。而铃声则是手机个性化中最直接的表现形式之一。制作一个个性化的铃声,不仅可以让你的手机更具有个性化的特色,同时还可以让你展现出自...

  • 周排行
  • 月排行
  • 年排行

精彩推荐