从1开始:数据分析师成长之路图书
人气:13

从1开始:数据分析师成长之路

结合国内公司实际状况和作者多年数据分析经验,系统而又详尽地介绍数据分析工作

内容简介

数据分析行业就像所有新兴行业初期一样,伴随着混乱和盲目,一方面市场上培训机构巧立名目颁发证书,另一方面也有许多国外的著作被生搬硬套过来供自学者学习。本书是本结合国内公司实际状况和作者多年数据分析经验,系统而又详尽地介绍数据分析工作的作品。相较于使用Excel进行数据统计工作更加专业化、系统化,相较于数据挖掘与编程算法更加易于理解和贴合业务。从简单的制作报表开始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家多方位、体系化地呈现数据分析到底是什么。

编辑推荐

《从1开始——数据分析师成长之路》从简单的制作报表开始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家多方位、体系化地呈现数据分析到底是什么。

作者简介

张旭东,江苏宿迁人,数据科学家。先后就读于苏州大学与中国人民大学数学专业。2010年至今总计发表各类文献百万余字,诣在推行数学语言简易化、通俗化、平民化。

目录

第1章 数字、数据、数学 1

1.1 数字的起源 2

1.2 数据 4

1.3 数字与数据 6

1.4 数学 8

1.5 统计学 13

第2章 分析、逻辑与思维 18

2.1 描述、概括、分析 19

2.2 逻辑思维 26

第3章 大数据到底是什么 32

3.1 时代的现状 33

3.2 大数据与传统数据 35

3.3 大数据在说什么 40

第4章 数据分析与数据挖掘 43

4.1 分析与挖掘 44

4.2 选择自己的路 46

第5章 如何做好数据分析 50

5.1 数据分析 51

5.2 制作报表 52

5.3 异常数据分析 62

5.4 MySQL查询语言 72

5.5 数据需求处理 77

5.6 进行项目分析 88

5.7 数据分析的结构化梳理 99

第6章 数据分析师进阶 101

6.1 思维与态度 102

6.2 软件升级:R or Python 107

6.3 数据分析师的格局 109

第7章 数据分析实战 115

7.1 报表系统 116

7.2 发现异常 129

7.3 数据需求 135

7.4 项目分析 144

第8章 初识R语言 160

8.1 安装与编辑器 161

8.2 数据读取 163

8.3 数据处理 165

8.4 经典算法 167

第9章 行业的未来 170

9.1 市场需求 171

9.2 重要性、必要性 176

9.3 大数据,下一个风口 183

第10章 数据分析测试题与答案 187

10.1 MySQL测试题 188

10.2 逻辑题 189

在线预览

描述、概括、分析

大家 在日常生活中经常会听到这些词汇:描述、概括、分析、知道、认识、了解、熟悉、掌握等。这些似乎意思差不多的词汇,粗略看起来并没有什么区别,但是许多时 候是说者有心而听者无意,数据分析尤其如此。我们需要描述一个事件还是分析一个事件?这两者中间大有区别,为了便于大家理解先来讲个故事吧。

慵懒的下午,你坐在咖啡馆里看窗外人来人往,这时突然有一位美女闯入了你的眼帘,惊艳了时光,叨扰了岁月。在你的注视中美女就那么徐徐地走了,而你仍旧久久不能忘怀,难得这样的心动时刻,你需要把它记录下来:

2015年10月21日,星期三,天气如同心情一样好,邂逅一美女,撰文以记之。

她就那么突然地闯入我的视线,像一只骄傲的猫,带着比肩的短发,蚕眉冷艳,眼波流转;鼻梁不高但棱角分明,唇不红艳自带一份雅致;黑色的小皮鞋轻快地敲打着地砖,颀秀的两条腿包裹在粉色的丝袜中傲娇而不媚俗;白色毛衣披风就那么搭在肩上欲滑将落……

她就那么徐徐地走着,带着独特地隐藏在优雅中的俏皮,伴随着一丝倔强和傲气,轻快又不显急躁地走着……

矫健的步伐配合着摇曳的臂摆透漏了内心的快乐与活力,让人不禁想象这个女孩不管在工作中还是生活中应该都是乐观的吧,平时应该比较爱笑,周围朋友也会很多,应该会很好相处吧!我能不能成为她的朋友呢?

亲爱的朋友,能不能从上面的一段矫情的日记里面说出哪里是“描述”哪里是“概括”哪里是“分析”呢?

描述

抽 象来说,描述就是对事物或是对象的直接描写,就好像上文中这个姑娘眼睛、鼻子、嘴唇长什么样,这是对这个对象的客观印象,就好像画画时选择的颜色,我选择 红色颜料来描绘他的嘴唇。 如果我们把描述这样一个概念对应到数据上可以理解为这一堆数据“长什么样”,按照这样一个标准我们尝试着描述一堆数据。通过对数据的描述能够让别人通过这 些描述的话语感受到数据的真实面貌。

对于对人体外貌的描述再详细生动都不如直接看到 被描述的这个人,或者给这个人拍一张照片也能直观地反映其外貌。而对于数据来说,直接看数据可能什么都看不出来,而通过对数据的描述反而能让我们更加清晰 地看到数据真实的面貌。在了解此间差异之前我们不妨先熟悉几个描述性的统计变量:平均数、众数、中位数、方差、极差、四分位点,这些指标就好像一堆数据的 “鼻子”、“眼睛”、“嘴唇”。平均数不用介绍大家都知道,下面介绍下其他几个数据指标:

众数:数据中出现频率较高的数值,比如“面条”就可以算做小明数据中的众数。

中位数:将数据从小到大排列,位置处于中间的数值。

方差:每个数据与平均值的差值的平方,再取平均值。

极差:较大数减去最小数。

上/下四分位点:将数据从大到小排列,位置处于前1/4或是后1/4的数值。

例如

下面数据记录了小明参加射箭俱乐部时击中的环数:

1 1 2 2 3 5 5 5 6 7 7

上述数据的各项指标如下:

平均数=44/11=4

众数=5(5出现3次)

中位数=5

方差=4

极差=7-1=6

上四分位点=6

下四分位点=2

我们一般会用上述的6个指标来描述一组数据的“长相”,平均值用来展示整体的平均水平,众数用来展示数据点主要集中的范围,中位数用来与平均数进行对比判断数据是否平滑,方差用来判断数据波动情况。

到 这里,我们发现通过对一组数据的平均数、众数、中位数、方差、极差、四分位点进行解读,很容易对这一批数字有具体的认识,而直接看数字可能就感受不到这些 信息。不仅如此,我们在数学统计的过程中常常面临着成千上万的数字,如果把这些数字全部罗列在屏幕上可能很难看出什么名堂来,而通过上述6个指标能让这些 庞大繁杂的数据一目了然,虽不见数据却也知道数据长什么样,这就是描述性统计变量。

媒体评论

通俗易懂,数据分析入门的不二之选。

——Wenny Zhong Soochow University Statistics Researcher

循序渐进的引导,带领大家逐渐领略数据分析的魅力。

——张俊 中国平安 大数据研究员

数据分析道路上的指引明灯。

——张鹏飞 中国平安 高级数据分析师

免责声明

更多相关图书
在线咨询