本笔记以秦路老师的文章「如何七周成为数据分析师」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。主要目的是检验自己的学习效果和日常复习之需。
初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结整理而得,难免有理解偏差、错误的地方,若有不正当的解释还望朋友们不吝指教!
更新进度
- 2018.09.29:完成初稿,形成笔记的整体框架;
- 2018.09.30:更新「数据分析入门」章节;
学习框架
整体框架
:本笔记以秦路老师的文章「如何七周成为数据分析师」$^{[1]}$ 为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。数学部分
:数据分析,离不开数学。关于学习资料的选择,推荐盛骤老师的《概率论与数理统计·第4版》和张宇老师的《带你学概率论与数理统计·浙大4版》。数学并不是自己擅长的科目,出于这样的考虑,故选择了
大学教材
和考研辅导书
,希望借以习题辅导书复习教材内容,以短时间获得最大成效比。📖 | 书籍 | 盛骤. 概率论与数理统计·第4版. 高等教育出版社
📖 | 书籍 | 张宇. 带你学概率论与数理统计·浙大4版. 北京理工大学出版社
📺 | 视频 | 张宇. 2018 考研概率论强化课程. bilibili.com
📝 | 文章 | Kofe | 笔记 | 概率论与数理统计
统计部分
:很遗憾对此部分知识不了解,在此不具体展开探讨。但《概率论与数理统计》的数理统计部分可以预先复习。数据库部分
:在秦路老师的文章中,数据库部分侧重 SQL ( 结构化查询语言 ) 的讲解,当然这也是操作性和实用性很强的一模块。且据以往语言学习的经历,多写、多练
是必不可少的阶段,SQL 也不例外,附带的练习题目中有不少经典的实例,作为入门训练材料刚好合适。当然,数据库的知识不仅如此,有需求的朋友可继续参阅书籍《数据库系统概念》$^{[2]}$,即以数据库工程师的角度出发,从需求到维护的流程化学习过程,整体架构上学习数据库这门学科。
📝 | 文章 | W3CSchool SQL 教程 & 练习题
📝 | 文章 | LeetCode SQL 练习题
📖 | 书籍 | 福达(Ben Forta). SQL 必知必会. 人民邮电出版社
编程部分
:主导 Python 语言编程。由于篇幅的缘故,该部分内容请参阅另一篇博文:📝 | 文章 | Kofe | 笔记 | Python 3 入门系列教程
📝 | 文章 | 廖雪峰. Python 教程. 2018. liaoxuefeng.com
当然,Python 的学习还可以参考廖雪峰老师的教程。
📖 | 书籍 | Iamseancheney (译). Python 数据分析 (第二版). 2017. github.com
本书是 2017 年 10 月 20 号正式出版的,和第一版的不同之处有:
1) 包括 Python 教程内的所有代码升级为Python 3.6
;
2) 更新了 Anaconda 和其它包的 Python 安装方法;
3) 更新了 Pandas 为 2017 最新版;
4) 新增高级的 Pandas 工具
章节;
5) 简要介绍和使用StatsModels
和scikit-learn
.
研究部分
:自己课题的需求,数据科学方向的研究是必不可少的环节。篇幅原因,则细节在下文中展开探讨。按照惯例,为了便于知识的引用和问题的探讨,以下罗列自己所使用到的学习资料。🍉 | 书籍 | 周志华. 机器学习 (西瓜书). 清华大学出版社
🌼 | 书籍 | [美] 伊恩·古德费洛. 深度学习 (花书). 人民邮电出版社
📺 | 视频 | 深度学习. 读书会分享视频集. bilibili.com
视频转载自:Alena Kruchkova. Deep Learning Book Live Streams. youtube.com
若有条件科学上网的朋友,可至 Youtube 搭配在线字幕观看。📖 | 书籍 | 李航. 统计学习方法. 清华大学出版社
数据分析入门
Excel:不考虑性能和数据量
- 掌握各类功能强大的函数 — 常见 Excel 函数
- 清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
- 关联匹配类:lookup、vlookup、index、match、row、column、offset
- 逻辑运算类:if、and、or、is系列
- 计算统计类:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、
substotal
、int/round - 时间序列类:year、month、weekday、weeknum、day、date、now、today、
datedif
Excel 常用工具 — 数据分析:Excel 技巧大揭秘
格式转换
:自定义格式规范时间。2016/11/11 写成 yyyy/MM/dd
2016-11-11 23:59:59 写成 yyyy-MM-dd HH:mm:ss分列
:分列功能可以将某一列按照特定规则拆分,常常用来进行数据清洗。数据透视表
:数据透视表的核心思想是聚合运算,将字段名相同的数据聚合起来,所谓数以类分。列和行的设置,则是按不同轴向展现数据。简单说,你想要什么结构的报表,就用什么样的拖拽方式。
删除重复项
:一种数据清洗和检验的快速方式。想要验证某一列有多少个唯一值,或者数据清洗,都可以使用。自定义下拉菜单
(数据有效性):数据有效性是一种约束,针对单元格限制其输入,也就是让其只能固定几个值。下拉菜单是一种高阶应用,通过允许下拉箭头即可。查找公式错误
:公式报错也不知道错在哪里时候可以使用该功能,尤其是各类IF嵌套或者多表关联,逻辑复杂时。查找公式错误是逐步运算的,以方便定位。分组和分级显示
:常用在报表中,在报表行数多到一定程度时,通过分组达到快速切换和隐藏的目的。分析工具库
:分析工具库是高阶分析的利器,包含很多统计计算,检验功能等工具。Excel是默认不安装的,要安装需要加载项,在工具菜单下(不同版本安装方式会有一点小差异)。分析工具库是统计包,如随机数发生器、排位与百分比排位、回归、抽样、t-检验等。
Excel 实战教程 — 数据分析:手把手教你Excel实战
- 明确目的
- 数据用来解决什么问题?
- 汇总统计制作报表?
- 数据可视化,作为一张信息图?
- 验证某一类业务假设?
- 提高某一个指标的KPI?
- 观察数据
- 数据有无缺失值
- 某一字段缺失数据较多,要考虑是否删除该字段(超过 50% 即没有业务意义了)
- 数据是否一致化
- 数据是否有脏数据:乱码,错位,重复值,未匹配数据,加密数据
- 数据标准结构
- 数据有无缺失值
- 数据清洗:结合
观察数据
阶段完成的工作,对数据进行预处理操作
。 - 分析过程
- 数据透视表
- 明确目的
- 单元格格式:数据分析师会和各种数据类型打交道,包括各类 timestamp,date,string,int,bigint,char,factor,float 等。
- 了解中文编码:UTF-8、GBK、ASCII 码。
Excel:数据可视化
- Excel:多种经典图表
- 数据可视化:你想知道的经典图表全在这
- 散点图:表示两个变量之间的关系。后续的学习中,多次借用到散点,统计中的
回归分析
,比如数据挖掘中的聚类
。 - 折线图:了解某一维度在时间上的规律或者趋势。
- 柱形图:堆积柱形图,瀑布图,横向条形图,横轴正负图。
- 地理图:一切和空间属性有关的分析都可以用到地理图。
- 饼图
- 雷达图:也叫蛛网图,适合用在固定的框架内表达某种已知的结果。
- 箱线图:它能准确地反映数据维度的离散(最大数、最小数、中位数、四分数)情况。凡是离散的数据都适用箱线图。
- 热力图:以高亮形式展现数据。
- 关系图
- 矩形树图:柱形图不适合表达过多类目(比如上百)的数据,那应该怎么办?矩形树图出现了,它直观地以面积表示数值,以颜色表示类目。
- 桑基图:常表示信息的变化和流动状态。
- 漏斗图
- 散点图:表示两个变量之间的关系。后续的学习中,多次借用到散点,统计中的
- 数据可视化:教你打造升职加薪的报表
- 数据可视化:你想知道的经典图表全在这
- PowerBI:Dashboard 仪表盘,由多个图表集合成的图表仪盘 — 数据可视化:手把手打造BI
- 商业智能(Business Intelligence,BI),在传统企业中,它是一套完整的解决方案。将企业的数据有效整合,快速制作出报表以作出决策。涉及
数据仓库
,ETL
,OLAP
,权限控制
等模块。
- 商业智能(Business Intelligence,BI),在传统企业中,它是一套完整的解决方案。将企业的数据有效整合,快速制作出报表以作出决策。涉及
数据分析思维
- 麦肯锡的分析思维:结构化思考,MECE原则,假设先行,关键驱动等方法论。 — 快速掌握麦肯锡的分析思维
- 分析思维框架:SMART、5W2H、SWOT、4P4C、六顶思考帽等 — 如何建立数据分析的思维框架