笔记 | 数据分析学习框架

本笔记以秦路老师的文章「如何七周成为数据分析师」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。主要目的是检验自己的学习效果和日常复习之需。

初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结整理而得,难免有理解偏差、错误的地方,若有不正当的解释还望朋友们不吝指教!

更新进度

  • 2018.09.29:完成初稿,形成笔记的整体框架;
  • 2018.09.30:更新「数据分析入门」章节;

学习框架

数据分析入门

Excel:不考虑性能和数据量

  • 掌握各类功能强大的函数 — 常见 Excel 函数
    • 清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
    • 关联匹配类:lookup、vlookup、index、match、row、column、offset
    • 逻辑运算类:if、and、or、is系列
    • 计算统计类:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
    • 时间序列类:year、month、weekday、weeknum、day、date、now、today、datedif
  • Excel 常用工具 — 数据分析:Excel 技巧大揭秘

    • 格式转换:自定义格式规范时间。

      2016/11/11 写成 yyyy/MM/dd
      2016-11-11 23:59:59 写成 yyyy-MM-dd HH:mm:ss

    • 分列:分列功能可以将某一列按照特定规则拆分,常常用来进行数据清洗。

    • 数据透视表:数据透视表的核心思想是聚合运算,将字段名相同的数据聚合起来,所谓数以类分。

      列和行的设置,则是按不同轴向展现数据。简单说,你想要什么结构的报表,就用什么样的拖拽方式。

    • 删除重复项:一种数据清洗和检验的快速方式。想要验证某一列有多少个唯一值,或者数据清洗,都可以使用。

    • 自定义下拉菜单 (数据有效性):数据有效性是一种约束,针对单元格限制其输入,也就是让其只能固定几个值。下拉菜单是一种高阶应用,通过允许下拉箭头即可。
    • 查找公式错误:公式报错也不知道错在哪里时候可以使用该功能,尤其是各类IF嵌套或者多表关联,逻辑复杂时。查找公式错误是逐步运算的,以方便定位。
    • 分组和分级显示:常用在报表中,在报表行数多到一定程度时,通过分组达到快速切换和隐藏的目的。
    • 分析工具库:分析工具库是高阶分析的利器,包含很多统计计算,检验功能等工具。Excel是默认不安装的,要安装需要加载项,在工具菜单下(不同版本安装方式会有一点小差异)。

      分析工具库是统计包,如随机数发生器、排位与百分比排位、回归、抽样、t-检验等。

  • Excel 实战教程 — 数据分析:手把手教你Excel实战

    • 明确目的
      • 数据用来解决什么问题?
      • 汇总统计制作报表?
      • 数据可视化,作为一张信息图?
      • 验证某一类业务假设?
      • 提高某一个指标的KPI?
    • 观察数据
      • 数据有无缺失值
        • 某一字段缺失数据较多,要考虑是否删除该字段(超过 50% 即没有业务意义了)
      • 数据是否一致化
      • 数据是否有脏数据:乱码,错位,重复值,未匹配数据,加密数据
      • 数据标准结构
    • 数据清洗:结合 观察数据 阶段完成的工作,对数据进行 预处理操作
    • 分析过程
      • 数据透视表
  • 单元格格式:数据分析师会和各种数据类型打交道,包括各类 timestamp,date,string,int,bigint,char,factor,float 等。
  • 了解中文编码:UTF-8、GBK、ASCII 码。

Excel:数据可视化

  • Excel:多种经典图表
    • 数据可视化:你想知道的经典图表全在这
      • 散点图:表示两个变量之间的关系。后续的学习中,多次借用到散点,统计中的 回归分析,比如数据挖掘中的 聚类
      • 折线图:了解某一维度在时间上的规律或者趋势。
      • 柱形图:堆积柱形图,瀑布图,横向条形图,横轴正负图。
      • 地理图:一切和空间属性有关的分析都可以用到地理图。
      • 饼图
      • 雷达图:也叫蛛网图,适合用在固定的框架内表达某种已知的结果。
      • 箱线图:它能准确地反映数据维度的离散(最大数、最小数、中位数、四分数)情况。凡是离散的数据都适用箱线图。
      • 热力图:以高亮形式展现数据。
      • 关系图
      • 矩形树图:柱形图不适合表达过多类目(比如上百)的数据,那应该怎么办?矩形树图出现了,它直观地以面积表示数值,以颜色表示类目。
      • 桑基图:常表示信息的变化和流动状态。
      • 漏斗图
    • 数据可视化:教你打造升职加薪的报表
  • PowerBI:Dashboard 仪表盘,由多个图表集合成的图表仪盘 — 数据可视化:手把手打造BI
    • 商业智能(Business Intelligence,BI),在传统企业中,它是一套完整的解决方案。将企业的数据有效整合,快速制作出报表以作出决策。涉及 数据仓库ETLOLAP权限控制 等模块。

数据分析思维

业务知识

课题研究

参考资料