本笔记以秦路老师的文章「如何七周成为数据分析师」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。主要目的是检验自己的学习效果和日常复习之需。
初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结整理而得,难免有理解偏差、错误的地方,若有不正当的解释还望朋友们不吝指教!
与你邂逅一场跨学科思维的学习旅程。
本笔记是备战考研时,跟着张宇老师的概率论课程学习整理所得。且输出本笔记的主要目的是快速构建概率的基础知识体系,以便于日后复习查阅和问题探究。或是更具体的应用场景,如 机器学习
、数据挖掘
、经济统计
等领域,概率论作为这些领域的 先修课程
,理论基础尤为重要。由此,无论是初入门还是温故知新,学习基础学科为必经阶段,不妨选择张宇老师的概率论课程,这不失一种高效的复习方案。
当然,笔记仅是对知识点的整理和归纳,并不能代表原本知识点的严谨定义。若有更进阶的需求,还请查阅概率论相关教材,或重温课程。
黑马 Python 从入门到精通教程
; 廖雪峰 Python 教程
; 利用 Python 进行数据分析
$^{[5]}$; 最近有机会接触到公司的新项目,对于多人参与的项目,此刻才感受到 源代码版本控制
的重要性。遗憾之余,为了加深理解和复用起见,本文将从 搭建
、配置
和 使用
多方面总结 SVN ( Subversion,开放源代码的版本控制系统 )。
当然,版本控制的工具有很多,比如 CVS、GIT、SVN。CVS 几乎淘汰;GIT 适合开源软件项目;SVN 适合企业内部由项目经理统一协调的多个并行项目的开发。考虑到种种因素,我们不能单方面评论每种版本控制工具的优劣,故选择哪款版本控制工具视具体情况而定。
本文章主要围绕 J2EE 中 SSM ( Spring、Spring MVC、MyBatis ) 框架的配置以及使用问题展开学习的,最终目的是输出可复用的版本,以供后续的项目复用。当然,学习和配置的过程难免有不恰当或错误之处,还望朋友指出、斧正。
本文章主要围绕 J2EE 中 SSH ( Spring、Struts、Hibernate ) 框架的配置以及使用问题展开学习的,最终目的是输出可复用的版本,以供后续的项目复用。当然,学习和配置的过程难免有不恰当或错误之处,还望朋友指出、斧正。
原文:Stop purpose classification from GPS data of commercial vehicle fleets
作者:Sarti L, Bravi L, Sambo F.
来源:Data Mining Workshops, 2017 IEEE International Conference on. IEEE, 2017: 280-287.
从原始 GPS(全球定位系统)数据中提取 汽车停靠意图数据
是大多数位置感知应用程序中的关键任务,且随着从移动设备收集 GPS 数据的不断增长,这项任务变得越来越有趣。近期很多研究都集中在行人手机数据上(可理解为红海市场),而商用车领域几乎没有探索(蓝海市场)。
在本论文中,针对车辆 GPS 数据的汽车停靠意图的 识别
和 分类
问题 (利用来自不同行业的商业车队的大型异构数据集),按照意图分类,旨在把汽车停靠点分类为:工作相关
和 非工作相关
,以挖掘相关商业价值。
还对每个汽车停靠点计算一组含 100 个不同特征的集合,特征可分为四个主要类别:汽车停靠点特征
,兴趣点特征
,汽车停靠点集群特征
和 序列特征
。并组合四组特征,加入训练,通过随机森林分类模型,我们得以评估四组特征中每个特征的相对重要性。
强特征可有效地提升分类模型的精度。
实验结果表明,本论文的方法显着地超越了现有商业车辆背景下用于汽车停靠意图的分类模型。
原文:Automatic classification of cellular expression by nonlinear stochastic embedding (ACCENSE)
作者:Karthik Shekhar, Petter Brodin, Mark M.Davis and Arup K.Chakraborty.
来源:Proceedings of the National Academy of Sciences (PNAS), 2014, 111(1): 202-207.
质谱流式细胞技术(Mass cytometry)能够在单细胞水平上识别到近 40 种不同的蛋白质,即提供前所未有的多维信息。由于各式各样的细胞种群数据集的复杂性,要收集有用的生物学知识对计算工具也有新的要求。回顾之前的聚类方法,聚类需要特征(维度),而每一种蛋白质(细胞表征由不同蛋白质表示)可当作一种特征,聚类算法就会自动识别不同类型的簇群,即对于不同功能的细胞识别是基于细胞表征相似性来实现区分的。当然,经典方法存在一定局限性,例如单细胞分辨率的损失(特征或维度的减少);经典方法需要预知簇中的对象数量(本文中指细胞亚群的规模数量)。
原文:Extensions to the k-means algorithm for clustering large datasets with categorical values
作者:ZHEXUE HUANG.
来源:Data mining and knowledge discovery, 1998, 2(3): 283-304.
在早期,大多数聚类工作主要集中在数值数据上,且它们主要是利用数值数据的固有几何特性,即数据点之间的 距离函数
(见附录1)。但是,数据挖掘应用程序通常涉及许多数据集,这些数据集是由混合数值属性和标称属性组成的,仅拥有数值数据的测量方法已无法满足混合数据类型的聚类工作。
本论文基于经典的 K-Means 算法上,提出了两种聚类算法,分别应对 标称域
和 混合数值与标称域
属性值的聚类操作。首先介绍的是K-Modes (K-众数)
聚类算法,他运作的方式与 K-Means 相仿,只是它利用的是相异性度量处理标称对象,聚类中心以众数替代均值,且众数以基于频率的方法去迭代更新,直至 聚类代价函数
的结果最小化停止迭代。其次,是 K-Prototype
聚类算法,它定义了一组合的相异性度量值,进一步整合 K-Means
和 K-Modes
算法,以实现对混合数值与标称属性的对象进行聚类操作。