数据分析学习框架

发表于 2018-09-30 | 更新于 2023-02-15 | 分类于 Reading | | 阅读次数:

字数统计: 2,431

本笔记以秦路老师的文章「如何七周成为数据分析师」为内容框架，整合相关的论文、书籍、视频资料，输出学习笔记。主要目的是检验自己的学习效果和日常复习之需。

初入数据分析的大门，笔记大部门的知识模块以阅读原资料总结整理而得，难免有理解偏差、错误的地方，若有不正当的解释还望朋友们不吝指教！

概率论与数理统计

发表于 2018-09-29 | 更新于 2023-02-15 | 分类于 Reading | | 阅读次数:

字数统计: 3,864

本笔记是备战考研时，跟着张宇老师的概率论课程学习整理所得。且输出本笔记的主要目的是快速构建概率的基础知识体系，以便于日后复习查阅和问题探究。或是更具体的应用场景，如 机器学习、数据挖掘、经济统计 等领域，概率论作为这些领域的 先修课程，理论基础尤为重要。由此，无论是初入门还是温故知新，学习基础学科为必经阶段，不妨选择张宇老师的概率论课程，这不失一种高效的复习方案。

当然，笔记仅是对知识点的整理和归纳，并不能代表原本知识点的严谨定义。若有更进阶的需求，还请查阅概率论相关教材，或重温课程。

阅读全文 »

Python 3 快速上手教程

发表于 2018-09-03 | 更新于 2023-07-10 | 分类于 Programme | | 阅读次数:

字数统计: 22,963

本文以「黑马 Python 从入门到精通」和「廖雪峰 Python 教程」为主线，学习之余，输出笔记。由于教程定位于入门，教授内容会有道不尽的地方，为此笔记还会补充视频中解释不详尽或遗漏的知识点。
本文与「廖雪峰 Python 教程」的框架大体保持一致，没有特别的，就是科学的、优秀的方案得复用起来。大体框架编排如下（知识点细节见文章目录即可）：
- Linux 基础，参考 黑马 Python 从入门到精通教程；
- Python 基础，参考 廖雪峰 Python 教程；
- 项目实践，参考书籍 利用 Python 进行数据分析 $^{[5]}$；
最后，送上 Bruce Eckel 一句话 “Life is short, you need python”。Python 的高效只有切身体验才会深有体会，期待您早日加入 Python 队伍。

阅读全文 »

SVN 环境搭建与使用

发表于 2018-08-27 | 更新于 2023-02-15 | 分类于 Project | | 阅读次数:

字数统计: 2,341

最近有机会接触到公司的新项目，对于多人参与的项目，此刻才感受到 源代码版本控制 的重要性。遗憾之余，为了加深理解和复用起见，本文将从 搭建、配置 和 使用 多方面总结 SVN ( Subversion，开放源代码的版本控制系统 )。

当然，版本控制的工具有很多，比如 CVS、GIT、SVN。CVS 几乎淘汰；GIT 适合开源软件项目；SVN 适合企业内部由项目经理统一协调的多个并行项目的开发。考虑到种种因素，我们不能单方面评论每种版本控制工具的优劣，故选择哪款版本控制工具视具体情况而定。

阅读全文 »

Java EE：SSM 框架快速上手教程

发表于 2018-08-13 | 更新于 2023-02-15 | 分类于 Project | | 阅读次数:

字数统计: 10,954

本文章主要围绕 J2EE 中 SSM ( Spring、Spring MVC、MyBatis ) 框架的配置以及使用问题展开学习的，最终目的是输出可复用的版本，以供后续的项目复用。当然，学习和配置的过程难免有不恰当或错误之处，还望朋友指出、斧正。

阅读全文 »

Java EE：SSH 框架快速上手教程

发表于 2018-07-24 | 更新于 2023-02-15 | 分类于 Project | | 阅读次数:

字数统计: 19,677

本文章主要围绕 J2EE 中 SSH ( Spring、Struts、Hibernate ) 框架的配置以及使用问题展开学习的，最终目的是输出可复用的版本，以供后续的项目复用。当然，学习和配置的过程难免有不恰当或错误之处，还望朋友指出、斧正。

阅读全文 »

论文 | 归类分析 GPS 以预测车辆停留意图信息

发表于 2018-06-12 | 更新于 2023-02-15 | 分类于 Paper | | 阅读次数:

字数统计: 3,813

原文：Stop purpose classification from GPS data of commercial vehicle fleets
作者：Sarti L, Bravi L, Sambo F.
来源：Data Mining Workshops, 2017 IEEE International Conference on. IEEE, 2017: 280-287.

摘要

从原始 GPS（全球定位系统）数据中提取 汽车停靠意图数据 是大多数位置感知应用程序中的关键任务，且随着从移动设备收集 GPS 数据的不断增长，这项任务变得越来越有趣。近期很多研究都集中在行人手机数据上（可理解为红海市场），而商用车领域几乎没有探索（蓝海市场）。

在本论文中，针对车辆 GPS 数据的汽车停靠意图的 识别 和 分类 问题 (利用来自不同行业的商业车队的大型异构数据集)，按照意图分类，旨在把汽车停靠点分类为：工作相关 和 非工作相关，以挖掘相关商业价值。

还对每个汽车停靠点计算一组含 100 个不同特征的集合，特征可分为四个主要类别：汽车停靠点特征，兴趣点特征，汽车停靠点集群特征 和 序列特征。并组合四组特征，加入训练，通过随机森林分类模型，我们得以评估四组特征中每个特征的相对重要性。

强特征可有效地提升分类模型的精度。

实验结果表明，本论文的方法显着地超越了现有商业车辆背景下用于汽车停靠意图的分类模型。

阅读全文 »

论文 | 降维分类方法：以改进质谱流式细胞识别技术

发表于 2018-06-06 | 更新于 2023-02-15 | 分类于 Paper | | 阅读次数:

字数统计: 3,384

原文：Automatic classification of cellular expression by nonlinear stochastic embedding (ACCENSE)
作者：Karthik Shekhar, Petter Brodin, Mark M.Davis and Arup K.Chakraborty.
来源：Proceedings of the National Academy of Sciences (PNAS), 2014, 111(1): 202-207.

摘要

质谱流式细胞技术（Mass cytometry）能够在单细胞水平上识别到近 40 种不同的蛋白质，即提供前所未有的多维信息。由于各式各样的细胞种群数据集的复杂性，要收集有用的生物学知识对计算工具也有新的要求。回顾之前的聚类方法，聚类需要特征（维度），而每一种蛋白质（细胞表征由不同蛋白质表示）可当作一种特征，聚类算法就会自动识别不同类型的簇群，即对于不同功能的细胞识别是基于细胞表征相似性来实现区分的。当然，经典方法存在一定局限性，例如单细胞分辨率的损失（特征或维度的减少）；经典方法需要预知簇中的对象数量（本文中指细胞亚群的规模数量）。

阅读全文 »

论文 | 扩展 K-means 算法：混合数据类型的聚类方法

发表于 2018-06-03 | 更新于 2023-02-15 | 分类于 Paper | | 阅读次数:

字数统计: 3,725

原文：Extensions to the k-means algorithm for clustering large datasets with categorical values
作者：ZHEXUE HUANG.
来源：Data mining and knowledge discovery, 1998, 2(3): 283-304.

摘要

在早期，大多数聚类工作主要集中在数值数据上，且它们主要是利用数值数据的固有几何特性，即数据点之间的 距离函数 (见附录1)。但是，数据挖掘应用程序通常涉及许多数据集，这些数据集是由混合数值属性和标称属性组成的，仅拥有数值数据的测量方法已无法满足混合数据类型的聚类工作。

本论文基于经典的 K-Means 算法上，提出了两种聚类算法，分别应对 标称域 和 混合数值与标称域 属性值的聚类操作。首先介绍的是K-Modes (K-众数) 聚类算法，他运作的方式与 K-Means 相仿，只是它利用的是相异性度量处理标称对象，聚类中心以众数替代均值，且众数以基于频率的方法去迭代更新，直至 聚类代价函数 的结果最小化停止迭代。其次，是 K-Prototype 聚类算法，它定义了一组合的相异性度量值，进一步整合 K-Means 和 K-Modes 算法，以实现对混合数值与标称属性的对象进行聚类操作。

阅读全文 »

论文 | 通过密度峰值进行聚类分析的方法

发表于 2018-05-27 | 更新于 2023-02-15 | 分类于 Paper | | 阅读次数:

字数统计: 1,869

原文：Clustering by fast search and find of density peaks
作者：Alex Rodriguez and Alessandro Laio
来源：Science 344.6191(2014), 1492-1496.

摘要

聚类分析的目的在于根据元素的相似性将元素分类。而该论文基于这样一种观点的提出新的方法，即聚类中心的密度高于其邻居，而密度高的点相对较远。这个想法构成了聚类过程的基础，其中簇的数量直观地产生，异常值被自动地发现并从分析中排除，并且聚类被识别，而不管它们的形状和嵌入它们的空间的维度如何。

阅读全文 »

Kofe

融合工程、美学、数据的思维及能力，
创作最优质内容，愿与粉丝共进步、共成长。