Recent Posts

  • May 08, 2017

    特征降维算法总结比较

    特征降维有利于减少描述分为特征提取与特征的选择.这两者是有区别的特征提取指对特征进行某种变换,得到新特征; 特征选择指通过某些方法获取特征的子集.这篇文章是对以上两者的总结. 1 特征提取 (Feature extration) 1.1 主成分分析 (Principal Component Analysis, PCA) 1.2 核主成分分析 (Kernel Principal Component Analysis, KPCA) 1.3 线性判别分析 ...

  • April 14, 2017

    聚类算法大盘点

    最近在关注聚类分析,了解了之后才发现,原来聚类分析里已经有这么丰富的成果,因此希望对其做个较全面的总结.本文涉及到的聚类算法较多,请允许我慢慢更新. 1 层次(系统)聚类(Agglomerative Clustering) 1.1 凝聚层次聚类 1.2 分裂层次聚类 2 基于原型的聚类 2.1 K-均值(K-means) 2.2 二分K-均值(bisecting K-means) 2.3 K-中心(K-med...

  • April 03, 2017

    常用优化方法及其原理

    机器学习的各类算法中,常常需要用到最优化算法来求解参数.这篇文章将总结一下机器学习中常用到的最优化算法,偏数理.本文将会提到以下5种最优化算法 1 梯度下降法(gradient descent) 2 牛顿法(Newton’s method) 3 拟牛顿法(Quasi-Newton Methods)3.1 DFP算法3.2 BFGS算法3.3 L-BFGS算法梯度下降法梯度下降方法的导出梯度下降法最核心的部分在于:”当在点可微时,在的梯度方向是的值增长最快的方向,且沿该方向的变化率就是...

  • March 28, 2017

    scikit-learn中的GBDT实现

    上一篇文章中我们已经大概了解了Gradient Boosting的来源和主要数学思想。在这篇文章里,我们将以sklearn中的Gradient Boosting为基础 源码在这,了解GBDT的实现过程.希望大家能在看这篇文章的过程中有所收获.这里面会有大量的代码,请耐住性子,我们一起把它啃下来. 1 GBDT1.1 什么是GBDT1.2 GBDT中的数学 2 实现代码2.1 回归树叶子节点估计2.2 回归器损失函数2.3 分类器损失函数2.4 GBDT的训练2.5 迭代中每一轮的训练2...

  • March 25, 2017

    深入理解Boosting

    这篇文章尝试从数学角度理解Boosting,读者请做好心理准备,带好草稿纸:)BoostingBoosting 提升法.一种将多个弱分类器通过组合提升为强分类器的思想.它实现的关键在于:在每轮迭代训练中,通过改变样本权重的方式改变样本分布,从而在下一轮对误分或者偏差大的样本进行近似局部的拟合(类似于加权回归中的加权,这更容易理解),最后组合起来,达到提升的目的.这里会有几个问题:1.每轮训练偏差大小的标准是什么?(与损失函数有关)2.弱分类器怎么组合?(损失函数 对 模型权重 求偏导)3....

  • March 12, 2017

    二叉树python实现

    学习笔记# coding:utf-8class Binary_Tree(object): def __init__(self, val=None): self.root = val self.left = None self.right = Nonedef insert_node(tree, val): '''插入节点''' val_node = Binary_Tree(val) if tree.root is None: ...

  • March 11, 2017

    排序算法总结及实现

    最近面试总是考到排序算法.趁机做个小小的总结 quicksort heapsort merge sortquicksort# coding:utf-8def quick_sort_1(vet): '''python式''' if len(vet) <= 1: return vet key = vet[-1] middle = [i for i in vet if i==key] left = quick_sort_1([i for i...

  • July 15, 2016

    常用距离总结

    这篇文章会对常用的距离进行简单总结.将会涉及到: 欧氏距离 马氏距离 余弦相似度 皮尔逊相关系数(标准化后的余弦相似度) Spearmana相关系数 切比雪夫距离 曼哈顿距离 闵科夫斯基距离(闵氏距离) Jaccard相似度 卡方统计量欧氏距离 定义: 特点:同心圆型的点不能正确分类;个别取值较大的变量会对结果产生重要影响,量纲对其有较大影响。可通过先对特征进行归一化或标准化解决.马氏距离 定义: 特点:不受量纲影响;排除了变量之间相关性干扰.同样的样本在不同的...


  • E-mail: liangyaorong1995@outlook.com