登录后绑定QQ、微信即可实现信息互通
1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 2 算法图示 假设我们..
Python数据类型详解 本文主要讲解Python的几种数据类型: 1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期 1 字符串 1.1 如何在Python中使用字符串 a、使用单引号(’) 用单引号括起来表示字符串,例如: str='this is st..
本文讲解KNN来对简单数据进行分类,数据虽然是抽象的,但其实可以映射到任意具体业务上,常见的例子: 1.根据已毕业学生各科成绩及其就业数据来预测或引导应届毕业生生就业方向 2.根据客户各属性及其购买行为,来预测新客户的购买行为需求 计算地理..
需求 以在线社区的留言板为例。为了不影响社区的发展,我们要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类别:侮辱..
1.概述 贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注:朴素的意思是条件概率独立性,此处要想真正理解,需要有概率论的基础知识 P(A|x1x2x3x4)=..
1. 需求 对给定的数据集进行聚类 本案例采用二维数据集,共80个样本,有4个类。样例如下(testSet.txt): 1.658985 4.285136-3.453687 3.4243214.838138 -1.151539-5.379713 -3.3621040.972564 2.924086-3.567919 1.5316110.450614 -3.302219-3.4..
需求 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: 数据维度比较大,样本数比较多。数据集包括数字0-9的手写体。每个数字大约有200个样本。每个样本保持在一个txt文件中。手写体图像本身的..
1.概述 Lineage逻辑回归是一种简单而又效果不错的分类算法 什么是回归:比如说我们有两类数据,各有50个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归。我们通过大量的数据找出..
利用大量邮件先验数据,使用朴素贝叶斯分类算法来自动识别垃圾邮件。 python实现: #过滤垃圾邮件def textParse(bigString):#正则表达式进行文本解析import relistOfTokens = re.split(r'\W*',bigString)return [tok.lower() for tok in listOfToke..
1 概述 什么是协同过滤 (Collaborative Filtering, 简称 CF)? 首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做? 大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的..
1. 需求 根据一个用户对电影评分的数据集来实现基于用户相似度的协同过滤算法推荐,相似度的算法采用皮尔逊相关系数法 数据样例如下: 用户ID:电影ID:评分:时间1::1193::5::9783007601::661::3::9783021091::914::3::9783019681::3408::4::97830..
需求 对给定的先验数据集,使用logistic回归算法对新数据分类 代码实现 1.定义sigmoid函数 def loadDataSet():dataMat = []; labelMat = []fr = open('d:/testSet.txt')for line in fr.readlines():lineArr = line.strip().split()dataMat.append([..
1 什么是Numpy Numpy是Python的一个科学计算的库 主要提供矩阵运算[考虑是否需要补充讲解最基本的矩阵运算知识]的功能,而矩阵运算在机器学习领域应用非常广泛。 Numpy一般与Scipy、matplotlib一起使用。 虽然python中的list已经提供了类似于矩阵的..
提出你的第一个问题
回答一个你擅长的问题
对内容进行点赞或者收藏
阅读声望与权限的规范
完善个人资料