`
韩悠悠
  • 浏览: 827652 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

三大主要分类器总结详解

阅读更多

 

决策树模型
决策树的优点:
一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。
二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
四、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
五、 易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
六、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
七、 可以对有许多属性的数据集构造决策树。
八、 决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
九、 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
决策树的缺点:
一、 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
二、 决策树处理缺失数据时的困难。
三、 过度拟合问题的出现。
四、 忽略数据集中属性之间的相关性。
 
他什么情况下表现最好?
1) 实例是由“属性-值”对(pair)表示的。最简单的决策树学习中,每一个属性取少数的分离的值(例如,Hot、Mild、Cold)。
2) 目标函数具有离散的输出值。
3) 可能需要析取的描述,如上面指出的,决策树很自然地代表了析取表达式。
4) 训练数据可以包含错误。决策树学习对错误有很好的适应性,无论是训练样例所属的分类错误还是描述这些样例的属性值错误。
5) 训练数据可以包含缺少属性值的实例。
 
什么条件下它表现很差?
决策树匹配实验数据可能太多时候(过度匹配)表现很差。为了减少过度匹配问题,我们可以裁剪决策树,去掉一些不必要的叶子节点。如果叶子节点只能增加少许信息,则可以删除该节点,将它并人到其他叶子节
点中。当类别太多时,错误可能就会增加的比较快。
 
 
决策树算法在CRM中的应用
http://www.cqvip.com/QK/81863X/200602/1000996946.html
http://www.cbcb.umd.edu/~salzberg/docs/murthy_thesis/survey/node32.html
 
为什么这个模型适合这个问题?
1、因为我们不需要准备太多的训练数据,而且不需要对数据正规化,删除空白值等处理,
2、易于编码,
3、我们当前的特征不是线性问题,决策树在在解决非线性问题有很好的能力
4、预测快速,而且对应机器的性能消耗不高。
 
 
 
逻辑回归优缺点
优点:
1)预测结果是界于0和1之间的概率;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)计算代价不高
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。
3)容易欠拟合,分类精度可能不高。
他什么情况下表现最好?
缺失值少,低纬度下表现比较好。
什么条件下它表现很差?
特征数量过大时,分类器的性能就会出现下降。维数灾难
 
真实世界的一个应用场景,多元逻辑回归在实时竞价中的应用研究
 
 
为什么这个模型适合这个问题?
1、因为我们的数据中有许多特征,可以利用逻辑回归拟合一条
2、模型训练不太费计算资源
3、逻辑回归简单,并且效果也好,而且可以进行各种变种。也是一种奥卡姆剃刀原则。
 
SVM的优点:
一、 可以解决小样本情况下的机器学习问题。
二、 可以提高泛化性能。
三、 可以解决高维问题。
四、 可以解决非线性问题。
五、 可以避免神经网络结构选择和局部极小点问题。
 
SVM的缺点:
一、 对缺失数据敏感。
二、 对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。
他什么情况下表现最好?
SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。
 
什么条件下它表现很差?
当有大量缺失数据时候,表现很差,导致分类不准
 
真实世界的一个应用场景,基于SVM算法学生毕业的预测
引用地址:http://d.wanfangdata.com.cn/Periodical/fjdn201211051
 
为什么这个模型适合这个问题?
1、因为我们的数据中样本比较少,SVM可以解决小样本情况下的机器学习问题
2、我们的特征值不是线性问题,适合SVM解决
3、SVM可以指定不同的核函数做决策函数,可以提高分类准确度。
分享到:
评论

相关推荐

    keras优化器详解

    一份详细的keras优化器详细总结。基于梯度的优化方法 1 0. 梯度下降 2 1. 批量梯度下降Batch gradient descent(BGD) 3 2. 随机梯度下降 Stochastic gradient ...最近邻分类器 11 损失函数 12 激活函数: 14 优化函数 14

    阿里巴巴面试题总结

    阿里巴巴面试题总结 2018年05月28日 10:55:49 牧儿 阅读数:65更多 个人分类: 阿里巴巴 1. 在JVM中,类从被加载到虚拟机内存中开始,到...答:java有三个类加载器,分别为:根类加载器,扩展类加载器,系统类加载 器。

    Photoshop.CS4.特效与创意专家解析

    1.1 特效的基本概念及三大表现手法解析 1.1.1 形态变化 1.1.2 维度变化 1.1.3 质感变化 1.2 火焰女孩特效表现 基本信息 设计解析 设计流程解析 操作步骤 技能总结 1.3 圣诞夜特效表现 基本信息 设计解析 设计流程...

    计算机网络知识点总结.docx

    5.计算机网络提供的服务的三种分类? 6.ISO/OSI参考模型和TCP/IP模型? 7.端到端通信和点到点通信的区别? 第二章、物理层 8.如何理解同步和异步?什么是同步通信和异步通信? 9.频分复用 时分复用 波分复用 码分...

    Java 基础核心总结 +经典算法大全.rar

    《Java 基础核心总结》 Java 概述 什么是 Java2 Java 的特点Java 开发环境 JDK JRE Java 开发环境配置 Java 基本语法 数据类型基础语法运算符 Java 执行控制流程条件语句 if 条件语句 if...else 条件语句if...else ...

    RDMA原理分析、对比和技术实现解析.rar

    9.12 InfiniBand主要构件总结................................. 54 9.13 InfiniBand对现有应用的支持和ULPs支持................... 55 第10章 RDMA over TCP(iWARP)协议和工作原理 ..................... 56 10.1 ...

    免费超全面的Java基础类型,容器,并发,IO流,面向对象,Web编程等代码总结

    java基础 一、仓库说明 Java基础类型,容器,并发,IO流,面向对象,Web编程等代码总结。 2、分类文档 JVM虚拟机 JVM特点,结构与执行周期 ...过滤器、监听器、拦截器,应用详解 Servlet 集成 C3P0

    动态爬虫管理平台构建与实现-kaic.docx

    目 录 ...4.4基于朴素贝叶斯算法的分类器 第五章 基于Best-First算法的平台构建 5.1通用搜索策略 5.2常用平台构建 5.3基于Best-First算法的平台构建 第六章总结与展望 6.1总结 6.2展望 参考文献 致谢

    Java语言基础下载

    document中三个主要的对象 539 文档对象的基本元素 541 窗口及输入输出 544 输出流及文档对象 546 简单的输入、输出例子 547 内容总结 551 独立实践 552 第二十八章: Servlet 553 学习目标 553 Java Servlet概述 ...

    springboot知识点整理

    1.5 入门案例详解 11 1.5.1 POM文件 11 1.5.2 主程序类,主入口类 12 1.6 使用Spring Initializer向导快速创建Spring Boot 16 2 Spring Boot配置 18 2.1 配置文件 18 2.2 YML语法 19 2.3 YML配置文件值获取 21 2.4 ...

    黑客反汇编揭秘(第二版).part1.rar

    所属分类: 计算机 > 软件与程序设计 > 汇编语言/编译原理 > 汇编语言程序设计 编辑推荐 俄罗斯著名的安全技术专家Kris Kaspersky力作 横跨Windows和UNIX两大主流操作系统 全面介绍多种调试工具和方法 目录回到...

    主流人工智能平台的架构及调优经验总结.pdf

    对于某个⼆分类分类器来说,输出结果标签(0还是 1)往往取决于输出的概率以及预定的概率阈值,⽐如常见的阈值就是0.5,⼤于0.5的认为是正样本,⼩于0.5的认为是负样本。如果增⼤ 这个阈值,预测错误(针对正样本⽽...

    使用Java创建电子邮件过滤器 - 一个实战教程

    这个电子邮件过滤器将允许用户收取、分类和过滤电子邮件,以便更有效地管理电子邮件通信。 以下是本实战教程的主要内容: 项目概述 准备工作 创建Java项目 设计用户界面 邮件接收和解析 邮件分类 垃圾邮件过滤 ...

    深入解析Oracle.DBA入门进阶与诊断案例

    针对数据库的启动和关闭、控制文件与数据库初始化、参数及参数文件、数据字典、内存管理、Buffer Cache与Shared Pool原理、重做、回滚与撤销、等待事件、性能诊断与SQL优化等几大Oracle热点主题,本书从基础知识入手...

    基于lucene的搜索引擎总结

    最大匹配法(机械分词):按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。 二元分词 一元分词 自动分类 向量距离分类算法 根据算术平均,为每类...

    SAP 分类管理、序列号管理、批次管理讲解

    SAP 分类管理、序列号管理、批次管理讲解 文档旨在对分类,序列号,批次的系统配置,应用过程展示等内容,内容较完整的展示了配置,操作过程,对于学习过程是一个不错的帮助文档。

    java 面试题 总结

    Hashtable和HashMap采用的hash/rehash算法都大概一样,所以性能不会有很大的差异。 12、final, finally, finalize的区别。  final 用于声明属性,方法和类,分别表示属性不可变,方法不可覆盖,类不可继承。 ...

    黑客反汇编揭秘(第二版).part2.rar

    所属分类: 计算机 > 软件与程序设计 > 汇编语言/编译原理 > 汇编语言程序设计 编辑推荐 俄罗斯著名的安全技术专家Kris Kaspersky力作 横跨Windows和UNIX两大主流操作系统 全面介绍多种调试工具和方法 目录回到...

    煤炭地址问题解析解答详情

    答:我国有六大聚煤区包括华北石炭二叠纪聚煤区、华南二叠纪聚煤区、东北侏罗纪聚煤区、西北侏罗纪聚煤区、西藏滇西中生代及第三纪聚煤区和台湾第三纪聚煤区。 三详答题 1对地质作用进行详细分类? 根据地质作用的...

    吴天雄--JavaWeb完整笔记.doc

    本文档总计92页,20928个字,共分为九大模块,模块一:javaWeb入门概念(资源分类、网络通信三要素、软件架构、web服务器软件tomcat配置、虚拟路径和虚拟主机);模块二:使用eclipse和idea快速开发jsp(idea和tomcat...

Global site tag (gtag.js) - Google Analytics