`
韩悠悠
  • 浏览: 826858 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表
    感知机适合线性可分的数据 梯度下降适合线性不可分的数据   为什么我们不使用梯度下降算法在 y^ 上?因为非连续函数不可导
  中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数; ...
  决定系数是相关系数的平方。 相关系数是用来描述两个变量之间的线性关系的,但决定系数的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系。 决定系数的意义是变量A可以解释变量B方差的多少。 因此,相关系数的意义(为正的情况)就是变量A可以解释变量B标准差的多少。 更直接的解释是,由于变量A的变动,变量B增加了C,而这C中有r的比例是因为变量A的变动造成的。 举例: 比如模型中责任心对工作绩效一般有10%的预测力,也就是说决定系数是0.1。因此,推论到上述直接的解释上,也就意味着某人工作绩效量增加了C,这C中有大约32%是因为某人责任心的增加而增加的。 ...
  第4部分:比较深度学习方式方法   你可能会问:为什么词袋模型更好? 最大的原因是,在我们的教程中,
  第3部分:词向量的更多的乐趣   Code 本教程代码第3部分住在这里。 https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_BagOfCentroids.py   数字表示的单词
  第二部分:词向量 Code 第2部分的教程代码住在这里。 https://github.com/wendykan/DeepLearningMovies/blob/master/Word2Vec_AverageVectors.py   引入分布式词向量 这部分的教程将重点关注使用分布式Word2Vec创建的词向量算法。(深度学习的概述
  第一部分:词袋模型   什么是NLP?   NLP(自然语言处理)是一组接近文本的技术问题。这个页面将帮助您开始使用加载和清扫IMDB影评,然后应用一个简单的袋子的话模型得到惊人的准确的预测评估是否赞成或反对。   在你开始之前 本教程使用的Python语言。如果你还没有使用Python之前,我们建议在前往泰坦尼克号竞争Python教程把你的脚弄湿(查看随机森林介绍当你)。如果您已经熟悉Python和基本的NLP技术,您可能想要跳到第2部分。   这部分的教程不是依赖于平台。在本教程中我们将使用不同的Python模块用于文本处理,深度学习,随机森林,和其他应用程序。详细 ...
  如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。通过运算决定系数R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。 R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0说明它完全无法预测目标变量;而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。_模型也可能出现负值的R2,这种情况下模型所做预测 ...
  Decision Tree 1. 什么是决策树 决策树是一个极其直观的算法(这也使得它的可解释性非常好),比如下面这个决策树   2. 基本决策树算法 从上面可以看出来这个形式非常的简单,那么如何生成一颗决策树?相信开始了nano degree并完成了P0的同学们都已经自己实现过一个决策树了,也就是大家做的Titanic的project,在第三个问题中,大家自己通过不断的选择特征,产看结果,最终得到了一个准确率超过80%的模型,这就是一个决策树。 可是这种方法明显是没有可扩展性可言的,大家可以体验到对于这么小的一个数据集大家都构建的很辛苦,并且准确率也不是太
  决策树模型 决策树的优点: 一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 四、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。 五、 易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 六、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 七、 可以对有许多属性的数据集构 ...
  误差原因 在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。我们会对两者进行更 ...
学习曲线 让我们根据模型通过可视化图形从数据中学习的能力来探讨偏差与方差之间的关系。 机器学习中的学习曲线是一种可视化图形,能根据一系列训练实例中的训练和测试数据比较模型的指标性能。 在查看数据与误差之 ...
  选择合适的指标 在构建机器学习模型时,我们首先要选择性能指标,然后测试模型的表现如何。相关的指标有多个,具体取决于我们要尝试解决的问题。 在可以选择性能指标之前,首先务必要认识到,机器学习研究的是如何学习根据数据进行预测。对于本课程和后续的“监督式机器学习”课程,我们将重点关注那些创建分类或创建预测回归类型的已标记数据。 此外,在测试模型时,也务必要将数据集分解为训练数据和测试数据。如果不区分训练数据集和测试数据集,则在评估模型时会遇到问题,因为它已经看到了所有数据。我们需要的是独立的数据集,以确认模型可以很好地泛化,而不只是泛化到训练样本。在下一课中,我们将探讨模型误差的一些常 ...
  用python自带的安装工具,pip install numpy scipy 等。如果没有pip的话,可以试试easy-install numpy scipy。打开cmd,在里面输入这些命令。 不想自己一个一个装的话,最简单的方法是安装python(x,y)套装,也可以考虑enthought套装   例子: pip install numpy
python读取文件 ###读取一行 filehand = open('C:\工作\字段整理.txt') line = filehand.readline() while line: print(line) print("=============") line = filehand.readline() ##读取全部 files = open('C:\工作\重要信息.txt') content =files.read() print(content) #一行一行遍历 files = open('C:\工作\重要信息 ...
Global site tag (gtag.js) - Google Analytics