`
韩悠悠
  • 浏览: 828383 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

机器学习中学习曲线与模型复杂化

阅读更多
学习曲线
让我们根据模型通过可视化图形从数据中学习的能力来探讨偏差与方差之间的关系。
机器学习中的学习曲线是一种可视化图形,能根据一系列训练实例中的训练和测试数据比较模型的指标性能。
在查看数据与误差之间的关系时,我们通常会看到,随着训练点数量的增加,误差会趋于下降。由于我们尝试构建从经验中学习的模型,因此这很有意义。
我们将训练集和测试集分隔开,以便更好地了解能否将模型泛化到未见过的数据而不是拟合到刚见过的数据。
在学习曲线中,当训练曲线和测试曲线均达到稳定阶段,并且两者之间的差距不再变化时,则可以确认模型已尽其所能地了解数据。
 
 
学习曲线
偏差
在训练误差和测试误差收敛并且相当高时,这实质上表示模型具有偏差。无论我们向其提供多少数据,模型都无法表示基本关系,因而出现系统性的高误差。
方差
如果训练误差与测试误差之间的差距很大,这实质上表示模型具有高方差。与偏差模型不同的是,如果有更多可供学习的数据,或者能简化表示数据的最重要特征的模型,则通常可以改进具有方差的模型。
 
 
理想的学习曲线
模型的最终目标是,误差小并能很好地泛化到未见过的数据(测试数据)。如果测试曲线和训练曲线均收敛,并且误差极低,就能看到这种模型。这种模型能根据未见过的数据非常准确地进行预测。
 
 
模型复杂度
与学习曲线图形不同,模型复杂度图形呈现的是模型复杂度如何改变训练曲线和测试曲线,而不是用以训练模型的数据点的数量。一般趋势是,随着模型增大,模型对固定的一组数据表现出更高的变化性。
 
 
 
学习曲线与模型复杂度
那么,学习曲线与模型复杂度之间有何关系?
如果我们获取具有同一组固定数据的相同机器学习算法的学习曲线,但为越来越高的模型复杂度创建几个图形,则所有学习曲线图形均代表模型复杂度图形。这就是说,如果我们获取了每个模型复杂度的最终测试误差和训练误差,并依据模型复杂度将它们可视化,则我们能够看到随着模型的增大模型的表现有多好。
 
 
模型复杂度的实际使用
既然知道了能通过分析模型复杂度图形来识别偏差和方差的问题,现在可利用一个可视化工具来帮助找出优化模型的方法。在下一部分中,我们会探讨 gridsearch 和如何微调模型以获得更好的性能。
 
分享到:
评论

相关推荐

    哈工大机器学习作业一——多项式拟合曲线.zip

    在物体识别和智能驾驶领域,机器学习可以通过训练模型来识别图像和视频中的物体,并实现智能驾驶等功能;在市场营销领域,机器学习可以帮助企业分析用户的购买行为和偏好,提供个性化的产品推荐和定制化的营销策略。...

    ml_scikit-learn_tensorflow:机器学习,深度学习,数据科学

    O'Reilly Media) github.com/kayfay/handson-ml中的每一行代码都逐行回顾,复杂化和应用,直接从作者那里派生出来尽早停止训练线性模型。使用逻辑函数训练线性模型。用学习曲线训练线性模型。用欠拟合的学习曲线...

    Python机器学习算法库scikit-learn学习之决策树实现方法详解

    例如,在下面的例子中,决策树通过一组if-then-else决策规则从数据中学习到近似正弦曲线的情况。树越深,决策规则越复杂,模型也越合适。 决策树的一些优势是: 便于说明和理解,树可以可视化表达; 需要很少的...

    menrva:Python机器学习平台

    用于监督机器学习的Python平台 三层平台 纠缠:合并,重塑,提取特征**当前不可用 建模:预处理,培训和评估)**正在开发中 服务:分层服务和管理模型**服务可用 1-数据整理 易于合并,重塑和自动特征工程。 2-建模 ...

    l-曲线matlab代码-ViscoelasticIterativeExtraction-Cells:帕维尼,卡塔赫纳-里维拉和索拉雷斯手稿“

    如主文档中所述,此代码使用AFM力曲线信息来参数化复杂程度不同的粘弹性模型。 然后分析最佳参数集,并可以从粘弹性谐波量(存储模量,损耗模量和损耗角)如何随频率变化得出结论。 粘弹性参数提取方法已在文献(,...

    【MATLAB工具箱集锦】- Qhull(二维三维三角分解、泰森图)凸包工具箱 2019版.zip

    14 模式识别与机器学习工具箱 15 ttsbox1.1语音合成工具箱 16 分数阶傅里叶变换的程序FRFT 17 魔方模拟器与规划求解 18 隐马尔可夫模型工具箱 HMM 19 图理论工具箱GrTheory 20 自由曲线拟合工具箱ezyfit 21 分形维数...

    web-science:WebScience 是一个开源库,用于构建基于浏览器的研究,包括 Rally

    推进基于浏览器的研究方法的最新技术,例如通过提供复杂的模型来让用户关注 Web 内容,并为浏览器内的网页机器学习分类提供基础设施。 鼓励研究人员在实施研究时练习数据最小化。 支持与对基于浏览器的研究有价值的...

    TensorBoard基础篇

    在众多机器学习库中,Tensorflow是目前唯一自带可视化工具的库,这也是Tensorflow的一个优点。学会使用TensorBoard,将可以帮助我们构建复杂模型。这里需要理解“可视化”的意义。“可视化”也叫做数据可视化。是...

    大数据技术及应用题库.doc

     被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . ...

    多媒体教室

    在教室模型空白区点右键弹出菜单中包括允许与此操作同时进行的操作与此操作的终止选项。如屏幕广播时菜单如下: 在单个学生机点右键弹出菜单与选择多个学生机的右键菜单会根据具体情况有变化,具体参见各功能的说明...

    大数据技术及应用题库.docx

     被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. . 感测技术 b. . 微电子技术 c. . 计算机技术 d. . 通信技术 大数据技术及应用题库全文共14页,当前为第...

    Tinyxml 源代码(VC6 & VS2005)

    有其它解析器(到www.sourceforge.org搜索一下XML)具有更加全面的特性,但它们也就更大,需要花更长的时间来建立你的项目,有更陡的学习曲线,而且经常有一个更严格的许可协议。如果你是用于浏览器或者有更复杂的...

    基于AT89S52 单片的频率计

    数字集成电路广泛用于计算机、控制与测量系统,以及其它电子设备中。 一般说来,数字系统中运行的电信号,其大小往往并不改变,但在实践分布上 却有着严格的要求,这是数字电路的一个特点。 2 系统的总体设计: 2.1 ...

Global site tag (gtag.js) - Google Analytics