千家信息网

【机器学习】(3)拟合度与最大似然估计

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,在大致了解了机器学习的算法分类(监督式、非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题。一、最小二乘法的拟合度监督式学习中一类典型的应用就是回归问题,基本的就是线性
千家信息网最后更新 2025年12月01日【机器学习】(3)拟合度与最大似然估计

在大致了解了机器学习的算法分类(监督式、非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题。

一、最小二乘法的拟合度

监督式学习中一类典型的应用就是回归问题,基本的就是线性回归,即用一条直线去逼近训练集合。最小二乘法就是根据已有的训练集样本来确定拟合度最好的函数 曲线。但是由于选择一个什么样的曲线是人工决定的,而不同的曲线又具有不同的性质,从而导致不同函数模型使用最小二乘法的拟合度是不同的。以一个m个样本 的房屋价格和大小数据M为例,我们可以选择线性回归(用一条直线模拟),也可以选择使用一个三次曲线来模拟(存在上下峰值),但是最好的拟合或许是一个二 次曲线(抛物线)。对于一个本身分布近似抛物线的训练集来说,线性拟合明显是"欠拟合"的,而三次曲线则是"过拟合"的,效果都不如抛物线要来的好。所以 说,即便是监督式学习的回归问题,也存在一个拟合度的把握,而这非常依赖于研究人员自身的经验。这类函数模型确定后运用最小二乘法拟合的方法称作参数学 习,其要点是在训练学习前已经有了关于函数模型的一个判断(参数的个数是确定的);但是还有一类情况,训练集很复杂,我们很难直接假设一个模型,因此参数 的个数也许是随着样本集动态变化的,这类问题称作非参数学习。我们的方法是采用局部加权回归。

二、局部加权回归

对于线性回归问题LR来说,对于给定的假设函数H(X,θ),我们的目标是找到θ使得(H(X,θ)-Y)的平方最小,其实也就是要求针对已知训练集M来说H(X,θ)与样本的偏差最小,最后返回θ

对于局部加权回归LWR来说,找到θ使得的值最小,其中的权值的意义在于,当我们测试一个新的样本值的时候,距离测试属性最近的一些样本训练集将发挥作用,权重较大,而距离该位置较远的样本值的影响则较小。因此局部加权回归的做法就是每次只使用新的数值位置附近的训练样本来进行拟合,每次计算都需要针对所有的训练集进行拟合。

三、最大似然概率

上述算法可以用最大似然概率进行推导,由于涉及较多的数学公式,这里不再证明。借着这个机会来复习下最大似然概率的知识。最大似然概率可以用来解决非参数模型的回归。其主要的思想就是,将含参数的概率函数H(X,θ)看作是θ的函数,当X已知的时候,就意味着从全体样本中随机抽出了m个样本,假设它们都是独立的,那么我从一个样本集中随机抽出这m个样本的概率应该是它们的概率乘积P(θ);若存在一个这样的函数假设模型,则这个模型中的参数θ应当使得P的值最大,即重新抽出这m个样本的可能最大。然后用这个似然估计去代替真实的θ。

这里讲的未免过于简单,详细的内容可以参考CSDN博友的文章:最大似然估计总结


样本 训练 最大 函数 最小 参数 概率 模型 学习 曲线 就是 问题 不同 乘法 局部 线性 监督 抛物线 算法 选择 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库快速开发软件 水质数据库 变电站网络安全验收 黑龙江软件开发定制近期价格 中小学生网络安全签名 数据库的关键字和约束怎么用 静安区营销软件开发咨询热线 自动刷视频挂机软件开发复杂吗 多玩3.35数据库 刑事警官学院网络安全 网络安全等级测评资质要求 网络安全事件反思检查 阿里巴网络技术广州分部 进入服务器远程管理显示空白 蚌埠直播平台软件开发哪家好 免流服务器要不要ipv6 泰安联想服务器总代理零售商 软件开发合同英文 河北潮流软件开发价格服务标准 网络安全管理什么公安岗位 可以做外汇的软件开发 网上比较热门的网络技术 中信软件开发中心总经理 高一网络技术与应用目录 网络安全法有什么法律调整 临汾网络安全作业 数据库上机实验实验8报告 上海银行软件开发薪酬 财务软件开发技术 三国杀什么服务器都可以一起玩吗
0