逻辑回归

是什么逻辑回归?

Logistic回归与复杂的线形的回归确实有很多相同的之处,最大的分袂是它们的因变数两样。,另一体根本相同的。。正因如此的,这两种回归可以相信执意同一体家族,整体的线形的样板(整体的线形的样板) 样板)。

为了家庭的的样板根本似。,分歧是因变量是两样的。。

  • 即便是延续的,执意复杂的线形的回归;
  • 即便是两个散布,执意Logistic回归;
  • 即便是泊松散布,执意Poisson回归;
  • 即便它是负二散布,执意负二项回归。

Logistic回归的因变数可以是二分级的,它也可以是一体多分级。,但这两种分级更为经用。,它也更轻易解说。。因而现实中最经用的执意二分级的Logistic回归。

Logistic回归的次要用途:

  • 寻觅机会混乱:获得知识一种不健康的机会混乱,如此云云。;
  • 预测:次要成分样板,预测是在两样的孤独变量的条款下举行的。,不健康或条款的概率是多少?;
  • 判别:实则,这一些类似地预测。,它亦鉴于样板的,决定一体人害病或在一种条款下的可能性性。,这执意为了人的可能性性。。

Logistic回归次要在流行病学中勤勉较多,一体更共有权的条款是摸索一体不健康的机会混乱。,鉴于机会混乱的不健康概率预测,如此云云。比如,胃癌产生的机会混乱讨论,你可以选择两组人,一组为胃癌组,一组为非胃癌组,两组人霉臭有两样的成绩和生活。。此处的因变数是胃癌。,那是是或过失,幅角可以包含很多,比如,年纪、性生活、饮食习惯、幽门螺杆菌传染等。。幅角可以是延续变量。,它也可以被分级。。

例行的试图贿赂

回归成绩的常客试图贿赂是:

  1. 寻觅H作用(即假定);
  2. 构造的J作用(费用作用);
  3. 想办法使得J作用最小并求得回归限制因素(θ)

体系预测作用H

Logistic回归纵然名字里带“回归”,但确实这是一种分级方式。,它次要用于两个分级成绩(也执意说,尽管T)。,分袂代表两个类别),乃,运用Logistic作用(或S型作用)。,作用电视节目的总安排为:

Sigmoid 效能是一体罕有的美丽的S形。,列举如下图所示(源自维基百科):

 

左面的生动的是一体线形的方针决策开拓的。,右图是一体非线形的方针决策开拓的。。


上线形的开拓的的加盖于,开拓的的电视节目的总安排列举如下:

体系预测作用:


作用等于具有特别的意思,它表现取1的树或花草结果的概率。,乃,将输出X分级为类别1和类别0的概率。:


体系费用作用J

本钱作用和J作用列举如下,它们是在极大似然估价的依据导出的。。



上面是衍生加工的详细的描述方法。:

(1)可以写成表格。:

取似然作用为:


对数似然作用:


最大似然估价是询问变憔悴θ,实则,梯度法可以用来处理为了成绩。,所增强的θ是所需的姣姣者限制因素。。尽管,在安得烈 在NG加工中把它作为下一体,即:


因负系数- 1 / m乘以,因而采取最小的θ是需求的姣姣者限制因素。

梯度瀑布法的最小的

θ使更新加工:

theta使更新加工可以写成:

 

数字化矢数字化

矢数字化采取矩阵运算代表包围运算。,稀释计算加工,高处效率。

如上式,希腊字母表的第十八字母(…)是一体乞和的加工。,很显然,需求一体for结算单来包围M次。,乃不注意完整实施矢数字化。。

矢数字化加工的描述方法:

商定的一系列相关的事情材料的矩阵电视节目的总安排列举如下,X的每个行动的锻炼范本,每个列的值两样。:

G(a)的限制因素A是列航向。,乃,当G作用时,列航向应被背衬作为限制因素。,反复列航向。从上可知可由一次计算。

θ使更新加工可以更反而:


归纳起来,θ使更新后的矢数字化试图贿赂列举如下:

(1)追求

(2)追求

(3)追求

常客化常客化

过装置成绩

当作线形的回归或逻辑回归的费用作用形状的样板,可能性有很复杂的量。,有些分量很小。,招致由于装置(由于装置锻炼材料),高处样板的不均一,泛化能耐差(预测未知材料的能耐)。

上面的左图被低估了,方法图形的恰当装置,右图是过装置。


成绩的次要原因

由于装置的成绩再三来源于这样的特点。。

处理方式

1)增强特点定量。,即便为了特点是精致的选择的。

2)常客化(当特点较多时更无效)

常客化方式

常客化是体系风险最小战略的实施,在经历风险中增强了一体常客化项或惩办项。。常客化项普通是C样板的单调的递加作用。,样板越复杂,常客化项越大。

从房价预测成绩谈起,这次采取的是同次多项式回归。左图遵从的装置,右图是过装置。


眼睛的自己去看,即便we的所有格形式想处理为了样板切中要害过装置成绩,最好能解释感染,也执意说,让。假定we的所有格形式是对的举行惩办,使它很小,一体复杂的处理办法是对原始本钱作用加两个小惩办。,比如:


这是最小本钱作用的时辰。,

合格的可以采取两样的电视节目的总安排。,在回归成绩中取平方费用,一体限制因素的L2标准,也可以采取L1标准。当平方费用时,样板的费用作用被改变为:


λ是一体常客项系数:

  • 即便它是一体宏大的等于,对样板不均一的描述方法是一体宏大的惩办。,装置材料减少的惩办很小,因而它将不会超越材料,锻炼材料的偏角较大。,未知材料的小方差,但可能性会涌现一种不合宜的景象。;
  • 即便它的等于很小,解说更注意锻炼材料的装置,锻炼材料的偏角会很小。,但这可能性会招致由于装置。。

常客化后梯度瀑布算法的使更新:


常客化后的线形的回归的Normal 方程的表情是:


停止优化组合算法

  • Conjugate gradient method(共轭的梯度法)
  • Quasi-Newton method(拟牛顿法)
  • BFGS method
  • L-BFGS(Limited-memory BFGS)

后二者由拟牛顿法解释出现,与梯度瀑布算法比拟,这些算法的优点是:

  • 最重要的,不需求手工生产的选择步长;
  • 第二的,通常比梯度瀑布算法快;

尽管缺陷是更复杂。

多类分级成绩

上多类分级成绩,它可数数两类分级成绩。:保存在内地一体,剩的是另一体班。

每堂课 i 锻炼一体逻辑回归样板的分级器,预测Y = i的概率;当作一体新的输出变量x, 每个类分袂举行预测。,取概率最大的引出各种从句类作为分级树或花草结果:


发表评论

电子邮件地址不会被公开。 必填项已用*标注