监督式/无监督式学习

监督式学习

定义

训练数据经过标注包含素所需解决方案(标签或标记)

相关算法

  • K-邻近算法
  • 线性回归
  • 逻辑回归:广泛用于分类,输出“属于某个给定类别的概率”的值
  • 支持向量机
  • 决策树和随机森林
  • 神经网络

适应场景

  • 分类任务
  • 预测变量

无监督式学习

定义

训练数据未经标注

相关算法

  • 聚类算法
    • K-平均算法
    • 分层聚类分析
    • 最大期望算法
  • 可视化和降维
    • 主成分分析
    • 核主成分分析
    • 局部线性嵌入
    • t-分布随机临近嵌入
  • 关联规则学习
    • Apriori
    • Eclat

适应场景

  • 通过聚类算法检测相似(层次聚类算法精度更高,可以再次细分)
  • 可视化算法
  • 降维:不丢失太多信息的前提下简化数据,方法之一是合并特征,过程叫做特征提取
  • 异常检测:判断新的输入是正常还是异常,数据初筛、防作弊等
  • 关联规则学习:发现属性之间有趣的联系

半监督式学习

大量未标记数据和少量标记数据进行学习。

强化学习

观察环境、作出选择、执行操作、并获得回报(负值则为惩罚)。

批量学习和在线学习

在数据流中进行增量学习。

批量学习

在线学习

在线学习也称为增量学习,同时支持恢复到上一状态,便于检测到性能下降及时中断和回滚。

核外学习

超大数据集超出一台计算机的主存储器,每次加载部分数据并不断重复直至完成训练。

学习率

学习率高系统迅速适应新数据,同时快速忘记老数据,学习率低则反之。

基于实例和基于模型的学习

基于实例的学习

系统完全记住学习示例,然后通过某种相似度度量方式将其泛化到新的实例。

基于模型的学习

模型选择

观察数据得出模型的过程。

衡量模型表现

  1. 定义效用函数(或适应度函数)来衡量模型有多好
  2. 定义成本函数来衡量模型有多差

线性回归通常选择成本函数来衡量线性模型的预测和训练实例之间的差距。

线性回归算法的意义所在:通过你提供的训练样本,找出最符合所提供数据的线性模型的参数,这就是训练过程。