监督学习
监督机器学习问题主要有两种问题,分别为叫作:分类(classification)和回归(regression)
- 泛化:在测试集上成功预测的能力。
- 过拟合和欠拟合:过于拟合训练集上的数据,过于选择简单的数据,最佳的模型应该是两者中间,才会使泛化能力最强。
- 模型复杂的与数据集大小的关系:数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下你可以使用的模型就越复杂。
收集更多数据,适当构建更复杂的模型,对监督学习任务往往特别有用。
一些样本数据集
一个模拟的二分类数据集示例forge数据集,它有两个特征。下列代码将绘制一个散点图,将此数据集的所有数据点可视化。