Skip to content

算法图解 - K 最近邻算法

🏷️ 《算法图解》

K 最近邻 (K-nearest neighbours, KNN) 算法

1. 特征抽取

  • 抽取特征

  • 根据特征绘图

  • 计算距离

    • 使用毕达哥拉斯公式

      (x1x2)2+(y1y2)2
    • 特征更多时仍然使用相同的计算公式

      (a1a2)2+(b1b2)2+(c1c2)2+(d1d2)2+(e1e2)2
  • 结果越小则表示特征越相似

2. 回归(regression)

  • 分类就是编组

  • 回归就是预测结果(如一组数字)

3. 挑选合适的特征

机器学习

OCR 光学字符识别(optical character recognition)

  1. 浏览大量的文字图像,将这些文字的特征提取出来(训练(training))

  2. 遇到新图像时,提取该图像的特征,再找到它最近的邻居是谁。

小结

  • KNN 用于分类和回归,需要考虑最近的邻居

  • 分类就是编组

  • 回归就是预测结果(如数字)

  • 特征抽取意味着将物品转换为一些列课比较的数字

  • 能否挑选合适的特征事关 KNN 算法的成败