機械学習の基本アルゴリズムの一つに**k近傍法(k-Nearest Neighbors:k-NN)**があります。
シンプルな仕組みながら、分類・回帰の両方に対応できる柔軟な手法として、教育から実務まで幅広く活用されています。
本記事では、k近傍法の仕組みや特徴、メリット・デメリット、実務での活用ポイントまでを分かりやすく解説します。
k近傍法とは何か
k近傍法とは、未知のデータに対して、既存データの中から「最も近いk個」を参考にして予測を行う手法です。
基本的な考え方
- 似ているデータは似た性質を持つ
- 近くにあるデータを基準に判断する
この「近さ」を利用して、分類や数値予測を行います。
k近傍法の仕組み
k近傍法では、予測時に次のような処理を行います。
基本の流れ
- 未知のデータ点を入力
- 学習データとの距離を計算
- 最も近いk個のデータを選択
- その情報をもとに予測
分類タスクの場合
選ばれたk個のデータが持つラベルの多数決で決定します。
例
- 近傍データ:犬、犬、猫 → 予測結果:犬
回帰タスクの場合
選ばれたk個のデータの数値の平均を予測値とします。
例
- 近傍データの価格:100万円、120万円、110万円
- 予測結果:約110万円
距離の計算方法
k近傍法では「どれくらい近いか」を測るために距離を計算します。
主な距離指標
- ユークリッド距離(直線距離)
- マンハッタン距離(格子状の移動距離)
一般的にはユークリッド距離がよく使われますが、データの性質によって使い分けます。
kの値が重要な理由
k近傍法では、「kの値」が予測精度に大きな影響を与えます。
kが小さい場合
- ノイズや外れ値の影響を受けやすい
- 過学習(オーバーフィッティング)になりやすい
kが大きい場合
- ノイズの影響は減る
- クラスの境界が曖昧になりやすい
最適なkの決め方
一般的には、**交差検証(クロスバリデーション)**を使ってデータに最適な値を選びます。
k近傍法の特徴(怠惰学習)
k近傍法は「怠惰学習(Lazy Learning)」と呼ばれるタイプのアルゴリズムです。
特徴
- 学習時にモデルを作らない
- 予測時にすべての計算を行う
- 新しいデータ追加に柔軟に対応可能
つまり、「覚えるだけで、考えるのは後回し」というイメージです。
メリットとデメリット
メリット
- アルゴリズムがシンプルで理解しやすい
- 分類・回帰の両方に対応可能
- 非線形なデータにも対応できる
- 追加データに対して再学習が不要
デメリット
- データ量が増えると計算が遅くなる
- 距離計算のコストが高い
- 次元が増えると精度が低下しやすい(次元の呪い)
- 特徴量のスケールに影響されやすい
実務での活用ポイント
k近傍法を効果的に使うためには、いくつかの工夫が重要です。
精度向上のコツ
- 特徴量の正規化(スケーリング)を行う
- 不要な特徴量を削除する(特徴量選択)
- 適切な距離指標を選ぶ
- kの値をチューニングする
高速化の工夫
k近傍法は計算コストが課題となるため、以下の方法が使われます。
- **kd木(k-d tree)**などのデータ構造を利用
- 近似近傍探索(Approximate Nearest Neighbor)の活用
活用事例
k近傍法は、さまざまな分野で利用されています。
主な用途
- 画像認識(類似画像検索など)
- レコメンドシステム(似たユーザーの行動を参考に推薦)
- 異常検知(通常と異なるデータの発見)
- 医療データ分析
まとめ
k近傍法(k-NN)は、シンプルで直感的な機械学習アルゴリズムであり、以下の特徴があります。
- 近いデータをもとに予測する手法
- 分類・回帰の両方に対応
- 実装が簡単で理解しやすい
一方で、計算コストや次元の呪いといった課題もあるため、データの前処理や高速化の工夫が重要です。
機械学習の基礎を学ぶうえでも、実務での比較モデルとしても非常に有用なアルゴリズムといえるでしょう。
こちらもご覧ください:多クラス分類とは?機械学習で複数カテゴリを予測する仕組みと代表手法を解説

