機械学習の中でも、直感的に理解しやすい手法として知られているのが「決定木(Decision Tree)」です。
条件分岐を繰り返して結論を導く仕組みは、人間の意思決定プロセスにも近く、ビジネスやデータ分析の現場でも広く活用されています。
本記事では、決定木の基本的な仕組みから種類、メリット・デメリット、実務での活用ポイントまでをわかりやすく解説します。
決定木とは
決定木とは、条件に応じてデータを分岐しながら最終的な結果を導く木構造のモデルです。
構造は以下の3つの要素で成り立っています。
- ルートノード(根):最初の分岐点
- ノード(節):途中の条件分岐
- リーフノード(葉):最終的な結果や予測
例えば、「年齢」や「収入」などの条件によって、「購入する/しない」といった結果を導くことができます。
決定木の仕組み
条件分岐による分類・予測
決定木は、データに対して以下のような流れで処理を行います。
- 最も重要な特徴量でデータを分割
- 分割されたデータに対してさらに条件を適用
- これを繰り返し、最終的な結果に到達
このように、「もし〜ならば」というルールを積み重ねていくことで、分類や予測を行います。
分岐の決め方(重要ポイント)
実際の機械学習では、分岐はランダムではなく、以下のような指標に基づいて決定されます。
- 情報利得(Information Gain)
- ジニ不純度(Gini Impurity)
これらは「どの条件で分けると最もデータがきれいに分離できるか」を数値化したものです。
決定木の種類
決定木には主に2つのタイプがあります。
分類木(Classification Tree)
- カテゴリ(例:Yes / No)を予測
- 例:スパムメール判定、顧客の購買有無
回帰木(Regression Tree)
- 数値を予測
- 例:売上予測、気温予測
決定木のメリット
決定木は、他の機械学習手法と比べて扱いやすい点が多くあります。
1. 直感的で理解しやすい
ツリー構造のため、判断の流れが可視化できます。
- なぜその結論になったか説明しやすい
- ビジネス現場でも共有しやすい
2. 前処理が比較的少ない
- 数値データ・カテゴリデータの両方に対応
- スケーリング(標準化)が不要な場合が多い
3. 非線形データに強い
複雑な条件分岐により、直線では表現できない関係も捉えられます。
4. 外れ値に強い
極端な値があっても、分岐構造により影響を受けにくい特徴があります。
決定木のデメリット
一方で、注意すべき点もあります。
1. 過学習しやすい
- 分岐を増やしすぎると、学習データに過剰適合
- 汎化性能が低下する
対策:
- 木の深さを制限
- 剪定(プルーニング)を行う
2. 精度がやや劣る場合がある
単体の決定木は、SVMやニューラルネットワークと比べて精度が低くなることがあります。
3. 線形関係の表現が苦手
単純な線形関係の場合、他の手法の方が効率的に学習できることがあります。
実務での活用例
決定木はさまざまな分野で活用されています。
- マーケティング:顧客セグメント分析
- 医療:診断支援(症状から病気を推定)
- 金融:与信判断(融資の可否)
- ECサイト:購買予測
また、複数の決定木を組み合わせた手法(ランダムフォレストや勾配ブースティング)も広く使われています。
決定木を使うべきケース
以下のような場合に特に有効です。
- モデルの説明性が重要
- データの種類が混在している
- 前処理を簡単に済ませたい
- 非線形な関係を扱いたい
まとめ
決定木は、条件分岐を繰り返して結果を導くシンプルかつ強力な機械学習手法です。
ポイントを整理すると:
- ツリー構造で直感的に理解しやすい
- 分類・回帰の両方に対応
- 非線形データや混合データに強い
- 一方で過学習しやすく精度に限界がある
初心者にも扱いやすく、実務でも重要な役割を果たす手法です。
まずは決定木の仕組みを理解し、その後に応用手法へとステップアップすることで、機械学習の理解がより深まります。
こちらもご覧ください:カーネル法とは?SVMで非線形データを扱う仕組みとカーネルトリックを徹底解説

