自然言語処理(NLP)の分野では、単語を単なる文字列ではなく「意味を持つ数値」として表現する技術が重要な役割を担っています。
その代表例が「word2vec」です。
そして、word2vecの学習方式として広く知られているのが「CBOW(Continuous Bag-of-Words)」です。CBOWは、周囲の単語から中心となる単語を予測することで、言葉同士の意味的な関係を学習します。
現在の大規模言語モデル(LLM)と比較するとシンプルな構造ですが、単語の意味表現を大きく進化させた基礎技術として、自然言語処理の歴史において非常に重要な存在です。
本記事では、CBOWの仕組みや特徴、Skip-Gramとの違い、メリット・デメリットをわかりやすく解説します。
CBOW(Continuous Bag-of-Words)とは?
CBOW(Continuous Bag-of-Words)は、word2vecに採用されている学習手法の一つです。
簡単に言えば、
「周囲の単語から中央の単語を予測する」
という考え方に基づいています。
例えば、次の文章を見てみましょう。
公園で子供がボールを投げる
この文章の「子供」を中心語とし、前後の単語を文脈として利用するとします。
入力となる周辺語:
- 公園
- ボール
予測対象:
- 子供
CBOWでは、このような予測問題を大量の文章データに対して繰り返し学習します。
その結果、似た文脈で使われる単語同士が近いベクトル空間に配置され、意味的な関係性を獲得できるようになります。
CBOWの基本的な仕組み
周辺単語から中心語を推定する
CBOWの学習手順は次のようになります。
- 文中の中心語を決める
- 周辺の単語を取得する
- 周辺語のベクトルを統合する
- 中心語を予測する
- 誤差をもとにベクトルを更新する
ここで重要なのは、入力された周辺語の順序を考慮しない点です。
例えば、
空に白い雲が浮かぶ
という文があった場合、「雲」を中心語とすると、
入力:
- 空
- 白い
- 浮かぶ
出力:
- 雲
となります。
このとき、「空→白い→浮かぶ」という並び順そのものではなく、文脈全体をまとめた情報として処理します。
なぜ単語の意味を学習できるのか
CBOWは「分布仮説(Distributional Hypothesis)」という考え方に基づいています。
分布仮説とは、
同じ文脈で使われる単語は似た意味を持つ
という理論です。
例えば、
- 犬が走る
- 猫が走る
- 犬が眠る
- 猫が眠る
このような文章が大量に存在すると、「犬」と「猫」は似た環境で使われていることがわかります。
CBOWはこうした文脈情報を学習することで、「犬」と「猫」を近い位置のベクトルとして表現します。
これは辞書的な意味ではなく、「使われ方」から意味を理解している点が特徴です。
CBOWとSkip-Gramの違い
word2vecには、CBOWと対になる「Skip-Gram」という手法があります。
両者は予測方向が逆です。
CBOW
入力:
周辺語
出力:
中心語
例:
「空」「白い」「浮かぶ」→「雲」
Skip-Gram
入力:
中心語
出力:
周辺語
例:
「雲」→「空」「白い」「浮かぶ」
比較表
| 項目 | CBOW | Skip-Gram |
|---|---|---|
| 入力 | 周辺語 | 中心語 |
| 出力 | 中心語 | 周辺語 |
| 処理速度 | 速い | やや遅い |
| 計算量 | 少ない | 多い |
| 希少語への対応 | 弱い | 強い |
| 学習の安定性 | 高い | やや低い |
CBOWは処理速度を重視し、Skip-Gramは精度や細かな意味表現を重視する傾向があります。
CBOWのメリット
学習速度が速い
CBOWは複数の周辺単語をまとめて利用するため、学習効率が高い特徴があります。
大量データでも比較的短時間で学習できます。
特に以下のような場面で有効です。
- 大規模コーパスの学習
- 高速な前処理
- リアルタイム分析
頻出語に強い
頻繁に登場する単語は十分な文脈情報が得られるため、高品質な単語ベクトルを学習しやすくなります。
ニュース記事やSNSなど、一般的な文章では安定した性能を発揮します。
CBOWのデメリット
希少語に弱い
CBOWは文脈全体を平均化して扱います。
そのため出現回数が少ない単語では、十分な特徴を学習できない場合があります。
例えば、
- 専門用語
- 固有名詞
- 新語
などは表現が不十分になることがあります。
細かな文脈差を捉えにくい
入力単語を平均化する性質上、文脈の微妙な違いが失われる場合があります。
例えば、
- 銀行へ行く
- 川の土手(bank)
のような多義語は、同じ単語ベクトルとして扱われるため意味を区別しにくくなります。
こうした課題は、後のTransformerやBERTなどの文脈依存型モデルによって改善されました。
CBOWは現在でも使われているのか
近年はTransformer系モデルが主流になりましたが、CBOWが完全に使われなくなったわけではありません。
現在でも次のような用途で活用されています。
検索システム
単語の意味的近さを利用した検索
レコメンド機能
商品やコンテンツの類似性分析
文書分類
ニュース分類やレビュー分析
前処理用途
より大規模なAIモデルの特徴量作成
構造がシンプルで高速なため、実用面では依然として価値があります。
まとめ
CBOWはword2vecの代表的な学習方式であり、「周囲の単語から中心語を予測する」という仕組みで単語の意味を学習します。
ポイントを整理すると次の通りです。
- 周辺語から中心語を予測する手法
- 文脈情報から意味を学習する
- 学習速度が速く安定性が高い
- 頻出語の学習が得意
- 希少語や細かな文脈差には弱い
- Skip-Gramと並ぶword2vecの主要技術
現在の生成AIはより高度な文脈理解を実現していますが、その基盤にはCBOWのような技術があります。
自然言語処理の進化の流れを理解する上でも、CBOWは知っておきたい重要な技術の一つです。

