音声認識や音声合成、話者識別などの音声AI技術では、人間の声に含まれる特徴を数値として分析しています。その中でも特に重要なのが**フォルマント周波数(Formant Frequency)**です。
私たちは「あ」「い」「う」などの母音を無意識に聞き分けていますが、コンピュータにとって音声は単なる波形データです。
そのため、人間のように音の違いを理解するには、音声の特徴を数値化する必要があります。
フォルマント周波数は、その音の特徴を表す重要な指標の一つであり、音声AIの基盤技術として幅広く利用されています。
本記事では、フォルマント周波数の基本概念から、母音との関係、分析方法、AI技術への応用まで分かりやすく解説します。
フォルマント周波数とは
フォルマント周波数とは、人間の発声時に声道(口や喉の通り道)の共鳴によって強調される周波数の位置を指します。
人間の声は、単純に声帯の振動だけで決まるわけではありません。
発声の流れを簡単に整理すると次のようになります。
声帯が振動
↓
音が声道を通過
↓
特定の周波数が強調される
↓
言葉として聞こえる
このとき生じる周波数ピークを「フォルマント」と呼び、そのピークの位置を数値化したものがフォルマント周波数です。
F1・F2・F3とは何か
フォルマント周波数には複数のピークがあります。
低い周波数から順番に名前が付けられています。
- 第一フォルマント周波数(F1)
- 第二フォルマント周波数(F2)
- 第三フォルマント周波数(F3)
- 第四フォルマント周波数(F4)
中でも特に重要なのがF1とF2です。
母音を区別する際、この2つが非常に大きな役割を果たします。
F1は口の開き具合を反映する
F1は主に舌の高さや口の開き方と関係しています。
一般的な傾向は次の通りです。
- 口を大きく開く → F1が高くなる
- 口を閉じる → F1が低くなる
例えば「あ」の発音では口を大きく開くため、F1が高くなります。
F2は舌の位置を反映する
F2は舌の前後位置と強く関係しています。
特徴は以下の通りです。
- 舌が前方 → F2が高い
- 舌が後方 → F2が低い
例えば「い」は舌を前方へ寄せるため、F2が高くなる傾向があります。
母音はF1とF2の組み合わせで決まる
日本語には基本的に5つの母音があります。
- あ
- い
- う
- え
- お
これらはF1とF2の組み合わせによって識別できます。
イメージすると次のようになります。
| 母音 | F1 | F2 |
|---|---|---|
| あ | 高い | 中程度 |
| い | 低い | 高い |
| う | 低い | 低め |
| え | 中程度 | 高い |
| お | 高い | 低い |
AIはこうした特徴パターンを学習し、母音を認識しています。
人間の脳も実際には似た仕組みで音を聞き分けていると考えられています。
スペクトル包絡との関係
フォルマント周波数を理解するには、スペクトル包絡という概念も重要です。
スペクトル包絡とは、音声の周波数成分全体を滑らかにつないだ曲線です。
フォルマント周波数は、この曲線上に現れるピークとして観測されます。
イメージ:
▲F2
/ \
▲F1 / \ ▲F3
____/ \__/_____\___/____
つまり、
- スペクトル包絡 → 声全体の形
- フォルマント周波数 → 山の頂点位置
という関係になります。
フォルマント周波数はどうやって求めるのか
実際の音声は常に変化しています。
そのため音声処理では、数十ミリ秒程度の短い区間(フレーム)ごとに分析します。
代表的な手法が**線形予測分析(LPC:Linear Predictive Coding)**です。
LPCでは、声道の共鳴特性を数式としてモデル化し、次の情報を抽出します。
- フォルマント周波数
- 共鳴特性
- 帯域幅
現在でも音声分析や音声圧縮分野で広く利用されています。
個人によってフォルマント周波数は異なる
同じ「あ」を発音しても、人によって完全には同じ数値になりません。
なぜなら声道の構造が異なるためです。
影響する要素:
- 声道の長さ
- 口腔の大きさ
- 喉の形状
- 性別
- 年齢
例えば一般的に子どもは声道が短いため、フォルマント周波数が高めになる傾向があります。
この違いは個人識別にも利用されています。
AI・音声技術での活用事例
フォルマント周波数は、さまざまなAI技術で利用されています。
音声認識
AIが音声を文字へ変換する際の特徴量として利用します。
処理の流れ:
音声入力
↓
スペクトル分析
↓
フォルマント抽出
↓
音素推定
↓
文字認識
話者識別・音声認証
個人ごとの声道差を利用し、人物を識別します。
利用例:
- 音声認証
- コールセンター本人確認
- 生体認証
音声合成・音声クローン
AIが特定人物の声を再現する際にも利用されます。
再現可能な要素:
- 声質
- 話し方
- 個人の癖
- 声の個性
近年の音声クローン技術では重要な要素となっています。
まとめ
フォルマント周波数は、人間の声道で生じる共鳴ピークの位置を示す重要な音声特徴量です。
特にF1とF2は母音認識の中心的役割を担っています。
ポイントを整理すると以下の通りです。
- フォルマント周波数は共鳴ピークの周波数位置
- F1とF2が母音識別に重要
- 舌や口の形状と密接に関係する
- スペクトル包絡上の山として現れる
- 話者識別や音声認識、音声合成で利用される
生成AI時代では、人間らしい音声理解と再現がますます求められています。
フォルマント周波数は、その根幹を支える重要技術として今後も注目されるでしょう。

