音声認識の鍵、メル周波数ケプストラム係数
人は、耳に入ってくる様々な音を聞き分けていますが、どのようにして聞き分けているのでしょうか?音の高低、強弱、そして音色。これらが複雑に組み合わさって、私たちが日常的に耳にする様々な音を識別することを可能にしています。
音の高低は、音の振動の速さ、つまり周波数によって決まります。高い音は周波数が高く、低い音は周波数が低いのです。例えば、太鼓を強く叩くと高い音が出ますが、これは太鼓の皮が速く振動しているためです。逆に、弱く叩くと低い音が出ます。これは皮の振動が遅いからです。
音の強弱は、音の振動の大きさ、つまり振幅によって決まります。大きな音は振幅が大きく、小さな音は振幅が小さいのです。例えば、トランペットを強く吹くと大きな音が出ますが、これは空気が大きく振動しているためです。逆に、弱く吹くと小さな音が出ます。これは空気の振動が小さいからです。
そして音色は、音の波形の違いによって決まり、楽器の音や人の声の違いを聞き分ける上で重要な役割を果たします。同じ高さ、同じ大きさの音であっても、ピアノの音とバイオリンの音は違いますよね?これは、それぞれの楽器が出す音の波形が異なるためです。
この音色の特徴を捉える技術の一つに、メル周波数ケプストラム係数というものがあります。これは、音のスペクトル包絡、つまり音のエネルギーがどのように分布しているかという特徴を数値列で表したものです。例えるなら、音の指紋のようなもので、それぞれの音に固有の数値列のパターンが得られます。この技術は、人の声を認識するシステムや、音を分析する様々な場面で活用されています。