音声コーデックについて学ぶ　その1

この記事の趣旨
そもそもコーデックとは
音声情報のデジタル化

この記事の趣旨

　最近はもっぱらSpotifyで音楽を聴くことが多い*1のですが、あるときMVをYoutubeで見ようと思いたって、いつも使っているイヤホンでいつも聴いている曲の動画を再生をしたら、なぜだか圧倒的に音が良いことに気づきました。いや、好みの問題かもしれませんが……兎にも角にも、「最高音質」であるはずのSpotifyを遥かに凌駕する細かい音のニュアンスをYoutubeの音源からは感じました。

　もしやSpotifyとYoutubeでは音源の圧縮率などが異なるのでは？そう思っていろいろと調べたことをまとめていきます。仕事がら音のことを自分で説明せにゃあかんシーンがいずれ来るので、そのときのためのノートづくりがてら。素人記事なので、あまり信用しないでください。ただし、音の専門的な知識を持たない人たちでもわかるように書いていこうと思います。

そもそもコーデックとは

nvr.bz

　株式会社システム・ケイ様のブログが、猿でもわかるレベルに噛み砕いて説明してくれていました。

　つまるところ、音声や動画をデジタルファイルとして保存するにあたって、ありのままの状態だと非常に容量が大きくて困ります。ゆえに、いろいろな方法で圧縮・再生をする必要が出てくる……この「いろいろな方法」というのが「コーデック」ということらしい。

　今じゃ携帯端末で動画を見るなんて当たり前過ぎて、動画の容量がいかに巨大かを感じるシーンは少ないと思います。が、実際のところ動画というのは、パラパラ漫画のように画像を重ねていき高速でスライドショーをしているようなものです。したがって、何も考えなしに動画をつくろうとすると、1枚1枚の画像の容量をそのまま掛け算することになり、その動画はとてもじゃないが保管しがたい容量に。それほど高精細でなくとも、綺麗な画像は1枚2MBぐらいにはなるので、60fpsの動画をつくろうとすると

2MB×60sec=120MB

たったの1秒で120MBの容量。10秒だと1.2GB。1分で7.2GBの化物じみた容量の動画が完成する。もちろん動画は音声の情報も含まれるので、この数字よりももっと大きな容量になることが伺えます。ともすれば何も対策をしない限り、動画ファイルというものは文字通りアホみたいな容量のデータになります。

　そこで登場するのがコーデック。いろいろな意味があるらしいけれども、この音声・動画のことに限っていえば「圧縮・変換の方式」と言って差し支えないでしょう。どのように動画に圧縮を行うかというと、たとえば画像と画像（フレームとフレーム）の間にある絵の動きや色を予測して補完したり、あるいは人間の視覚情報で得られない範囲を削ったりすることで、最終的な容量を少なくする、らしい*2。もちろん動画として再生するときには何らかのアプリケーションが必要になるので、それぞれの再生ツールに適した方式で変換を行う必要があります。

音声情報のデジタル化

　今までは動画のお話だったので、じゃあ音声についてどのようなことをしているか……を考える前に、そもそも音声のデジタルデータ化について考えなきゃいけません。*3

　まず音というのは本来空気の振動で、音をデジタルデータ化するにあたっては、その空気の振動を数字のパラメータとして変換する作業が必要になります。たとえば、ある歌をCDにデジタルデータとして録音しようとしたとき、マイクや録音機材を使うとしましょう。マイクは、簡単に言ってしまうと、音源から伝わる空気振動を電気信号に変換していて、録音機材（デジタルに限る）は送られてきた電気信号を数字に変換して保存しています。

　電気信号は波形として捉えることができるのですが、これをデジタル化するにあたっては、この波形を数字の値として保存しなくちゃいけません。それをどのように行うかは、CDの表記から考えると比較的わかりやすいかと思います。たとえばCDの音源について表記を確認したとき「16bit / 44.1kHz」というような数字を見たことがあるかもしれません。実はこの数字は「CDに入っている音源がどのくらい元の音に忠実なのか」を表しています。

　ものすごく簡単に言ってしまうと、bitは音のニュアンスの細かさ、Hzは音の連続性を示しているようなもので、いずれにせよ元の音に対する忠実度を示していると言えるのです。

より具体的に言うと

bit：2進数を用いて、音の情報をどれだけ細かく保存しているか

Hz：1秒間のうちに何回音（波形）をデータとして残す＝サンプリングするか

ということをそれぞれ示しています。

　つまり、16bitというのは「音の高低や強弱を2の16乗＝65536分の数字で保存している」ことを表しています。また、44.1kHzというのは「1秒間に音（波形）を44100回分きざんでサンプリング」していることを表しています。したがって、CDは「1秒間に44100回分、音の高さや強弱を65536段階のパラメーターで保存している音源」が保存されている。ほんとにざっくりいうと、そういうこと。

次回は音声コーデックの種類と違いについてまとめます。

文章だけだとわかりにくいので、そのうち図表とかも作って載せようかな……などと考えています。

内容に間違いがあればぜひ教えてください。

ところでOfficeのHome Use Program復活まだですか？

*1:プレミアムアカウントでありながら音質を最高音質にしていない人がいたら、すぐに音質の設定を変更するといいと思います。世界が90度くらいは変わるので。

*2:詳しい技術的なことは私もチンプンカンプン。要勉強

*3:まるで音声の方だけデジタル化する前の話を考えないといけないような書き方をしてしまったけれども、本来であれば動画のコーデックについても動画のデジタルデータ化を理解しなければいけないのだと思う。

When you wish upon うた

歌に願いを

音声コーデックについて学ぶ　その1

この記事の趣旨

そもそもコーデックとは

音声情報のデジタル化