つーわけで、今学期の全てのテスト&提出レポートが終りました♪ \(^▽^)/ ほっほっほ☆ さーてがんばって(←?)身体サンをしっかりと休めたいと思います。目指せ10時間睡眠!! なにはともあれ、CDレンタルしてカラオケ行ってプログラミングして・・・あー、すでに前途多難(笑)。
閑話休題。wavとmp3の音質と容量の話。
人間の可聴周波数は一般に20Hz 〜 20kHz といわれる。この周波数帯をカバーするためには・・・(メンドクサイ人は飛ばしてください。)
|
・・・ナイキストの標本化定理よりサンプリングレート44.1kHzが必要になる。いわゆる音楽CDの音質がこれで、音楽CDの規格では、音量を16bitで表現しているので、ステレオであれば必要な情報量は44.1kHz × 16bit × 2 = 44100[1/s] × 16[bit] × 2 = 1.38 × 1000 [Kbit/s]となる。ただし、1 [Kbit] = 1024 [bit] とします。
|
一分当たり1.38 × 1000 [kbit/s] × 60 = 10.1 [MByte/min] ものデータ量が必要となる。これがWindows であればwavという形式になる。音楽CD上ではCDDAという形式だが情報量はほぼ一緒なので、単純計算で750MBのCD-Rでは74分、650MBでは64分が書き込める最大時間となる。実際はもう少し数分少ないかな、データの管理形式とかで食われるから。
そこでmp3の登場となるわけだ。その圧縮方法は『人間に聞こえない音を落とす』という非可逆圧縮なのだが、この言い方は『一応』正しい。うん、間違ったことは言ってないし。でもせっかくなので以下ではそこをもう少し突っ込んでみる。(興味ない人は飛ばしてくださいな。)
|
Mpeg系列、ひいてはjpeg系列だからフーリエ変換でもしてるんでなかろうかと思って調べたら、やっぱりしてました『修正離散コサイン変換(MDCT)』とやらを。まー、フーリエ変換の仲間ってことでスルー。周波数空間で表現すればドラムとか規則的な音の情報はかなり圧縮できると思われ。他に大きな音の中で小さな音がかき消されることを利用して、その小さな音を落としたりしているらしい。んー、周波数分布に偏りがあるときに、凹んでいる部分をより一層へこませるって事か。うわーイジメ(笑)。そして人間の耳は、可聴域ではあるもの20Hz〜60Hz、16kHz〜20kHzの範囲の音への感度が低いことを利用してその周波数域の強度を落とす、つまり精度を落とす。特にこの高音域を削るときの圧縮率が大きい模様。サンプリングレートが周波数の上限で決まることから、それは当然だね。上限が下がればサンプリングレートも小さく出来る。定性的に。そんなこんなで大体1/10(〜1/12)くらいまで圧縮できるとのこと。1/10として、情報量は1.37 [Mbps] /10 = 141 [kbps] になるね。
|
一般にCD並みの音質といわれる128kbpsについて圧縮率を10倍として計算してみると、音量表現に16bitでステレオならその2倍の32bit使うので、サンプリングレート 128/32 × 10 = 40kHz に対応する罠。てーことはナイキストの定理より表現可能周波数の上限は20kHz。人間の可聴域はほぼカバーしていることになるわけか。かなり概算だけどそんな感じ。実際に周波数で測定した人の話によると256kbpsで周波数空間で見てもCDとほぼ見分けがつかなくなるらしい。ちなみに、聞こえてないはずの20Hz以下の低音とかの有る無しですら音質は変わるらしいので、実際は複雑だねぇ。 (@_@)
参考サイト:http://www3.big.or.jp/~schaft/member/synapse/compression/body.html
http://www.page.sannet.ne.jp/komamura/BitRato.htm
|