in the mythosil

Rhythm & Biology.

DNAストレージの容量

digital universe(地球上で生成されるデータ全体)は、2017年に16ゼタバイトと予測されている。
一方で、保存可能なキャパシティはすでに生成されるデータに間に合わなくなっている。

http://www.idc.com/downloads/where_is_storage_infographic_243338.pdf

このような背景により、廉価に大容量を保存可能なコールドストレージ(磁気テープとか)が注目されているが、その1技術として研究が進んでいるのがDNAストレージである。

www.technologyreview.jp

newswitch.jp

出回ってる記事の中には「1gあたり1ゼタバイト保存可能」と書かれているものがあるが、どういう計算でこの数字が出てくるか。

1塩基の平均質量は325Da。これをg(グラム)にすると以下の通り。

 { \displaystyle
325 \times (1.66054 \times 10^{-24}) = 5.396755 \times 10^{-22}
}

塩基は4種類(A,T,G,C)あり、2bit/塩基(= 0.25byte/塩基)と考える(あとで書くがこの考えは誤り)。

1gあたりのデータ量を計算すると、約0.46ZBとなる。「1gあたり1ゼタバイト保存可能」は言い過ぎと分かる。

 { \displaystyle
1.0 \div (5.396755 \times 10^{-22}) \times 0.25 \approx 0.4632 \times 10^{21}
}

で、実はこの計算は誤りで、「塩基対」という形で存在するため実際は2bit/塩基"対"。要するに、この半分のデータ量となる。

さらに、実際のDNAは複製時にエラーが発生したりするため、誤り訂正符号を含めたり冗長化して保存したりする。 したがって、実際の情報密度はさらに低くなる。

今年3月にScienceに出たコロンビア大学とニューヨーク・ゲノム・センターによる論文では、DNA Fountainという新しい手法で高密度化を達成したとされるが、この手法で実現可能な情報密度は1gあたり215PBとされている。

DNA Fountain enables a robust and efficient storage architecture | Science

理論値との乖離はまだまだ大きいが、今後が楽しみな技術なので追っていきたいと思う。