ネット上でもっと気軽に読める文書を増やしたい、こう思っている私sogoが勝手に始めたプロジェクトです。

青空文庫ファイルを物理量換算してみた。

  • HOME »
  • 青空文庫ファイルを物理量換算してみた。

青空文庫ファイルを物理量換算してみた。

ほんとはこの企画はもう少し後(「青空文庫の提案」は1997年7月7日に発表されている)に計算し公開する予定でしたが、「Code for 青空文庫」アイデアソン #1の開催が急遽発表されたため、それに合わせて発表してみました。

summary

  • 青空文庫公開ファイルの全容量は2,087,063,128byte(=1.94Gb)。
  • ただし「誰にでもアクセスできる自由な電子本」として公開したファイルはzipファイルで89,275byteであり、解凍すると837,992,760byte(=およそ799Mb)。
  • zipファイルから解凍し一番大きいファイルサイズになるテキストは「ねっこうまれのこびとたち」(オルファース ジビュレ・フォン著・大久保ゆう訳:27,399,698byte)である。
  • 大久保ゆう翻訳作品を除き、zipファイルから解凍し一番大きいファイルサイズになるテキストは「望岳都東京」(木暮理太郎著:4,896,482byte)である。
  • pngファイルを含まない、単独のテキストファイルとして一番大きいファイルサイズになるテキストは「道標」(宮本百合子著:1,742,057byte)である。
  • 「誰にでもアクセスできる自由な電子本」として公開したファイルを江戸川乱歩推理文庫一冊あたり448,852byteの数字で割ると、江戸川乱歩推理文庫1867冊分である。段ボール箱134箱分。
  • 青空文庫は1ヶ月に推理文庫およそ2冊分の電子ファイルを公開している。
  • 青空文庫は1日にコクヨ製キャンパス レポート箋(ドット入り罫線)のA4・普通横罫18枚分の電子ファイルを公開している。

青空文庫が日本における電子書籍、フリーカルチャーなどいくつものポイントにおいて最重要な、公共的な意味を持つサービス(YAMDAS現更新履歴より引用)であることはまちがいないのですが、では、いったいどれだけのことを成し遂げてきたのが、疑問に思ったので無謀にも計算してみました。

青空文庫の公開ファイルは、githubにおいて一括で公開されています。毎日更新されているようですが、公開ファイルのサイズを計算するために以下の手順を踏みました。

1.githubの公開ページから、右側の「Download Zip」ボタンを押してzipファイルを一括ダウンロード(なお、以下の計算には2015年5月14日にダウンロードしたzipを利用しています)。

2.ダウンロードしたzipファイルをすべて解凍。

3.解凍したファイルの中にある「cards」フォルダから、zipファイルのみ別フォルダに移動(コマンドは以下を利用、F:はUSB接続したHDDです)。

XCOPY C:\Users\Akio\Desktop\aozora_github\aozorabunko-master\cards\*.zip F:\aozoradata\*.zip /S

4.一括ファイル移動(フリーソフト)によりzipファイルをF:\aozoradataフォルダの直下に移動。

5.ファイさだ(フリーソフト)によりzipファイルを一括解凍。

6.diskinfo(フリーソフト)により解凍したファイルのファイルサイズ確認。

7.青空文庫新着情報から、テキストファイル(ルビあり)のzipファイルをダウンロードしてF:\aozoradataフォルダに解凍したテキストファイルを追加(2015年5月17日新規公開分まで追加)。

githubの公開ページからダウンロードし解凍したすべてのファイルサイズは2,087,063,128byte(=1.94Gb)ですが、これは青空文庫Webページ自体のHTMLファイルやらバナーのgifファイルやらいろいろ入っているので、そのなかにある「cards」フォルダのうち、zipファイルになっているテキストファイル(+添付されているpngファイル)を抜きだすことで、青空文庫が積みあげた公開ファイルの量を計算するのです。ちなみに、詳細は以下表にまとめました。

byteKb(1Kb=1024byte)mb(1mb=1024kb)gb(1gb=1024mb)
青空文庫githubからダウンロードしたファイル容量20870631282038147.5861990.3785021.943729006
うちcardsフォルダ内ファイル容量19516966021905953.7131861.2829231.817659104
青空文庫githubファイルからcardsフォルダのzipをぬいたファイル容量20869738532038060.4031990.2933631.943645862
青空文庫github内zip容量89275

これだけでは芸がないので、解凍したテキストについて、250位まで作品名や作者名、ファイル数などをdiskinfoと手作業で作成することにより、サイズが大きいファイルを確認してみました。その結果、zipファイルから解凍し一番大きいファイルサイズになるテキストは「ねっこうまれのこびとたち」(オルファース ジビュレ・フォン著・大久保ゆう訳:27,399,698byte)でした。なお、1位から27位までが大久保氏翻訳作品となったため、それを除いたファイルを見てみたところ、大久保氏翻訳作品を除き、zipファイルから解凍し一番大きいファイルサイズになるテキストは「望岳都東京」(木暮理太郎著:4,896,482byte)でした。また、pngファイルを含めて圧縮された公開ファイルは総合計サイズが大きくなることが予想されたため、pngファイルを含まないテキストで大きいファイルをさがしたところ、単独のテキストファイルとして一番大きいファイルサイズになるテキストは「道標」(宮本百合子著:1,742,057byte)でした。

その他詳細は、順位づけするために作成したgoogleスプレットシートにより以下に公開します。作品名や作者名は一個一個手作業でファイルを確認しつけなければいけないので、一万冊以上つけることはとてもできないので、これで勘弁してください。

https://docs.google.com/spreadsheets/d/1LqDxWV7IugUyEXwFFRItLWMVLlWnBzPFIO5FpjQg94k/pubhtml

さて、ファイルサイズをいくら計算しても、「本」としての量を感じることはできません。私が江戸川乱歩作少年探偵団シリーズを入力し一部挿絵とともに青空文庫用ファイルを作成したときには、江戸川乱歩推理文庫一冊あたり448,852byteでした。F:\aozoradataフォルダにおいたテキスト+pngファイルの総合計は837,992,760byteでした。従って、

837,992,760byte/448,852byte=1866.968979→1,867冊分

なお、4,896,482byte/448,852byte=10.908→10.9冊分なので「望岳都東京」(木暮理太郎著:4,896,482byte)は推理文庫10.9冊分。

1,742,057byte/448.852byte=3.881→3.8冊分なので「道標」(宮本百合子著:1,742,057byte)は推理文庫3.8冊分となります。

2015-05-20 22.04.44江戸川乱歩推理文庫は、テキストファイルを入力した底本をもとに計算すると23.8cm/13.75冊=2.09090…→一冊の厚みは2.09cm。具体的にはこんな感じ。

1、867冊を横にならべると1867×2.09=3902.03cm→3.9km。

この段ボール箱にいれたとすると、30.5cm/2.09cm=14.5933…→一箱に14冊はいるので、1867/14=133.357…→134箱ですね。

ちなみに、448,8852byteは青空文庫公開ファイルの順位で行けば165位と166位の間に入ります。かなり大きめではありますが、挿絵のpngファイルも含めた数字なので、電子ファイルが文庫本換算でどのくらいの量か大まかに把握するには適当な単位と考えています。詳細は以下。

ファイルサイズ順位ファイルサイズファイル数作品名著者1著者2
1624509511宮本武蔵/円明の巻吉川英治
1634504101思想と風俗戸坂潤
1644496121三国志/出師の巻吉川英治
1654489071渋江抽斎森鴎外
448852←推理文庫基準
1664476211思想としての文学戸坂潤
1674471011科学の不思議アンリイ・ファブル大杉栄、伊藤野枝
1684469141世界の一環としての日本戸坂潤
1694450832美ヶ原木暮理太郎

ところで、青空文庫は毎日1,2作品を「誰にでもアクセスできる自由な電子本」として新規公開しています。1ヶ月でどれくらいのファイルを公開しているのか、次の方法で計算してみました。

1.青空文庫新着情報(新規公開作品 2015年公開分)から、2015年4月18日から5月17日までの1カ月間に公開されたテキストファイルをダウンロードし解凍。

2.解凍したファイルをdiskinfo(フリーソフト)によりファイルサイズ確認。

1ヶ月分をまとめるとこうなりました(googleスプレットシートにより公開)。

総作品数44。ファイルサイズ総合計は877,681byte。2015年4月18日から5月17日までは30日間なので、1日あたりファイルサイズは877681byte/30=29256.03333…byte。

ファイルサイズ総合計を江戸川乱歩推理文庫一冊あたり448,852byteで割ると、877,681byte/448,852byte=1.955…→推理文庫2冊にすこし足らないくらい。

1作品あたりファイルサイズは29256.033byte。コクヨ製キャンパス レポート箋(ドット入り罫線)のA4・普通横罫が850文字(1行25文字×34行)なので全角文字が2byteと単純計算することとして、2倍の1700byte。29256.033byte/1700byte=17.209…→改行時1文字下げたり空白行作ったりすることをふまえてもコクヨ製キャンパス レポート箋(ドット入り罫線)のA4・普通横罫18枚分におさまります。

つまり、青空文庫は1ヶ月に推理文庫2冊分にすこし足らないくらいの電子ファイルを公開しており、また、1日にコクヨ製キャンパス レポート箋(ドット入り罫線)のA4・普通横罫18枚分の電子ファイルを公開しているのです。

青空文庫サーバの今と今後によると、青空文庫は現在エンジニアなしで5台のサーバを運用しており「サービスの全貌を把握しているひとがいない」とか「物理的老朽化が進行、サーバ機材の早急なリプレイスが必要」とか「現状ではDBサーバが飛ぶと青空文庫のデータ資産が失われるためとにもかくにもまずはバックアップを!」とかなかなか危険な状態でありますが、そんな状況下で推理文庫1867冊分の電子ファイルをすでに「誰にでもアクセスできる自由な電子本」として公開し、なおかつ1ヶ月に推理文庫およそ2冊分のファイル公開・1日にA4レポート用紙18枚分のファイルを公開しつづけているのは充分な偉業だと思います。

私はエンジニアでもプログラマーでもないため、そのような危機にアイデアを出すことはできないのですが、これからも継続的に電子ファイルを産みだしつづけることができるよう、「Code for 青空文庫」アイデアソン #1などでいいシステムができあがることを願っております。

2015.5.21