手入力したテキストファイルに対する覚え書き
私が青空文庫用にテキストファイルを入力する時には、すべて手入力で入力しています。入力及び校正において、OCRで作業をすればだいぶ楽になるのだとは思うのですが、個人的に本を裁断するのに抵抗があるのと、OCRで作業するための環境を構築する手間や金をかけるのが引っ越しを常に考える1人暮らしには難しかったので、すべて手入力で入力しています。この先も、今まで通り手入力で入力することでしょう。
手入力は手間がかかって大変です。私の経験上、長編を手入力すると、それだけで2カ月近くは暇な時間を入力に費やす必要があります。ちなみにここで言う長編とは、文庫本1冊程度の長さの物語を指します。毎日コツコツ1日2時間を投入できればいいのでしょうが、人間はそこまで機械的な作業をするのは不向きです。環境を整えられるならOCRで作業することをお勧めいたします。
しかしながら、OCR入力に向いていない底本を使って入力することが多いので、私自身はこれからも手入力で入力していくことでしょう。
以下aozorablogにて公開されている「青空文庫の作業に使っている機材」へのコメントより引用。
OCR向きの底本
・比較的よい印刷:誤認識が減ります。
・ルビ少なめか、ルビが漢字から離れている方がよい:ルビがあったり漢字の近くに組まれていると確実に誤認識します。これはスキャンの解像度をあげると改善出来るのかな? ちなみに旧字/新字はどちらでも問題ありません。ただ、旧字は総ルビが多いので。
・文字がべたっと全ページにわたって組まれていても大丈夫:手入力にありがちな一行飛ばし等はありません。
・1ページあたりの文字数が少ないものはスキャンの苦労の割に報われません(詩集など) 手入力向きの底本 ・印刷時期によらず可能 ・ルビが多い、または漢字にルビが密着しているような底本(古い全集モノは、これが多いです。直木三十五全集、長谷川時雨全集など) ・詩集などのページあたりの文字数の少ないもの ・割り注などの多用してある底本
さて、手入力で入力すると、どうしても誤入力が付き物です。これはどれだけ慎重に入力してもつきまといます。ですが、どのような間違いがどれだけ混じるのか、あまり実例がないように感じました。そこで、私が入力した経験から、どういう間違いがどれだけの数発生するのか、一つの実例をここに書き残しておきます。
【作業の内容とその期間】
青空文庫用にイスレール・ザングヴィル著「ボウ町の怪事件」を提供する為に、2013/01/13から2013/02/12にかけて入力作業を行い、その後、入力誤りを確認する為に2013/02/18から2013/03/8にかけて、校正作業を行った。
【入力誤りの内容】
1.言葉や文章を抜かして、あるいは重複して入力したもの
【誤】とにかく、死の前日には→【正】とにかく、彼は死の前日には
【誤】計画《たくらみ》を、どうあっても→【正】計画《たくらみ》を、劇的な構成の中に立てる、千載一遇の機会を、どうあっても
【誤】その反対に、小生はあれが実に立派な独創性に富むものと思うのです。その反対に、小生はあれが実に立派な独創性に富むものと思うのです。→【正】その反対に、小生はあれが実に立派な独創性に富むものと思うのです。
2.同じ読みを持つ熟語との入力誤り
【誤】その意気(景気に意気があるとすれば)→【正】その意気(計器に意気があるとすれば)
【誤】モートレーク死の借りている→【正】モートレーク氏の借りている
【誤】『自分の眼鏡で者を見る者』諸氏が→【正】『自分の眼鏡で物を見る者』諸氏が
3.同じ漢字を持つ熟語との入力誤り
【誤】この季節のガス代が→【正】この節季のガス代が
せっき【節季】の意味(goo国語辞書dictionary.goo.ne.jpより)《季節の終わりの意から》1 年末。歳末。《季 冬》2 盆や年末、または節句前の、掛け売買の決算期。
【誤】でも、貴方はこんな惨めな所に→【正】でも、貴女はこんな惨めな所に
【誤】外側から鍵を廻す事は→【正】外側から錠を廻す事は
4.送り仮名の振り方による入力誤り
【誤】額から後に撫でつけた→【正】額から後ろに撫でつけた
【誤】長い取引なんだから→【正】長い取引きなんだから
【誤】手柄を繰り返し繰り返し→【正】手柄を繰返し繰返し
5.漢字を平仮名に、平仮名を漢字に、それぞれ入力誤り
【誤】アーサ・コンスタント氏と話を決める時に→【正】アーサ・コンスタント氏と話をきめる時に
【誤】経験という強みをお持ちの→【正】経験という強味をお持ちの
【誤】顔色も活き活きしていた。→【正】顔色も活きいきしていた。
6.句読点、疑問符などの入力誤り
【誤】洗濯屋の店でさえも、それから、労働者たちは→【正】洗濯屋の店でさえも。それから、労働者たちは
【誤】ドラブダンプ夫人《さん》さもないと→【正】ドラブダンプ夫人《さん》、さもないと
【誤】どうしたのであろう?→【正】どうしたのであろう。
7.話し言葉の入力誤り
【誤】「私にまかしておきき」→【正】「私にまかしておおき」
【誤】ほかに方法はないんですもの→【正】ほかに方法はないのですもの
【誤】貸して[#「貸して」に白丸傍点]るんですよ→【正】貸し[#「貸し」に白丸傍点]てるんですよ
8.固有名詞の入力誤り
【誤】ラミニード巡査部長は→【正】ラニミード巡査部長は
【誤】ウエスト・エンドも→【正】ウェスト・エンドも
【誤】『レイルトン・アンド・ボックス』の→【正】『レイルトン・アンド・ホックス』の
9.日本語変換によって打ちこんだ入力が入力誤りとなったもの
【誤】グレーと・アセンブリ・ホールで→【正】グレート・アセンブリ・ホールで
【誤】二週間たってから投函して→【正】二週間たってから投凾して
【誤】科学的な分析のもと→【正】科学的な分析[#「分析」は底本では「分折」]のもと
10.思いこみによる入力誤り
【誤】時と場所をえらばず→【正】時と所をえらばず
【誤】鎖は錬えぬいた鎖で→【正】鎖は錬えぬいた鋼で
【誤】正確な観察に対する大きな障害→【正】正直な観察に対する大きな障害
11.青空文庫の注記の入力誤り
【誤】行われは時期はもう少し→【正】行われは時期は[#「行われは時期は」はママ]もう少し
【誤】社会に役立つ、とは→【正】「社会に[#「「社会に」は底本では「社会に」]役立つ、とは
【誤】さし金[#「さし金」に白丸傍点]を→【正】さし金[#「さし金」に傍点]を
12.空白や改行を誤って入力したもの
【誤】[#地から2字上げ] (改行)『自分の眼鏡で→【正】[#地から2字上げ] 『自分の眼鏡で
【誤】黙っていると思うのか?僕は君の→【正】黙っていると思うのか?_僕は君の
13.その他(なぜこんな入力をしたのだろう…)
【誤】朝食を読んでグロドマンは→【正】朝刊を読んでグロドマンは
【誤】彼の周囲が死刑囚の政治的見解に基く→【正】彼の頑固が死刑囚の政治的見解に基く
手入力で入力すると、大体こんな感じの入力誤りをすることになるんですよね。ちなみにその数、161箇所。これは、イスレール・ザングヴィル著「ボウ町の怪事件」の入力ファイルにおける文字数118,429文字のおよそ0.135%にあたります。OCR入力だと、本文の誤認識率は0.6%、ルビの認識には難ありかというところだそうなので、ルビがあったり汚れがあったりする原稿から入力するのであれば、OCR入力するよりは、手入力の方が正確な入力が期待できるものと思います。
とはいえ、時間と体力に余裕がないとなかなか長編の手入力はできないので、OCR入力による入力も、作業環境が構築できる人はぜひお願いいたします。
SOGO_e-text_library責任編集。Copyright(C)2013 by SOGO_e-text_library
この文章はCreative Commons 表示 2.1 日本 Licenseによって公開されています。上記のライセンスに従って、訳者に断りなく自由に利用・複製・再配布することができます。
This Page by SOGO_e-text_library is licensed under a Creative Commons 表示 2.1 日本 License.