読書三昧(仮免) 禹歩の痛痒アーカイブ

乱読中年、中途と半端を生きる

山内長承『Pythonによるテキストマイニング入門』(2017)

チャンスが来たらテキストマイニングツールも使って作品分析、作家分析をやってみたいという望みを持っているので、状況調査として本書を読んでみた。一番有効な記述はデータ準備の部分。ツールを適切に使うために、事前に電子テキストを整形するためのコード例をのせている。青空文庫のテキストデータからルビ、先頭コメント、字下げコメントを除去するモジュールだ(p44-45のリスト2-8)。前処理が必要な場合、その部分の工数を見誤ると(特に日本語作品の場合)、作業計画が破綻したり、気持ちが萎えてしまうので、注意喚起という意味でもこのモジュールの存在はとてもありがたい。電子テキストはそれぞれに方針があるので、自分が利用する電子テキストに合わせてカスタマイズして利用すればよい。

しかし、テキストマイニングの実施の問題として、前処理以前に日本語の無料電子テキストが貧弱だという悲しい現状がある。この手の解説書で電子テキストとして出てくるのは青空文庫のみ。日本語はアルファベットを利用した言語と違い、OCR(光学的文字認識)を利用して電子化するには向いていない言語なので、電子化のコストがとても高い。他言語の電子テキストのラインナップと比較するととても悲しくなる。

そんな中、前近代の作品については、バージニア大学図書館エレクトロニック・テキスト・センターとピッツバーグ大学東アジア図書館が推進している「日本語テキスト・イニシアティヴ」の事業は大変貴重。
以下からアクセスできる。

jti.lib.virginia.edu

Pythonのツールを使わなくても、エクセルのフィルター機能やテキストエディタの串刺し検索などを利用して、このみの単語や表現、読み手を抽出することも可能なので、利用してみるのも手だと思う。

 

shop.ohmsha.co.jp

山内長承
1975 -