読書三昧(仮免) 禹歩の痛痒アーカイブ

乱読中年、中途と半端を生きる

末吉美喜『テキストマイニング入門 ExcelとKH Coderでわかるデータ分析』(オーム社 2019)

本業技術職系読書。

いまの私がはたらいてお金をいただけるのは、Java,JavaScript系各種言語,XML,VBA,VB,C#,SQL, PL/SQL,その他マイナープログラミング言語数種と、プロジェクトマネジメント系各種スキルによるものであります。

50前半、あと10年くらいははたらく必要があり、必要がなくてもはたらいていた方が精神バランス上いいこともあり、自分の関心領域が収益に結び付けばラッキーと、そこそこ流行りの技術にも目を向けてみる次第ではあるのですが、根っからの反動的(反抗的)保守志向により、なかなか新しい技術にのめり込めないでいます。現状必要がないうところが一番大きいのですが、そこを超えて(生活に悪影響が出ない程度に)自分にマッチした技術に出会いたいなあ、とも思うのであります。

本格的に関心が芽生える前にもある程度の準備運動はしておくべきということで、文学研究の基礎にもなるであろう日本語ベースのテキストマイニングの書籍を読んでみました。

これまでにも、この領域における著作は何冊か読んではいるのですが、読みっぱなしで手を動かすこともメモを取ることもなく過ごしてしまっていて、ちゃんとした蓄積になっていないので、今回はメモを残して、ちょっとだけ素地づくり、地盤づくり。

本書はネット上の投稿やアンケートのテキスト情報分析に関する基礎的手順を案内した書籍。
全データを読まないことを前提としたデジタルな統計処理の効率的利用に関する書籍。

例えば私的関心上の文芸作品批評に結びつけるとするならば、全作品を読んだことを前提として、あらゆる鑑賞者が明示的に作品傾向を見ていない部分に関して、発掘することに役立てるという使い道はあるのでしょう。

ただ、その領域に到達するまでのステップはかなりのものになります。

1. 集合的な作品群の特定とそれに対する興味
2. 全作品を読んでの個人的見解の生成
3. 数種観点からのテキストマイニング
4. 予想と結果の差異による新たな見解へのヒント取得
5. 調査結果分析と過去の批評との差分分析、自身の印象との差分分析
6. 差分をベースにした批評・論考の作成・執筆

とりあえず何かをテスト的に選択してみるという段階において、私は1の「集合的な作品群の特定とそれに対する興味」を考えている最中に保留(あるいは挫折)してしまう傾向がはなはだ強いと感じています。「古今集」でも「貫之集」でも「友則集」でも「新古今和歌集」でもとりあえず興味を持っているもので実践してみたらいいのに、失敗や無駄が怖くて何もやらないでいます。

この投稿が何らかのきっかけとなって、普段とは違う行動が出てきたら、それはかなり儲けものでしょう。

shop.ohmsha.co.jp

【目次】
はじめに
第1部 テキストマイニング 基礎編
 第1章 テキストマイニングとは
 第2章 テキストマイニングで実現できること
 第3章 気軽に始めるテキストマイニング
 第4章 テキストデータを準備する
 第5章 KH Coderで伝える! 分析アウトプット5選
 第6章 分析の精度を高める! データクレンジング
第2部 テキストマイニング 実践編
 第7章 アンケートのテキストマイニング
付録
A.1 Jaccard係数の計算方法
A.2 先輩おすすめの参考書籍
索引

【付箋箇所】
26, 42, 82, 89, 98, 129, 139, 145, 146, 185, 189