Story of my life

日常に転がる疑問を掘り下げるだけ掘り下げて放置

テキストマイニングをやってみよう!「人間椅子」編

f:id:no3b312:20211123224358j:plain

あなたはテキストマイニングという言葉をご存知でしょうか?

 

 

申し訳ありません、実は私も専門的なことはよく知りません。

 

 

めちゃくちゃざっくり説明させていただきますと…

 

 

文章の中に含まれる動詞とか名詞とかを自動で検索して、どういう言葉が多いのかを解析する、というツールです。

 

 

先日、自分の書いた文章にはどんな言葉が多いのだろう、という疑問を持ちました。

 

 

しかし当然のことながら、手動でやるには効率が悪すぎる、じゃあ何かいいソフトはないかと調べてみたところ、このテキストマイニングとやらの存在にたどり着いたわけです。

 

 

誰でも無料で使えるので、暇つぶしに使ってみてください、結構面白いですよ。

textmining.userlocal.jp

 

ではてっとり早く実践してみます。

ご存じの方も多いと思われますが、青空文庫という著作権の切れた小説などを整理しているサイトがあります。

 

 

ここから私の好きな人間椅子という小説をコピーして、テキストマイニングしてみたいと思います。以前レビューも書いたことがあります。

no3b312.hatenablog.com

 

この小説、一言で言うのならめちゃくちゃ気持ち悪い小説です。

レビューにも書いていますが、読んだ後は椅子に座るのが怖くなります。

 

 

そういった小説をテキストマイニングして丸裸にしてみるとどうなるのか、結果はこちら。

 

f:id:no3b312:20211123224942p:plain

頻度の高い単語が大きく表示されるのですが、奥様とか肉体醜いとか、禍々しい単語のオンパレード。ポジティブな言葉がほとんどありません。

 

この表示を見ただけでやばそうな小説だという事がわかるかと思います。

 

 

f:id:no3b312:20211123225515p:plain

頻出単語。

奥様とか肉体とかいう言葉がちょいちょい出てきますが、官能小説ではありませんので。

 

 

 

f:id:no3b312:20211123224830p:plain

名詞と形容詞のつながりです。ほぼほぼネガティブな組み合わせ。

 

 

ていうか昔の小説だからおもはゆいとかあじきないとか意味不明な形容詞が多いのがまた不気味さを際立たせております。

 

 

まとめ

テキストマイニングというツールの使い方をざっくり説明してみましたが、いかがだったでしょうか。

 

 

そう、誰もがお気付きの通り、はっきりいって意味はありません。

頻出単語や組み合わせがわかったところでどうなるんだ、という疑問は各々で考えてみてください。

 

 

しかし何となく文章の傾向などがわかるので、自分の書いたブログをテキストマイニングしてみるとまた何か得られるものがあるかもしれません。多分ないでしょうが。

 

 

これからまたこのツールでくだらない企画を考えておりますので、お楽しみに!

 

 

では最後に江戸川乱歩の「人間椅子」のレビューを載せておきます。

無料で読めますので、お時間のある方はぜひ読んでみてくださいね。

no3b312.hatenablog.com