リアルがプライベートのほうで忙しくて最近全然ブログ更新できてなかったので少しだけ更新する。
会社でテキストマイニングが話題になってたので少しだけ試してみた。
以下の記事を参考にして最初の動きを確認するところだけやってみた。
- コード
from janome.tokenizer import Tokenizer t = Tokenizer() tokens = t.tokenize(u'これはペンです。') for token in tokens: print (str(token))
- 実行結果
これ 名詞,代名詞,一般,*,*,*,これ,コレ,コレ は 助詞,係助詞,*,*,*,*,は,ハ,ワ ペン 名詞,一般,*,*,*,*,ペン,ペン,ペン です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。
サンプルコードそのまま実行してみようとしたらPython 2とPython 3の違いを忘れてて
少しつまずいた。
これ使って何か分析とか試してみたい。