茶筌で形態要素解析ができるようになったので。
このブログの自分の投稿より名詞を取り出して単語出現頻度を出してみた。
今回は思いつくままに処理したのでええ加減。
で見つかった2257単語中、上位の結果(数字の単位は”個”出現頻度)
上位4つは意味なし、なので1位は仕事
仕事、、、
し、仕事、、、
ぁあぁ、、、
あ、アカン、ここに書いたらまた頻度が上がる、、、
名詞のみ抜きだせばいいから形態要素の解析は必要ないかもね。
とにかく現状ではおかしな単語が拾われるので
IT用語、CG用語で辞書を強化して、あと検索部分を見直してからからリベンジ!
以下は実行手順。
MySQLより投稿のみテキストファイル(post.txt)にダンプして、
select post_content into outfile 'post.txt' from wp_posts;
以下を実行。
sed -e 's/<[^>]*>//g' -e 's/.$//' post.txt grep 名詞-一般 awk '{print $1;}' awk '{for (i = 1; i <= NF; i++)freq[$i]++}END {for (word in freq)printf "%s\t%d\n", word, freq[word]}' sort -k 2 -nr > result.txt
HTMLタグを取り除き、改行をLFにする。”名詞-一般”属性の項目を取り出して属性部分を削除。
出現頻度をカウントして、頻度の高い順にソート。
改行されているが実際にはパイプで通してイッキに実行。