な〜。後10時間で納品。修正も返ってくるんだろなぁ。
終われば28日、2日納品、3つとも別件だ。
4日から新規始まる。稼ぎ時とはいえキツイなぁ。
と、つまらんこと書いててもしゃーないので、前回のKeyword cloud制作時の解析辞書の強化手順の記録。
ChaSenの辞書を強化してみる。
まずは元からある辞書をコピー。/usr/share/chasen/dicにipadicがあるのでこれをコピーして使用する。
/usr/share/chasen/dic$ cp -r ipadic/ ~/extradic/
以下を使って辞書形式にする。
/usr/share/chasen/dic/extradic$ awk '{print "(品詞 (名詞 一般)) ((見出し語 ("$1" 1000)))";}' tmp > itkeyword.txt > itkeyword_pre.dic
1000は適当。「形態素生起コスト」って言うらしい。
出来た辞書を見ると’#’の入ったおかしな行が見つかったので削除。
$ sed -e '/^#/d' itkeyword_pre.dic > itkeyword.dic
辞書のコンパイルは以下のような感じで
/usr/share/chasen/dic/extradic$ usr/lib/chasen/makeda itkeyword itkeyword.dic
同ディレクトリにあるchasenrcを修正する。
-(GRAMMAR /usr/share/chasen/dic/ipadic) +(GRAMMAR /PATH2DIC_DIR/extradic) -(DADIC chadic) +(DADIC chadic extra)
以降この設定ファイルで起動する場合は-rオプションを使用する。
$ chasen -r ~/extradic/chasenrc