な〜。後10時間で納品。修正も返ってくるんだろなぁ。
終われば28日、2日納品、3つとも別件だ。
4日から新規始まる。稼ぎ時とはいえキツイなぁ。

と、つまらんこと書いててもしゃーないので、前回のKeyword cloud制作時の解析辞書の強化手順の記録。

ChaSenの辞書を強化してみる。

まずは元からある辞書をコピー。/usr/share/chasen/dicにipadicがあるのでこれをコピーして使用する。

/usr/share/chasen/dic$ cp -r ipadic/ ~/extradic/

辞書を作るここでは単語を改行で区切ったテキストデータitkeyword.txtを
以下を使って辞書形式にする。

/usr/share/chasen/dic/extradic$ awk '{print "(品詞 (名詞 一般)) ((見出し語 ("$1" 1000)))";}' tmp > itkeyword.txt > itkeyword_pre.dic

1000は適当。「形態素生起コスト」って言うらしい。

出来た辞書を見ると’#’の入ったおかしな行が見つかったので削除。

$ sed -e '/^#/d' itkeyword_pre.dic > itkeyword.dic  

辞書のコンパイルは以下のような感じで

/usr/share/chasen/dic/extradic$ usr/lib/chasen/makeda itkeyword itkeyword.dic

設定ファイルchasenrcを修正
同ディレクトリにあるchasenrcを修正する。

-(GRAMMAR  /usr/share/chasen/dic/ipadic) 
+(GRAMMAR  /PATH2DIC_DIR/extradic) 

-(DADIC        chadic) 
+(DADIC        chadic extra) 

以降この設定ファイルで起動する場合は-rオプションを使用する。

$ chasen -r ~/extradic/chasenrc

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です