Webチェックページ管理CGI

3月のお仕事終了〜。チェックバックとスケジュールの都合で徹夜しまくりな状態になってしまってた。後は納品とか編集室でダベって終わり。企業審査会もあるわ。

ってコトで、以前に書いたWebチェックページ自動生成CGI(案)の作成を進める。

ファイルアップロードとその管理を出来るだけシンプルに出来るように考える。

設置についてはプロジェクト毎に、読み書き実行が出来るディレクトリを作成して実行ファイル”index.php”とファイルを収納するディレクトリ”files/”をつくればOK。初期設定ファイルも必要で、暗号化した管理者パスワードを書いたphpファイルもあらかじめ作成、設置しておく。

管理画面は、とにかく”files/”にアップロードされたファイルをリストアップしてそれぞれ項目分けやコメント、HTMLへ表示/非表示が出来るようにする。ユーザ管理機能、項目管理機能も必要かな。それらを初期設定ファイルへ保存するようにする。

SQLは使わない、XMLもパースするのがメンドイんで初期設定ファイルはphpファイルで、PEARも環境によってインストールされているかどうか分からんので使わない。

以上、すごいシンプル。1日でできるんじゃない?PHPのリファレンスを5ページも読めば出来るような気がしてきた。

Ajaxを使ったり、テンプレート機能がつくと更にええ感じになるけど、まぁ取りあえずはこんなもんで。


Eclipse3.1

Eclipseアイコン
ActionScriptだのProcessingだのをなんか適当に継続してやってるとJavaもいけるんじゃないかと思えてきた。取りあえずEclipse3.1をインストール。Eclipse上でPHPの開発環境を作ったり、Flashの開発も出来るらしいのでコッチが本命かも。

MacOSXにインストールするので情報が少ないかなと思ったけど、この記事にするまでもなく完了。

Eclipse downloads homeよりMacOSX用バイナリをダウンロード。アクセスしたPCに合わせてダウンロードファイルを選んでくれるみたい。解凍してアプリケーションフォルダへ入れればおしまい。

Language Packs: 3.1.x
より日本語化パックをダウンロード。NLpack1_FeatureOverlay-eclipse-SDK-3.1.1.zipとNLpack1-eclipse-SDK-3.1.1a-gtk.zipの2つ。MacOSはLinux用を入れるみたい。それぞれ解凍し、Ellipseの実行ファイルと同階層にある”features”,”plugins”へ追加すれば完了。Windowsも同じ、日本語化パックはWindow用を使うこと。

チュートリアルも日本語化されるので、いい感じ。


siteadvisor

siteadvisor
Webページの信頼性を知らせてくれる、ブラウザ機能拡張。FirefoxとIEで使用可。

サイトアラート
閲覧中のページを信頼度に応じてグリーン、イエロー、レッドで警告してくれる機能。
Google, Yahoo! or MSNの検索結果にも評価を付加してくれる機能。
詳細表示では、スパイウェアやアドウェアのダウンロードを含むサイトかどうか等も閲覧可能。

怪しいサイトをクリックする前に信頼度が分かるので非常に便利。

google検索結果


ChaSen辞書の語彙を増やす。

な〜。後10時間で納品。修正も返ってくるんだろなぁ。
終われば28日、2日納品、3つとも別件だ。
4日から新規始まる。稼ぎ時とはいえキツイなぁ。

と、つまらんこと書いててもしゃーないので、前回のKeyword cloud制作時の解析辞書の強化手順の記録。

ChaSenの辞書を強化してみる。

まずは元からある辞書をコピー。/usr/share/chasen/dicにipadicがあるのでこれをコピーして使用する。

/usr/share/chasen/dic$ cp -r ipadic/ ~/extradic/

辞書を作るここでは単語を改行で区切ったテキストデータitkeyword.txtを
以下を使って辞書形式にする。

/usr/share/chasen/dic/extradic$ awk '{print "(品詞 (名詞 一般)) ((見出し語 ("$1" 1000)))";}' tmp > itkeyword.txt > itkeyword_pre.dic

1000は適当。「形態素生起コスト」って言うらしい。

出来た辞書を見ると’#’の入ったおかしな行が見つかったので削除。

$ sed -e '/^#/d' itkeyword_pre.dic > itkeyword.dic  

辞書のコンパイルは以下のような感じで

/usr/share/chasen/dic/extradic$ usr/lib/chasen/makeda itkeyword itkeyword.dic

設定ファイルchasenrcを修正
同ディレクトリにあるchasenrcを修正する。

-(GRAMMAR  /usr/share/chasen/dic/ipadic) 
+(GRAMMAR  /PATH2DIC_DIR/extradic) 

-(DADIC        chadic) 
+(DADIC        chadic extra) 

以降この設定ファイルで起動する場合は-rオプションを使用する。

$ chasen -r ~/extradic/chasenrc

キーワード出現頻度、リベンジ

前回「仕事」が多くてヘコんだの巻の続き。

茶筌辞書にIT用語約5000語を登録してリベンジ。このブログより名詞を引っこ抜いて出現頻度をリストアップ。
つっても、テキストをリストアップしても面白くないので、視覚化した。
視覚化はProcessingでの処理なので日本語が使えない。なので出てきたキーワードをムリヤリ機械翻訳で英語にして処理してみた(画像クリックで全景1920×1200)。大きい文字ほど高頻度。抽出した名詞は約1900ワード。
trimed keyword cloud
考えていた目的とはてんで違うがこう言うサービスがあっても良いんでない。

レイアウトするコードはざっくり作っちゃったのでたくさん改良の余地あり。色なんかランダムやし(たぶん、Windowsでみると暗めなんじゃないかな)、ばらつき具合はガウス分布だ。奥行き感をもうちょいつけたいところ。あと日本語が使えないのがイタいなぁ。

載せるほどではないけどこちらがレイアウト用コード→keyWordCroud1.pde



こういうことって面白いわ、「CGでデザインする」って言うより「CGデザインする」って感じ。
徹夜明けなのに、な〜んかテンション上がってきます。

あっちょっと問題、前回ぶっちぎりで優勝された「仕事」さんが入ってないぞ、名詞を抽出するところで問題ありか?

感想よろ〜。

追記:いろんなレイアウトor配色を楽しむつもりなのでページにします。
Gallery»Keyword Cloud