2012-01-01から1年間の記事一覧

良くある損失関数の勾配

NIPS 2012の"A Stochastic Gradient Method with an Exponential Convergence Rate for Finite Training Sets"(pdf)を読んで思い出したのでメモ。上記の論文では、stochastic gradient (SG) methodを高速化したstochastic average gradient (SAG) methodを…

"Psychopathy Prediction Based on Twitter Usage"で1位になりました

6月の終わりに終了したので既に4ヶ月以上前の話だが、kaggleで開催されていたデータサイエンスのコンペティションで1位になった。 Psychopathy Prediction Based on Twitter Usage - Kaggle このコンペティションはその名のとおり、twitterの使い方からその…

WSDM2012勉強会に参加してきました

WSDM2012勉強会に参加させていただきました。発表資料など詳細は以下にまとまっているようです。主催者、発表者、会場確保・設営をしてくださった皆さま、とても勉強になりました、ありがとうございました。 WSDM2012勉強会で発表しました #wsdm2012 - nokun…

Top-k retrievalのアルゴリズムを書いてみた(tiny topk)

C++

最近top-k retrievalの話を少し聞いたので、簡単にコードを書いてみた。いつものように恥もなくgithubで公開している。cpp-ToyBox-TinyTopK(github)Top-k retrievalを簡単に説明すると、転置インデックスに対してdisjunctiveなクエリで問い合わせて(OR検索…

int/doubleを文字列に変換する際の速度など

C++

C++でintやdoubleなどの数を文字列(charの配列もしくはstd::string)にしたい時、もしくはその逆で文字列をintやdoubleにしたい時がある。一般的にそのような処理はファイル入出力などと合わせて行われるため、それほど速度を気にすることはなく、むしろ安…

DOM Based Content Extraction via Text Densityのbindingを書いたよ

SIGIR 2011のDOM Based Content Extraction via Text Densityが、シンプルなアルゴリズムながら良さそうな結果を示していたので、著者のコードを改変してSWIGでPerlとPythonのbindingを作った。 下手な英文メールにも関わらず、コードの利用を快く認めて下さ…