WSDM2012勉強会に参加してきました

WSDM2012勉強会に参加させていただきました。発表資料など詳細は以下にまとまっているようです。主催者、発表者、会場確保・設営をしてくださった皆さま、とても勉強になりました、ありがとうございました。

実は今回このような形の勉強会に初めて参加したので、感じたことなどを少しメモしておく。

@nokunoさん Finding Your Friends and Following Them to Where You Are

会場では後半、ベストペーパーなのにこんな評価で大丈夫か、という話があった。位置情報をよく有効にしてtweetしているユーザに絞って学習・評価をしているので、そんなものでいいのかという話。誰かが日本用のデータセットを作って公開してくれると面白そう。

@tsubosakaさん Finding the Right Consumer: Optimizing for Conversion in Display Advertising Campaigns

事前に薦められて予習していたので落ち着いて聞くことができた。会場では広告関連の研究は大企業でなければできないのか、という質問があったが、最近は小さな広告配信会社でもad networkを通してユーザを特定できない形で(?)情報を取得できるので、それほど大きくなくてもできるかも、という話だった。広く広告関連の話でいうと、KDD Cup2012のtrack2が"Predict the click-through rate of ads given the query and user information."と検索連動広告のCTRを予測する話なので、少しデータは大きめだが個人でも少し試すということはできると思う。

@y_benjoさん Overcoming Browser Cookie Churn with Clustering

ツールバーの情報を使って評価しているあたりが少し気になるという話があった。結果の図を見ると、提案手法ではprecision1.0でrecallが0.4、precision0.95でrecallが0.53くらいあるので、例えば不正利用者を特定するためなどに使うといいのかなと思った。個人的に気になったのは、最近いろいろ問題になっているスマートフォンに適用しようとすると、同じユーザと端末でもキャリアの回線(3GとかLTE)と自宅や公衆の無線LAN回線でIPが変わるので難しそうだなというところ。OSやブラウザのバージョンも端末標準のものだとそれほどバリエーションがなさそうなので結構同じものになってしまいそう。

@smlyさん When Will It Happen? Relationship Prediction in Heterogeneous Information Networks

いつグラフに新しいエッジができるのかを推定するという話。個人的にはグラフでのリンク予測とかの話を聞くと、Infinite Relational ModelMarkov logic network関連(Pedro Domings)のStatistical Predicate InventionSemantic Network Extractorなどのrelationの話を思い出すけど、あまり関係ないかも。

@john_a_dreamsさん Correlating Financial Time Series with Micro-Blogging Data

評価のシミュレーションが、1日の始値で買って終値で全部売るという設定だったので、1日の中でも安値や高値を考えるとどうなるのかという話があった。単純にデータを増やすだけではだめで、やはりデータの質を担保することが大事そうというのがなるほどという気がした。発表を聞いた印象では、質の高いtweetをするユーザを特定する手法と組み合わせると面白そうだなと感じた。

@sleepy_yoshiさん Learning to Rank with Multi-Aspect Relevance for Vertical Search

Learn to Rankで精度を争うのは、SIGIR 2011で発表されたLambdaMART+baggingの手法で一段落したのではないかという発言がとても印象的だった。hinge lossの2乗の形は、いわゆるL2-SVMなどで使われている形(参考: A Dual Coordinate Descent Method for Large-scale Linear SVM)かなと思った。gradientとprojectionの話は昔から使われている古典的な手法ということが話されていた(google:projected gradientで検索すると思っていた以上に古くからある話のようだ)。提案手法はランキングで2つ以上の指標をどう組み合わせるべきか悩む場合は多いと思うので、なかなか適用範囲が広そうだと感じた。ちなみにペアワイズのデータを作るというのはランキング学習だけでなく、positiveデータが少ない場合の分類問題にも効果があるらしい(参考: Detecting Adversarial Advertisements in the Wildの3.2.2)ので、もっと幅広く使われていいのではないかと思う。

その他として、やっぱり聞いているだけよりも発表したほうが面白そうだな、とか、質問に答えてくれたらお礼とかいったほうがいいんじゃないかな、とか、皆PCでいろいろメモしているみたいだったけどあまりハッシュタグつけてtweetとかしないんだな、と思った(職場のストリームに慣れすぎなのかもしれない)。あと、会社内だと具体的な応用方法について話せるんだけど、今回はそれができなかったので少し消化不良な感じが残った。

そんなわけで、近いうちにスピーカーとして勉強会に参加したいところ。