IJCAI2011メモ - y_tagの日記

TwitterでつぶやいたIJCAI2011の論文についてのメモ。全てMachine Learning関連。

Improving Performance of Topic Models by Variable Grouping

Latent Dirichlet AllocationでGibbs samplingを行う際、変数の数が増えるとサンプルを広範囲から取ることが難しくなり、局所解に陥ることがある。そこで、変数をグループ化してサンプリングを効率的に行うという手法を提案していた。同じような考えとしてblock samplingを挙げ、トピックの数が増えた時には変数をグループ化するアプローチの方が効率的であると主張している。

LDAではtoken（文書においては単語が相当）ごとにトピックが割り振られるが、gLDAではグループごとにトピックが割り振られ、各tokenはどのトピックに属するかによって、tokenのトピックが決定される（generativeな説明ではない）。サンプリングも同様に、あるtokenがどのグループに属するかと、あるグループがどのトピックに属するかを考える。同じ種類のtokenは同じグループに属しやすくなるが、必ずしもそうなるわけではない。グループの数の選び方はまだヒューリスティックなもののようだ。image segmentationのAZP、collaborative filteringのBiLDAをそれぞれ上記のようにグループ化したgAZPとgBiLDAが示されていた。

本文を読む限りでは、手軽な方法でよいパフォーマンスを得られているように見えた。

Multi-Label Classification Using Conditional Dependency Networks

大雑把に言うと、マルチラベル分類問題において、それぞれのラベル間の関係も考慮しましょうという話。conditional dependncy networksという名前を聞くと身構えてしまうが、実際の手続きは複雑ではない。各ラベルごとにバイナリ分類器を作成する際に他のラベル情報を用いて学習を行う。単純化すると、他のラベルの情報もfeatureとして用いるということ。ただしこの方法だと予測の際には他のラベルの情報が不明であるため、Gibbs samplingを用いた予測を行う。

バイナリ分類器には確率モデルであるlogistic regressionを用いているが、SVMのような非確率モデルを用いる方法についても述べられている。実験では単純なlogistic regression/SVMとこの手法を適用した場合の比較が行われており、やはりSVMを用いた方がlogistic regressionよりも良い結果を得られていた。

学習は既存の学習器を用いることができるので手軽そうだが、予測には時間がかかりそうである。

Ball Ranking Machine for Content-Based Multimedia Retrieval

pairwiseなランキング学習手法であるRanking SVMをMinimal Enclosing Ballの問題として解くというアイディア。これにより、学習時間とsupport vectorの数を減らすことができると主張している。

SVMをMinimal Enclosing Ballの問題として扱うという部分は、おそらくCore Vector Machinesそのものだと思われる。ランキング学習ではよく線形モデルが用いられるので、線形カーネル SVMであれば高速に解く手法が他にもいくつかあると思うが、この手法ではimageやvideoのランキング学習を対象としており、このような場合はfeatureの性質からカーネルを用いることができる本手法が良さそうな印象を受けた。SVMの高速化手法は数多く提案されており、Ranking SVMとの組み合わせでどのようなパフォーマンスを示すのか気になるところである。

Distribution-Aware Online Classifiers

オンライン分類器であるPassive Aggressive(PA)において、ユークリッド距離ではなくマハラノビス距離を（制約を満たすように）最小化するようにパラメータ更新を行うPassive Aggressive Mahalanobis(PAM)が提案されていた。これによりPAとは異なり、Confidence Weighted(CW) linear classifierのように分散共分散行列が必要になる。

論文中でもPAM2とAdaptive Regularization Of Weight vectors(AROW)との類似性が指摘されているのだが、実験ではPA2とCWとの比較に留まっていたのが気になった。分散共分散行列を対角行列で近似した効率的な計算方法はCWでの知見を適用できると述べられていた。

A General MCMC Method for Bayesian Inference in Logic-Based Probabilistic Modeling

Turing-complete probablilistic modeling languageのPRISMでMCMCを行う手法が提案されていた。PRISMはBayesian networkやPCFGをモデリングすることができる言語であり、explanation graph上で確率計算を行う。提案手法はPCFGでのMetropolis Hastings samplingを一般化してexplanation graph上でサンプリングを行う。

Active Online Classification via Information Maximization

情報量を最大化するようにオンライン分類を行う手法が提案されていた。学習は基本的にNaiveBayesのように頻度カウンティングなので容易なのだが、分類の際に全てのクラスとの情報量を計算する必要があり、計算コストは大きそうである。能動学習は、情報量が最大となるクラスと、二番目に大きくなるクラスの値が少ない時にラベル付けを依頼するというアプローチ。

恐らくInformation Maximization Clusteringの考えをオンライン能動学習に適用したものだと思われる。実験ではPerceptron, PassiveAggressive, AROWとそれぞれのaverage版と比較されていて、全てのデータセットにおいて提案手法が比較的robustであると主張している。ただし比較に用いられている評価指標がマクロ平均なのが少し気になった。実装は比較的容易なようなので、バッチ版を試してみたい。

Learning to Rank under Multiple Annotators

タイトルのとおり、ランキング学習に用いるデータ作成を複数のアノテータが担当する際、各アノテータのラベル付け（クエリとドキュメントのペアに対するスコア付け）の信頼性を考慮しましょうという話。ナイーブなアプローチとしては、まず真のスコアを推定した後にランキング学習を行うという方法が考えられるが、その両方をEMで同時に行う手法が提案されていた。

実験ではラベルにノイズを加えたデータに対する上記の2つの手法と、真のスコアが与えられたときのListMLEが比較されていた。提案手法が真価を発揮するのはAmazon Mechanical Turkなどのクラウドソーシングを用いたときなのかなという印象を受けた。

LIFT: Multi-Label Learning with Label-Specific Features

マルチラベル学習において、各ラベルで学習に用いるfeatureはそのラベル特有なものにしましょうというアイディア。肝心のラベル特有のfeatureは、ラベルに対してpositiveとnegativeのデータをそれぞれk-meansでクラスタリングし、各クラスタの中心とデータの距離のベクトルを用いる。クラスタ数はpositiveとnegativeのデータ数の少ない方に係数をかけた数としている。論文中では距離としてユークリッド距離を用いていたが、もっと洗練されたmetricも考えられると述べられていた。

ラベル特有のfeatureを使うというアイディアはなるほどと思うのだが、クラスタの中心との距離とするのがなぜいいのかはあまりよく理解できなかった。ラベル特有のfeatureを作成した後に用いるバイナリ学習器は任意のものを用いることができ、実験では線形カーネルのLIBSVMが採用されていた。