ABEJAの白川です．

先日カリフォルニアのロングビーチで開かれたNIPS2017へ出席してきました．論文レベルの技術的な話題については1月にNIPS論文読み会を開催する予定ですので詳細はそちらに譲ることにして，ここではごくごく大雑把なオーバービューを私見偏見交えてご紹介したいと思います．パラレルトラックのため聴講できなかった講演がだいぶありますので，かなり聴講バイアスがかかっていることをご容赦ください．また，新しめの流行にフォーカスしています．

Summary

史上最大規模のNIPSだった
Bayesian Deep Learningが非常に流行っていた
Optimal Transportは実用的な道具
Meta Learningが流行している
非ユークリッド的なDeep Learningに対する注目

史上最大規模のNIPS

今回のNIPSは参加者数7844人，投稿された論文数は3240本で，史上最大規模だったそうです．毎年ネタのごとく語らえれる参加者数の指数関数的増加は今年も継続して，2035年に全人口を超えるそうです（笑）． f:id:tatsuya_shirakawa:20171213160015p:plain

arXivなどに事前投稿されている論文の方が採択率が高かったという分析結果も発表されていました（投稿されている論文の採択率は29%で投稿されていない論文の採択率は15%）．

会場は下の写真の左側にみえる細長い建物でおこなわれましたが，とにかく中が広く，部屋の移動も大変でした． f:id:tatsuya_shirakawa:20171214120132p:plain

一番大きい Hall Aだと7844人収容してもこんな感じです． f:id:tatsuya_shirakawa:20171214121129p:plain

ちなみに再来年のCVPR，ICMLは同じ会場で開かれるそうですが，そちらは夏開催のはずなので，冬開催の今回よりもロングビーチを満喫できるかもしれません（冬といっても日中は結構暑くて半袖でも大丈夫なくらいですが，朝や夜中，会場内は冷房が聞いていて寒かったです）．

Bayesian Deep Learning

f:id:tatsuya_shirakawa:20171214134047p:plain A. Kendall '17

Bayesian Deep Learningはデータやニューラルネットワーク自体に何らかの確率分布を仮定しつつDeep Learningを行う手法で，これにより

データ自体のゆらぎの評価
モデルの予測の確信度の出力
ノイジーなデータへのフィッティング

などが自然に表現できるようになります．たとえば意思決定においてリスクテイクができないケースではモデルの予測確信度の出力は必須と思いますし，データにノイズが多く乗っている場合は，それを平均的に丸め込んでしまうよりノイズ自体を可能な範囲でモデル化するほうが精緻なモデルが作れそうです． NIPSの最中，Bayesian Deep Learningはデータ数が少ない場合のモデル構築に有用という声をいろんなセッションで聞きました．個人的に2014か2015くらいのNIPSである有名な研究者がこれからのDeep Learningはモデル化できるところはモデル化していくのが正しいんだみたいなことをおっしゃっていたのが印象に残っていて，Bayesian Deep Learningもその流れだなぁと感じました．

Optimal Transport

f:id:tatsuya_shirakawa:20171214111120p:plain Solomon '15

Optimal Transport（最適輸送）はナイーブには，確率分布を最適に変形させる方法，あるいは確率的な割当問題を研究する分野です．詳細には，確率変数$x,y$についての確率分布$P(x), P(y)$と$(x,y)$に対して定義されるコスト関数$c(x,y) \in \mathbb{R}$とが与えられたとき，下記の意味でコスト最小な同時分布$P(x,y)$を求めるのが目標です．

$$ \begin{equation} \min_{P(x,y)} \int c(x,y) P(x,y) dx dy \ \ s.t. \ \ \int P(x,y) dy = P(x), \int P(x, y) dx = P(y) \end{equation} $$

$P(x,y) = P(y|x)P(x)$と考えると，確率分布$P(x)$から確率分布$P(y)$へ輸送している気持ちになれます． Optimal Transportはこのようにかなり数学的な定式化がなされるものなのですが，純粋な数学的なテクニックとしての他にも

画像・3Dオブジェクトのモーフィング
shape reconstruction
ドキュメント間類似度（Word Mover Distance）
ドメイン適応
...

など，応用もふんだんにあります．Wasserstein GANもOptimal TranportのテクニックをGANへ適用した手法ですが，他にもGANへ適用した手法が多数公開され始めているので要注目です．

今回のNIPSでもOptimal TransportのチュートリアルやWorkshopが開かれて，聴講してきました．

個人的には，Optimal Transportは数学的には面白いし理論解析には使えそうだなと思いつつも，実際にどう計算するんだろうというのがわからず，横目で見ていたくらいの感じだったのですが，Entropic Regularizationという，先のOptimal Tranportの目的関数に，$P(x,y)$の乱雑さを増すような正則化をいれてやることにより，比較的容易に最適化計算ができるようになるのだそうです（恥ずかしながら知らなかった）．

このあたりも含め，チュートリアルで使われた非常にわかりやすいスライドが公開されているので，ご興味あるかたは是非御覧ください．

Meta Learning

メタラーニングも流行っていました．メタラーニングをどう定義するかは難しいですが，モデルの効率的な学習方法自体を学習する方法や，タスク依存なモデルを生成するモデルの作り方を調べたりといった（すでに何を言っているのかわからないですね），一段メタな問題設定を指します．強化学習との親和性が強いためか，例年以上の盛り上がりを見せていたように感じます．

Google Deep MindのOriol VInyalsが既存のMeta Learningの手法を非常にわかりやすく分類していました． f:id:tatsuya_shirakawa:20171214123514p:plain

このスライドの右下に出てくるのがMAMLという手法なのですが，これは，複数のタスクがあるときにユニバーサルな種モデルを一つ学習しておいて，それをpretrained modelにして各タスクに定義されたデータセットを用いてgradient descentをすることで，個別タスクに適応したモデルを生成するメタラーニング手法で，今年のNIPSで発表されました．論文をみたときにこんな方法でうまくいくのかと訝しんでいたのですが，同著者のworkshoptでの講演によると，驚くべきことに，MAMLというフレームワークはある種のuniversalityを持つのだそうです（論文はこちら）．

なお，同著者の講演で出てきた下記のスライドが私にはとても刺さりました．

f:id:tatsuya_shirakawa:20171214133321p:plain

最強のモデルを学習するには，強力なモデルを可能な限りたくさんのタスクに晒すのがよいと思っています．今年のICMLでマルチタスク学習が着実に実戦投入されているのを見て我が意を得たりという感じがしていましたが，今回のNIPSに参加して，マルチタスク学習ももちろん有用ですがメタラーニング的な考え方も非常に大切だと学びました．とくに先程紹介したBayeisan Deep Learningの考え方とも親和性があるような気がしますので，今後深掘りしていきたいと思います．

非ユークリッド的なDeep Learning

f:id:tatsuya_shirakawa:20171214121642p:plain M. M. Bronstein '16

非ユークリッド的というか，入力空間の幾何構造を活用したDeep Learningです．個人的にも興味を持っていて，過去にもブログ（Graph CNN，Poincare Embedding）で紹介した事があるのですが，今回のNIPSでもチュートリアルが開催されるなど，標準技術として浸透してきた感があります．チュートリアルでは

Graph CNN
Geometric Deep Learning

が紹介されました．前者については以前のブログを参照していただきたいのですが，グラフ構造上でConvolution演算を定義することにより，CNNの適用先をGraphへも拡張するような研究です．後者は3Dオブジェクトの表面などの凹凸構造を適切に表現するような座標系を用いることでより効率的にDeep Learningを適用できるようにする技術です．詳細についてはこちらの論文に非常によくまとまっています．

M. M. Bronstein et al., "Geometric deep learning: going beyond Euclidean data"

さいごに

今回は大雑把に個人視点のオーバビュー的な形でご紹介しましたが，とにかく内容が盛りだくさんで細かいTipsから面白そうな新しい論文ネタまで，ここでご紹介しきれなかった話題は無数にあります．個人的にも興味を持っていた話題（Knowledge Graph Embedding, Entangled Representation, Variational Inferenceなどなど）についても最新の話題にキャッチアップすることができました．また，日頃あまり接触できない日本人の方とのコミュニケーションをとることができ，個人的にも有意義なNIPS参加でした．流行を肌で感じるにはうってつけの機会ですので，今後とも継続的に参加（できれば論文投稿）・発信していければと思います．

f:id:tatsuya_shirakawa:20171214122302p:plain おまけ: 最終日のMicheal I. Jordan（機械学習の超大御所）らによるバンド演奏

宣伝

来年2月にABEJA SIX 2018というイベントを開催します。私の所属するLabsチームからも発表をさせて頂く予定です．

six.abejainc.com

製造業やインフラ、流通小売業などで、人工知能をどのように活用しているか、実事例を多数ご紹介する１DAYカンファレンスです。本カンファレンスでは、人工知能活用を推進して事業効率化、生産性向上に成功した各業界のリーダー達が集結。導入までのプロセス、活用ノウハウ、実際の成果まで、業務活用の最前線をご紹介します。

ABEJAが発信する最新テクノロジーに興味がある方は、是非ともブログの読者に！