はじめまして。ABEJAでリサーチャーをやっている藤本です。

今年もCVPRの季節がやってきました。CVPRとはコンピュータビジョンに関するトップカンファレンスです。毎年規模が大きくなってきており、今年は3300の論文投稿があり、979件がacceptされました。また、21のチュートリアル、48のワークショップ、115以上の企業展示と様々なイベントが行われています。今年度のCVPR2018の開催は6月なのですが、プログラム自体は４月に公開済みですので、今回のブログの記事では、オーラル発表予定の論文のうちarxivで公開されている内容について一気に紹介します。

f:id:peisuke726:20180417191526p:plain

論文の動向

Deep learningについて

Deep Learningに関連する論文は毎年増え続けており、今年度についてはacceptされた論文979件のうちarxivで459件が公開されており、なんと424件（頑張って数えました）がDeep Learningに関連していました。

f:id:peisuke726:20180417191551p:plain

ついでに、Word Cloudで頻出する単語を可視化してみましたが、Deep関連がやはり非常に目立ちますね。

f:id:peisuke726:20180417191621p:plain

オーラル発表論文紹介

CVPRのacceptのタイプは、Oral, Spotlight, Posterの３段階で、Oralは最も評価の高い論文となります。今回の記事では、オーラルでacceptされた中で、arxivに上がっている37の論文について紹介します。基本的には目的・課題・方法のフォーマットで記載します。

Embodied Question Answering

自身が環境内を動き回りながら探索して質問に答える文を生成。
主体的な動作、言語理解、ゴールに対する動作、良い動機付け、言語を動作に落とし込むことなど、広いAIタスクを解く必要がある。
Adaptive Computation Time (ACT) navigatorという強化学習ベースでのend-to-endな手法を提案。タスクを計画と制御の二つのモデルに分解したことが特徴。
Paper link, Project page

f:id:peisuke726:20180417191644p:plain

f:id:peisuke726:20180417191655p:plain

Learning by Asking Questions

画像における質問文に対する回答生成問題の精度向上。
通常のVQAでは学習に用いることのできる質問文が限られている。
回答するモジュールだけではなく、質問文の生成方法も学習することで、複雑な質問の生成や精度の良い回答が可能となった。
Paper link, Project page

f:id:peisuke726:20180417191722p:plain

f:id:peisuke726:20180417191733p:plain

f:id:peisuke726:20180417191746p:plain

Learning Face Age Progression: A Pyramid Architecture of GANs

歳を取った場合に顔がどのように変化するかを提示。
生成画像において人物は変化しないようにしつつ年齢だけ変化させることが課題。
生成画像に対して、人物がキープされるようにするロスと、年齢識別ロスを用いた。
Paper link, Author's page

f:id:peisuke726:20180417191813p:plain

f:id:peisuke726:20180417191830p:plain

Rotation Averaging and Strong Duality

回転量の平滑化における効率的な計算アルゴリズムの提案。
SfMの姿勢推定において複数画像から姿勢に関して拘束を受ける場合には解に誤差が生じる。その際に、軌道が自然になるようにしつつ、画像の拘束に関する誤差を最小化する必要がある。ここでの自然な軌道に関する制約が回転量の平滑化である。この最適化は非凸であり局所解を持つため良い軌道を推定できない場合がある。
ラグランジュ双対を用いた凸緩和法による回転量平滑化手法を提案し上記問題を解決。
Paper link

f:id:peisuke726:20180417191851p:plain

Deep Layer Aggregation

精度よく対象を認識するためのネットワーク構成の研究。
レイヤー間の結合方法は様々な研究があるが既存方法では最終層が十分に対象を表せるものではなかった。
繰り返し（または階層的）なレイヤー間のコネクション方法を提案し、既存の様々なタスクでSOTA。
Paper link

f:id:peisuke726:20180417191915p:plain

f:id:peisuke726:20180417191936p:plain

Convolutional Neural Networks with Alternately Updated Clique

深いネットワークにおいて情報の流れを改善することで効率化する研究。
既存のネットワーク（VGGなど）はforward/backwardが決まった2レイヤー間で行われており、勾配消失やパラメータ数の増加を引き起こしていた。
同じブロックの任意のレイヤー間でforward/backward出来るようにして精度向上。
Paper link, Code

f:id:peisuke726:20180417192021p:plain

f:id:peisuke726:20180417192042p:plain

Practical Block-wise Neural Network Architecture Generation

強化学習を用いてblock-wiseなネットワークの自動生成。
既存の探索ベースの手法は、計算コストのためImageNetのような大規模な対象に適用できない、またタスク特化のネットワークになってしまう。
ネットワーク全体ではなくブロック単位で効率的なネットワークの生成、CIFARで発見したブロックをImageNetに適用。
Paper link

f:id:peisuke726:20180417192105p:plain

SPLATNet: Sparse Lattice Networks for Point Cloud Processing

3D点群データをDeep Learningで扱う手法の提案。
既存のDeepによる点群を扱う手法では、max-poolingによって面の情報が消えるなど、点間の接続方法が柔軟ではなかった。
Birateral Convolution Layers (BCL)を点群に対して適用。BCLはNeural Networkにスパースで高次元の構造に対するフィルタリング処理である。3D点群のセグメンテーションだけではなく、2D画像との組み合わせによるセグメンテーションについても有効性を確認。
Paper link, Video

f:id:peisuke726:20180417192127p:plain

Surface Networks

メッシュに対するDeep Learningの手法提案。
Graph Neural NetworkではIntrinsicな表現（局所的な構造）は考慮するものの、Extrinsicな表現（データ全体の形状）は考慮しない。Intrinsicな表現を考慮する場合はローカルな変形にはロバストであるが、形状全体の変形を無視してしまう。
曲率の方向を検出するDirac operatorを導入することにより形状の変化にロバスト化を実現。
Paper link

CodeSLAM --- Learning a Compact, Optimisable Representation for Dense Visual SLAM

単眼画像群からの密な３次元マップ生成。
セマンティックラベルづけによる密なマップの推定は計算コストが高く、またSLAMで行われるような確率的なアプローチも適用ができない。
画像からのautoencodeして得られた中間特徴を利用して推定したuncertainty付きのデプスマップを用いてSfMを行う。
Paper link

f:id:peisuke726:20180417192153p:plain

f:id:peisuke726:20180417192205p:plain

Learning to Find Good Correspondences

学習ベースでの視差が大きい画像間の特徴点対応付け。
Deep Learningベースでの特徴点抽出はpoint-matchingのベンチマークでは高精度になったものの、姿勢推定においては十分な性能を達成しておらず、対応付けの問題も含めた高精度化が必要。
PointNet-likeなネットワークに特徴点ペアを入力し、ペアの適切さを出力。PointNetにおけるglobal featureは取らずに、Context Normalizationという全ペアの平均と分散を用いた正規化レイヤーを利用。
Paper link

f:id:peisuke726:20180417192232p:plain

f:id:peisuke726:20180417192249p:plain

OATM: Occlusion Aware Template Matching by Consensus Set Maximization

オクルージョンがある場合において性能保証付きのテンプレートマッチ手法。
オクルージョンが存在する場合、従来のテンプレートマッチングの適用は困難。
画像パッチ間において、変換を掛けた際に一致するピクセル数が高くなるようなパラメータを探索。
Paper link

f:id:peisuke726:20180417192313p:plain

An Analysis of Scale Invariance in Object Detection - SNIP

極端にスケールが変化する場合においても動作する物体検出手法。
小さい物体の検出は困難、ImageNetで学習したモデルからのドメインシフトも大きくなる。
ドメインシフトの影響を低減するために、pre-trainで用いたデータセットに近い解像度を持つRoI /アンカーの勾配のみをバックプロパゲーションする、Scale Normalization for Image Pyramids (SNIP)を提案。
Paper link

f:id:peisuke726:20180417192334p:plain

Relation Networks for Object Detection

オブジェクト間の関連性を利用した検出手法。
オブジェクト間の関連性のモデル化は、位置やスケール、カテゴリなどの多様性のため難しかった。
Detectionで得られる検出結果からアピアランスの特徴と幾何的な特徴の両方が類似している関係をアテンションの機構によって検出するObject Relation Moduleを提案。
Paper link, Author page

f:id:peisuke726:20180417192356p:plain

f:id:peisuke726:20180417192408p:plain

Efficient Optimization for Rank-based Loss Functions

検索システムにおけるランキング学習において、パラメータを平均精度（AP）や正規化割引累積利得（NDCG）のような微分不可能なロスについて最適化する手法を提案。
上記微分不可能なロスを取り扱う場合、計算上の複雑さのため、大規模な訓練データセットでの使用ができない。
ランキングロスの多くは正例/負例それぞれの相対的な順序には依存せず、Interleaving rankに依存することに着目し、Quicksort Flavored Optimizationという手法を提案。真のランキングマトリックスRと現在のマトリックスRの差分は、負例の集合内での自身の順位と、自身より上に正例が何個あるかで計算できる。上記APもNDCGもこのクラスに属する。この差分の計算は、厳密な順序ではなく区分毎の順序で実行でき、Quicksort-likeな手法で効率よく行える。
Paper link, Project page

f:id:peisuke726:20180417192447p:plain

Wasserstein Introspective Neural Networks

入力サンプルから同様のサンプルを生成する生成器と、サンプルの分類器の両方を持つWasserstein Introspective Neural Networksの提案
生成器と分類器の複合により性能を向上させる取り組みとしてINN (ICCV2017)があるが、複数のCNNを内部に持つ必要があり計算時間やモデルサイズの制約があった。
Introspective Neural Networks (ICCV2017)にWassersteinの機構を組み込む事で表現力を大幅に向上させ、複数のCNNによるシーケンシャルなアップデートを不要化した。
Paper link

f:id:peisuke726:20180417192526p:plain

Maximum Classifier Discrepancy for Unsupervised Domain Adaptation

教師なしでのDomain adaptation。
従来の敵対的学習によるDomain Adaptationにおいて、ドメイン分類器がクラス間のタスク特有の決定境界を考慮しないため、ジェネレータはクラス境界の近くであいまいな特徴を生成する。また、ドメイン間の特徴分布を完全に一致させることを目的とするため、それのみでは適切に特徴空間で分離されず十分な精度は出ない。
タスク固有の決定境界を利用してのDomain Adaptationを提案。分類器間の出力の差異を最大にして、ドメインAdaptationの結果として、ソースのサポートから遠いターゲットサンプルが生成されるようにしつつ、クラス内での分散が少なくなるようにする。
Paper link, Project page, Code

f:id:peisuke726:20180417192600p:plain

f:id:peisuke726:20180417192618p:plain

Density Adaptive Point Set Registration

点群のマッチングのための対応付けに用いる点のサンプリング手法。
計測した点群の密度はセンサからの距離に依存して変化するため、統合時に密な部分の一致度が重視されてしまう。
JRMPC（グローバルな点群をGMMで表現し、それが生成されるような姿勢をEMアルゴリズムで解く）という確率的な点群の統合手法を改善、シーン全体についての構造の事前分布を導入しモデル化し、疎な領域からモデルが生成されづらい欠点を解消。
Paper link

f:id:peisuke726:20180417192640p:plain

f:id:peisuke726:20180417192654p:plain

Left-Right Comparative Recurrent Model for Stereo Matching

ステレオマッチングのロバスト化。
ステレオにおいて整合性のチェック（右から左への対応関係と、その逆が同じかどうか）は、反対の視点からの情報を参照することによって行うが、しかし従来の左右一貫性チェックは独立した後処理ステップで行われていた。
視差推定を行いつつ、ソフトアテンションのメカニズムで左右の対応付けが誤っていそうな領域を学習をすることで一貫性をチェック。
Paper link

f:id:peisuke726:20180417192725p:plain

f:id:peisuke726:20180417192749p:plain

Im2Pano3D: Extrapolating 360 Structure and Semantics Beyond the Field of View

RGB-D画像において部分的に観測を与えるのみで、３６０度全体のセマンティックラベルと３D構造を推定。
計測されていない視野外の形状やセマンティックについての予測は、非常に複雑なタスクである。
各ピクセルに関する深度で形状を扱うのではなく、そのピクセルを含む面の法線と面までの距離を学習。ピクセルレベルとエンコーダが出力した中間特徴量から得られるグローバルなコンテキスト情報に関してロスを最小化。
Paper link, Video

f:id:peisuke726:20180417192828p:plain

f:id:peisuke726:20180417192857p:plain

Im2Flow: Motion Hallucination from Static Images for Action Recognition

静止画像からの動作推定の研究。
静的画像の動作を認識する既存のモデルは、直接的に画像から動作を認識するのみで、人間の活動に関する様々な構造や動作の情報を欠く。
静的な画像からの動作を認識する際に、予測される動きのフローを併用した。
Paper link

f:id:peisuke726:20180417192928p:plain

f:id:peisuke726:20180417192941p:plain

Actor and Action Video Segmentation from a Sentence

動画像において自然言語を入力としての対象物のセマンティンクセグメンテーションと動作認識。
既存の手法では、固定された対象物とその動作からしかセグメンテーションを出力できない。
動画向けのエンコーダ/デコーダアーキテクチャを使用しつつdynamic convolutional filtersによって入力した文に応じ動的にフィルタを生成することで、自然言語に対してピクセル単位で対象物と動作認識を行う。
Paper link

f:id:peisuke726:20180417193102p:plain

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

画像のキャプショニングやVQAタスクのためのアテンションメカニズム。
CNNが出力した特徴を利用するトップダウン型の手法では、等しい大きさ・形状のグリッドから出力される特徴を用いるだけで、どの領域を重視するかについて考慮されない。
ボトムアップとトップダウンのアテンションを組み合わせてオブジェクトと注視すべき領域を求め、これを根拠に回答文を生成する。2017年のVQAチャレンジ１位獲得。
Paper link, Code

f:id:peisuke726:20180417193132p:plain

f:id:peisuke726:20180417193152p:plain

f:id:peisuke726:20180417193208p:plain

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering

画像と言語の融合表現によるVQAの精度向上。
Dense Co-Attention Networkというモデルを提案、画像・言語のそれぞれ特徴において双方向のアテンションを求めることで、精度向上を実現。
Paper link

f:id:peisuke726:20180417193252p:plain

FlipDial: A Generative Model for Two-Way Visual Dialogue

機械側がユーザに質問する役割も持つようなVisual Dialogの生成モデルの提案。
機械が答える通常のシステムでは、ユーザの質問が曖昧だった場合や、ユーザに対する確認などが行えず制限が強い。
文生成のためにconditional VAEを使用、また会話の特徴表現のために埋め込みベクトルをスタックしたものを画像とみなす。単方向のQAではSOTAを達成、双方向会話でのベースラインとなる結果を得た。
- なお、論文中に記載の課題感としては双方向のコミュニケーションではあるが、実験では質問文を生成できることで双方向と言っているようである。
Paper link

f:id:peisuke726:20180417193315p:plain

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

対話型でのVQAにおいて、人間が行なっているような自然な対話を実現。
既存の手法では回答が単調であったり、不自然なものである場合が多かった。
強化学習とGenerative Adversarial Networks（GAN）を組み合わせて、より人間的な質問への応答を生成。
Paper link

f:id:peisuke726:20180417193353p:plain

f:id:peisuke726:20180417193405p:plain

Illuminant Spectra-based Source Separation Using Flash Photography

異なるスペクトルを持つ複数の光源から構成される一般環境下での撮影画像における光源分離と編集操作。
光源を分離するためはシーンの幾何形状や照明の条件が必要となる。
フラッシュ/ノーフラッシュの画像ペアから得られるシーンの光源のスペクトルの違いに基づいた分析を行う。光の強度の違いや、スペクトル・陰影の間から得られる物理学的な関係を導出し、それに基づき光源分離を実現。
Paper link, Video

f:id:peisuke726:20180417193434p:plain

The Perception-Distortion Tradeoff

画像復元の評価基準である歪み尺度(例え PSNR、SSIM、IFC、VIF)と人の知覚が対立関係なことを示す、
画像復元アルゴリズムの出力を、実画像から正しく識別するための最適確率を検討することで、上記不一致性を示す。また、その分析に基づき、より良い画像復元評価方法を示し、近年の超解像手法を比較。
Paper link, Project page, Code

f:id:peisuke726:20180417193448p:plain

Squeeze-and-Excitation Networks

CNNの効率化に関する研究
チャネル間の依存関係をモデル化し、チャネルごとの特徴を適応的に校正するSqueeze-and-Excitatoin（SE）ブロックを提案、計算コストを抑えつつ良い精度を実現。2017年のILSVRCの優勝モデル。
Paper link, Code

f:id:peisuke726:20180417193506p:plain

f:id:peisuke726:20180417193520p:plain

Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects

複数オブジェクトが存在する環境下での顕著性マップの高精度化。
複数のオブジェクトが存在する環境下で、どのオブジェクトが重要かというのは一意に決定できないにも関わらず、既存の手法ではそれを無視して結果を出してしまっている。
物体間の相対的なランク付けを考慮して顕著性マップを生成。アノテーション時に複数の人に顕著性マップを作成してもらい、何人が顕著性を認めたかでランク付けを行い、これを中間層の教師データとする。精度の高い顕著性マップを生成するため、複数ステージでのrefinementを行う。
Paper link

f:id:peisuke726:20180417193537p:plain

f:id:peisuke726:20180417193552p:plain

Context Encoding for Semantic Segmentation

シーン全体の意味をセグメンテーションに反映する手法。
多種の対象について、ピクセル毎に認識する必要があり、精度が十分ではない。
シーンの種類が分かれば出現するラベルは限定できるため、シーンの意味をエンコードするContext Encoding Moduleを提案。CNNで抽出した特徴から、シーンの分類を行うとともに、アテンションの仕組みを使い利用するラベルを選択する。
Paper link

f:id:peisuke726:20180417193605p:plain

Photometric Stereo in Participating Media Considering Shape-Dependent Forward Scatter

霧や水などの光が散乱する対象をモデル化するための照度差ステレオ方法の提案。
上記環境においては従来の特徴点対応を用いるような３次元復元の手法の適用ができない。照度差ステレオでの上記対象におけるモデリングを行う取り組みはあるものの、対象物の形状と前方散乱の関係性を同時に扱うような取り組みはなかった。
提案手法では、前方散乱をルックアップテーブルを用いてモデル化し、照度差ステレオのclosed-formでの解法を示す。また、大規模な密行列を疎行列で近似することで前方散乱の影響を除去した。
Paper link, Author's page

f:id:peisuke726:20180417193621p:plain

Direction-aware Spatial Context Features for Shadow Detection

エッジの方向認識によって画像のコンテキストを理解することで影をロバストに検出する方法。
影の検出は大局的な画像のコンテストや影周囲の多様な背景を理解・識別する必要がある。
方向に関するアテンションメカニズムを導入することで、その方向の中での空間的なコンテキストを識別するDirection-aware Spatial Contextモジュールを提案。識別したコンテキストを元に影の復元を行なった。
Paper link

f:id:peisuke726:20180417193634p:plain

f:id:peisuke726:20180417193646p:plain

f:id:peisuke726:20180417193658p:plain

Discriminative Learning of Latent Features for Zero-Shot Recognition

ゼロショット学習のためのdiscriminative representationを学習することによる精度向上。
ゼロショット学習の近年の主流な研究方針は画像の意味に関する特徴マッピングである。初めてみたシーンのカテゴライズを目的とした場合、識別しやすい表現となっているかが精度向上のために重要と思われるが、あまり着目されてこなかった。
特徴抽出器の最終レイヤーの特徴を入力とし、もっとも識別しやすい領域を出力するZoom Network (ZNet) を提案。元画像とズームした画像を併用することで識別しやすい埋め込みを学習する。
Paper link

f:id:peisuke726:20180417193728p:plain

f:id:peisuke726:20180417193741p:plain

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

表情を含む人の動き、姿勢、ジェスチャーをキャプチャするためのモデルの提案。
人の細かな部位までをモデル化する取り組みは無い。モデル化する際に疎なデータから全体を復元することが難しい。
詳細な部位までをモデル化するためのFrankensteinモデル・Adamモデルを提案、姿勢のキーポイントと不完全な点群から、体のメッシュを生成。
Paper link, Video

f:id:peisuke726:20180417193808p:plain

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

ラベルマップから高画質の画像を生成するGANベースの手法。
既存手法（Conditional GANs等）では解像度の高い画像復元が困難。
小さい画像を先に作成してその特徴を使い大きな画像を作成するCoarse-to-fineの手法によって大きな画像生成を実現。また、ラベルマップからはインスタンス単位での区別が付かないため、インスタンス間の境界を入力として与えることで画質を向上。
Paper link, Code, Video

f:id:peisuke726:20180417193822p:plain

f:id:peisuke726:20180417193838p:plain

f:id:peisuke726:20180417193853p:plain

Revisiting Deep Intrinsic Image Decompositions

Deep Leanringで画像を反射/シェーディングモデルに分解する問題について広い対象に利用できる手法。
シミュレーションを対象にした大量のデータ向けか、実環境でのweakly-labeledな設定のどちらかに特化した方法しかない。
提案するフレームワークではRGB画像からラフなリフレクタンス画像を出力するDirect Intrinsic Networkと、albedo画像の主要な構造を強調するエッジマップを出力するためのGuidance Network、これらの出力から最終的なリフレクタンス画像を出力するDomain Filterを用いるアーキテクチャを提案。
Paper link

f:id:peisuke726:20180417193915p:plain

Feature Space Transfer for Data Augmentation

物体の姿勢変化に対応した特徴空間におけるData Augmentation手法。
通常のData augumentationは、回転や並進・明るさなどに関しては画像を生成できるが、３次元的な姿勢に関しては対応していない。
エンコーダはCNNで得た特徴をアピアランスと姿勢に分解し、デコーダーは姿勢を変化させて復元を行う。復元した特徴が、変化後の姿勢の情報を持っているかを学習する。これにより、中間特徴で所定の姿勢を与えることで、姿勢についてData Autumentationが可能。
Paper link

f:id:peisuke726:20180417193944p:plain

f:id:peisuke726:20180417194007p:plain

個人的に面白かった論文

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

今年度の発表論文の中では、最もOutstandingな結果が得られている論文の一つです。Instansの境界を与えることで性能が向上するのはとても面白く、ネットワークがエッジのような細かい情報を捉えられていることが分かるとともに、人が有効活用できると思えるデータをインプットするとネットワークがその情報をしっかり拾ってくれるのですね。

Context Encoding for Semantic Segmentation

アテンション機構をセグメンテーションに適用した手法で、枠組みとしては素直ですが、これまで意外に実施された例がなさそうだなと思いました。セグメンテーションに限らず、この枠組みの応用範囲は広いと思うので積極的に取り入れてきたいと思います。

Relation Networks for Object Detection

R-CNN、Fast R-CNN、Faster R-CNNと来て、遂に全部のパイプラインがEnd-to-endになったか、という印象です。

Surface Networks

少し渋いですが、Graph系のビジョン応用でネックであったExtrinsic系の問題に対処した論文です。まだ、大規模な実験はしておらず、実用的な性能は未知数ですが、深掘りしても面白いかもしれないと思います。

余談

ちなみに、昨年度も同じように一気読み大会を行っております。そちらも併せてご覧いただければと思います。

CVPR2017 oral survey from Fujimoto Keisuke

ICCV2017一人読み会 from Fujimoto Keisuke

感想

何よりもまずDeep Learningを使っている割合が９割を超えていて、マジかよ・・・という感想です。Deep Learningの技術は益々コモディティ化し、使って当たり前の技術になってきています。今後は更に、Deep Learningの技術をどれだけ使いこなせるかが重要になってくると感じますし、自然言語処理や音声など他のジャンルの技術との組み合わせも広がると思います。ABEJAでは2012年からDeep Learningを使っているというノウハウと経験を生かして、これからも技術を深掘りしていきます。

もし間違っているところがありましたら、僕のtwitterまでお願いします。