kurilab

https://klb.hatenablog.com/entry/portal

Computer Vision R&D

Results 104 issues of


                                            kurilab

Intra-Source Style Augmentation for Improved Domain Generalization

## 論文概要セマセグにおけるドメイン汎化を改善するために、ソース内スタイル Augmentation(ISSA)を提案。新しいMasked Noised Encoderをベースに意味的なレイアウトを保持したまま全体的な外観を変化可能。他のドメイン汎化技術と排他的でなく組み合わせられセマセグの性能を向上可能。 ![bib_20221126 00](https://user-images.githubusercontent.com/16313809/204091858-a792e2fe-171b-407e-b0f4-3bbdb4a666d5.jpg) https://arxiv.org/abs/2210.10175 ## Code 未確認。

Conference: WACV

Subject: Domain Generalization

Application: Segmentation

Year: 2023

PSENet: Progressive Self-Enhancement Network for Unsupervised Extreme-Light Image Enhancement

## 論文概要従来の画像強調手法の多くは低照度条件に焦点を当てており、露出オーバーの画像に対応できなかった。そこであらゆる露出に対応した教師なしの画像強調手法を提案。擬似的なGT画像を生成しモデルを学習する。教師あり手法と同等レベルの結果が得られるとのこと。 ![bib_20221122 00](https://user-images.githubusercontent.com/16313809/204091786-f1f47b9e-437c-414e-b5b7-c547aa981b36.jpg) https://arxiv.org/abs/2210.00712 ## Code https://github.com/vinairesearch/psenet-image-enhancement

Conference: WACV

Subject: Unsupervised

Application: Image Enhancement

Year: 2023

CostDCNet: Cost Volume Based Depth Completion for a Single RGB-D Image

## 論文概要 Depthの補完をコストボリュームベースで行う。パラメータ数は約軽量(1.8M)かつ、リアルタイム(30ms)で動作可能。性能もSOTA相当。軽量CNNと効率的なアップサンプリングモジュールのみで構成され、複雑なアーキテクチャを必要としない。 ![bib_20221026 00](https://user-images.githubusercontent.com/16313809/204091715-ea29e4e0-88c3-493c-bfb0-7a80745f4816.jpg) https://www.ecva.net/papers/eccv_2022/papers_ECCV/html/5688_ECCV_2022_paper.php ## Code https://github.com/kamse/CostDCNet

Conference: ICCV/ECCV

Application: Depth Completion

Year: 2022

Polarimetric Pose Prediction

## 論文概要偏光から得られる幾何学的情報を物理的な手がかりとして活用する6D物体ポーズ推定。RGBD入力のSoTAの性能を凌駕し、特に反射面や透明面などのテクスチャを持たない物体に対して有効。ちなみに学習型。 ![bib_20221022 00](https://user-images.githubusercontent.com/16313809/197315622-37c8f8c5-681a-47d7-a493-2fcbb6883919.jpg) https://daoyig.github.io/PPPNet/ ## Code https://github.com/DaoyiG/polarimetric-pose-prediction

Conference: ICCV/ECCV

Input: Polarization

Year: 2022

Application: Pose Estimation

Perspective Phase Angle Model for Polarimetric 3D Reconstruction

## 論文概要従来の偏光情報からの法線(位相角)推定は正射影を仮定しているが、カメラの視野が広い場合は誤差が大きくなる。そこで透視投影のカメラに適用可能な位相角モデルを提案。より正確になった上に、今まで課題であった180°不定性の問題を１ショットで解決可能（数画素見る必要）。 ![bib_20221021 00](https://user-images.githubusercontent.com/16313809/197315527-743f7a61-3290-4e9e-8c83-4e3a24717e02.jpg) https://arxiv.org/abs/2207.09629 ## Code https://github.com/gcchen97/ppa4p3d

Conference: ICCV/ECCV

Input: Polarization

Application: Surface Normal Estimation

Year: 2022

Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention

## 論文概要単眼Depth推定SoTAをAttentionを使い倒すことで達成。提案するSkip Attention Moduleは通常の畳み込みベースのスキップ接続とは異なり長距離依存性を持つデコーダ特徴を融合することができ、より正確な深度ラベルを導出可能。 ![bib_20221019 00](https://user-images.githubusercontent.com/16313809/197315338-3da16089-a822-4612-a28e-da1d62ab8336.jpg) https://arxiv.org/abs/2210.09071v1 ## Code https://github.com/ashutosh1807/pixelformer

Conference: WACV

Application: SIDE

Year: 2023

MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to Depth-aware Video Panoptic Segmentation

## 論文概要自己教師＋マルチタスク学習(MTL)による単眼Depth推定+Panoptic Segmentation。かなり難しそうな問題設定だが、ロスのバランスの調整さえ頑張れば、どちらのタスクも効果的に学習が可能になるとのこと。 ![bib_20221018 00](https://user-images.githubusercontent.com/16313809/197315106-288b87a9-388b-461f-b659-413236f9840a.jpg) https://arxiv.org/abs/2210.07577 ## Code 未確認

Conference: WACV

Application: SIDE

Application: Segmentation

Subject: MTL

Subject: Self-Supervised

Year: 2023

Large-Scale Open-Set Classification Protocols for ImageNet

## 論文概要分類器の未知クラスのサンプルの扱いを正しく評価するために、ILSVRC2012データセットに対して、複雑さの異なる 3 つの新しい評価プロトコルを導入。実世界のシナリオに近い学習データとテストデータを提供するためにImageNetクラスのサブセットで構成。 ![bib_20221017 00](https://user-images.githubusercontent.com/16313809/197315049-8098c56c-9e77-4611-81a5-3883ceebd0ac.jpg) https://arxiv.org/abs/2210.06789 ## Code 未確認

Subject: Dataset

Conference: WACV

Year: 2023

Enabling ISP-less Low-Power Computer Vision

## 論文概要認識タスク等にはデモザイク等のISP処理は(あまり)いらないのでバイパスするのが効率的、というのが通説になっているが、大規模データセットの多くがRGB画像で構成されているためRAW画像でDeepなモデルを学習することは困難。そこで大規模RAW画像データベースを公開(予定)。このデータセットはInvertibleなNNを用いてISPパイプライン全体を反転することによって生成される。またRaw画像を直接使うよりも精度向上させるためにセンサ画素配列上に直接実装可能な低オーバーヘッドの画素内デモザイクを提案。アナログドメインで加算等を行い、データ帯域幅を削減することが可能。 ![bib_20221014 00](https://user-images.githubusercontent.com/16313809/197314960-febc6321-9232-458a-9e43-04bc8a48bdbf.jpg) https://arxiv.org/abs/2210.05451 ## Code 未確認

Field: Device

Conference: WACV

Subject: Invertible Neural Networks

Subject: Camera ISP

Application: Image Recognition

Year: 2023

DigiFace-1M: 1 Million Digital Face Images for Face Recognition

## 論文概要ウェブから収集された顔画像データセットは（人種、照明、化粧等）著しく偏りがあり、ラベルノイズもあり、更にプライバシーの課題もある。そこでCGでデジタル顔をレンダリングし100万枚以上の顔認識用の合成データセットを導入し、上記課題を解決。 ![bib_20221009 00](https://user-images.githubusercontent.com/16313809/197314877-26d838a0-4d3f-4976-8e66-e2b6514209cc.jpg) https://arxiv.org/abs/2210.02579 ## Code & Dataset https://github.com/microsoft/digiface1m

Subject: Dataset

Field: ComputerGraphics

Conference: WACV

Application: Image Recognition

Year: 2023