講演抄録/キーワード |
講演名 |
2020-09-08 14:20
全天球カメラを用いた3Dポーズ推定 ~ 手話認識への応用に向けて ~ ○三浦哲平・酒向慎司(名工大) WIT2020-7 |
抄録 |
(和) |
手話は,ろう者が日常のコミュニケーションに用いる言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常の生活でおこなうためには,携帯して常に使える手話の認識,翻訳システムが必要である.手話は手指の形や動きだけでなく,目・眉・口や周囲の環境などの空間全体を使って意思を表現する.本研究では,手話の表現に用いる空間の情報を取得できること,手話者が日常的に携帯して使えることを考慮して,ウェアラブルな全天球カメラを用いた手話の認識について検討している.本稿では特に,手話者の動作を認識するために,身体に装着した全天球カメラで取得した画像を入力とした3D ポーズ推定を提案する.3D ポーズ推定には畳込みニューラルネットワーク(CNN) を用いる.全天球カメラで取得した手話の画像と,画像に同期した3D ポーズのデータセットを新たに構築し,そのデータセットによるモデルの学習と評価をおこなう. |
(英) |
Sign-language is the natural interactive visual language used by deaf people. Most hearing people, however, do not know sign-language. For the reason, they usually talk through writing or interpreters between hearing and deaf people. A portable sign-language recognition and translation system is necessary for interactive and direct communication in daily use. Sign-language is composed of some elements: handshapes, movements, positions, facial expressions, and peripheral information. We intend to propose a sign-language recognition system using a wearable omnidirectional camera for the input device, which is portable for daily use, and capable of obtaining enough elements for sign-language recognition. As a first step for the system, we research 3D human pose estimation methods for RGB images taken by the wearable omnidirectional camera in this paper. We apply a convolutional neural network (CNN) to estimate 3D poses. The model is evaluated on our dataset that we collect 3D poses and RGB equirectangular images by a wearable omnidirectional camera. |
キーワード |
(和) |
3Dポーズ推定 / 全天球カメラ / ウェアラブル / 手話 / / / / |
(英) |
3D pose estimation / Omnidirectional camera / Wearable / Sign-language / / / / |
文献情報 |
信学技報, vol. 120, no. 161, WIT2020-7, pp. 9-14, 2020年9月. |
資料番号 |
WIT2020-7 |
発行日 |
2020-09-01 (WIT) |
ISSN |
Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
WIT2020-7 |