拡散モデル画像生成のスケッチガイダンスによる修正

Zhang,Ding,Sandra; 毛,家豊; 相澤,清晴

ご案内入会して研究会活動をもっとお得に！研究会参加費・年間登録費が会員価格になります。
お知らせ【重要】研究会参加費の支払いおよび原稿アップロード手続きの変更に関するご案内

電子情報通信学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
[ログイン]
技報アーカイブ

トップに戻る

前のページに戻る

[Japanese] / [English]

講演抄録／キーワード
講演名		2024-02-20 11:00 拡散モデル画像生成のスケッチガイダンスによる修正 ○Zhang Ding Sandra・毛　家豊・相澤清晴（東大） ITS2023-64 IE2023-53
抄録	（和）	大規模画像生成モデルは、多様かつ高品質な画像を生み出す卓越した能力を持っていますが、実際のコンテンツ制作で、特にユーザーが画像生成を微細にコントロールすることは難しい課題となっています。この論文では、テキストから画像への生成モデルを拡張し、スケッチを追加の入力として受け入れる新しい手法を提案します。この方法は、元のモデルの能力を保ちつつ、ユーザーがスケッチを用いて構造的な指示を与えることができるようにします。スケッチからの重要特徴を抽出し、それを基に、入力画像と似たレイアウト・構造の新画像を作成します。このアプローチは、事前訓練済みのテキストから画像への拡散モデルを用い、スケッチのレイアウト構造とテキストプロンプトの両方に適合する画像を生み出します。これにより、追加の訓練や基本モデルの調整なしに、スケッチの構造情報を画像生成プロセスに直接かつ効率的に組み込む、直感的で効果的な方法が実現されます。
	（英）	Large-scale image generation models have demonstrated their remarkable ability to generate diverse, high-quality images. However, harnessing their potential for real-world content creation, particularly in providing users with fine-grained control over image generation, remains a challenge. In this paper, we propose a novel pipeline that extends existing text-to-image generation models to accept sketch as an additional input. This approach not only retains the original capabilities of the models but also enriches them by allowing users to input structural guidance through sketches. By extracting core features from the sketch, users can create a new image that has a similar layout and structure to the input image. Our approach leverages the power of a pre-trained text-to-image diffusion model, enabling the generation of an image that aligns with both the layout structure of the sketch and the accompanying text prompt. This results in a straightforward yet effective method, where the sketch's structural information is directly and efficiently incorporated into the image generation process without additional training or calibration of foundational models.
キーワード	（和）	拡散モデル / テキストから画像生成 / / / / / /
	（英）	sketch-to-image / text-to-image / diffusion-model / fine-grained control / image generation / / /
文献情報		信学技報, vol. 123, no. 381, IE2023-53, pp. 95-99, 2024年2月.
資料番号		IE2023-53
発行日		2024-02-12 (ITS, IE)
ISSN		Online edition: ISSN 2432-6380
著作権について		技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します．(許諾番号：10GA0019/12GB0052/13GB0056/17GB0034/18GB0034)
PDFダウンロード		ITS2023-64 IE2023-53

研究会情報
研究会	ITS IE ITE-MMS ITE-ME ITE-AIT
開催期間	2024-02-19 - 2024-02-20
開催地（和）	北海道大学
開催地（英）	Hokkaido Univ.
テーマ（和）	画像処理、一般（予定）
テーマ（英）	Image Processing, etc.
講演論文情報の詳細
申込み研究会	IE
会議コード	2024-02-ITS-IE-MMS-ME-AIT
本文の言語	英語（日本語タイトルあり）
タイトル（和）	拡散モデル画像生成のスケッチガイダンスによる修正
サブタイトル（和）
タイトル（英）	Image Generation Modification with Diffusion Model through Sketch Guidance
サブタイトル（英）
キーワード(1)（和/英）	拡散モデル / sketch-to-image
キーワード(2)（和/英）	テキストから画像生成 / text-to-image
キーワード(3)（和/英）	/ diffusion-model
キーワード(4)（和/英）	/ fine-grained control
キーワード(5)（和/英）	/ image generation
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	Zhang Ding Sandra / Sandra Zhang Ding / ジャンディンサンドラ
第1著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： UTokyo)
第2著者氏名（和/英/ヨミ）	毛家豊 / Jiafeng Mao / マオジャフォン
第2著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： UTokyo)
第3著者氏名（和/英/ヨミ）	相澤清晴 / Kiyoharu Aizawa / アイザワキヨハル
第3著者所属（和/英）	東京大学 (略称：東大) The University of Tokyo (略称： UTokyo)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2024-02-20 11:00:00
発表時間	15分
申込先研究会	IE
資料番号	ITS2023-64, IE2023-53
巻番号（vol）	vol.123
号番号（no）	no.380(ITS), no.381(IE)
ページ範囲	pp.95-99
ページ数	5
発行日	2024-02-12 (ITS, IE)

[研究会発表申込システムのトップページに戻る]

[電子情報通信学会ホームページ]

IEICE / 電子情報通信学会