講演抄録/キーワード |
講演名 |
2018-03-09 14:20
ソーティングを用いた部分列数え上げ符号化法 ○太田隆博(長野県工科短大)・眞田亜紀子(電通大) IT2017-135 ISEC2017-123 WBS2017-116 |
抄録 |
(和) |
部分列数え上げ符号化法(Compression by Substring Enumeration, CSE法)は,無ひずみデータ圧縮法の一つであり,ファイル処理をビット単位で行う2値CSE法とバイト単位で行う多値CSE法に分類できる.多値CSE法については,アルファベットの拡張により,バイト列を直接取り扱える長所と符号化アルゴリズムの拡張の余地がある一方で,2値CSE法と比べて圧縮率が劣る問題点がある.従来の多値CSE手法では,2値CSE法の単純な拡張なため,符号化を行う際に符号化対象となる記号列を辞書式順序で取り扱っている.本稿では,圧縮率を改善するために,符号化済みの記号列の出現回数でソーティングした順序で取り扱う手法を提案する.Calgary corpusのファイル群(14ファイル)に対する計算機実験の結果,提案手法は従来手法と比べて12ファイルで圧縮率(2ファイルは同じ)が改善し,最大で9%改善した.また,高性能な圧縮手法であるbzip2に対して,11ファイルで同等以上の圧縮率が得られた. |
(英) |
This paper proposes an improved compression by substring enumeration (CSE) with a finite alphabet. For an input string, the conventional algorithm encode its substrings including minimal forbidden words in lexicographical order. For improving compression ratios, the proposed algorithm encodes its substrings which are sorted by frequencies of proper their prefixes and suffixes. Experimental results show that compression ratios of the proposed algorithm are better than or equal to those of a conventional algorithm with a finite alphabet and well-known high-performance compressor bzip2 for all files and 11 files in 14 files of Calgary corpus, respectively. |
キーワード |
(和) |
部分列数え上げ符号化法 / 圧縮率 / 整列 / データ圧縮 / / / / |
(英) |
CSE / Compression Ratio / Sorting / Data Compression / / / / |
文献情報 |
信学技報, vol. 117, no. 487, IT2017-135, pp. 191-196, 2018年3月. |
資料番号 |
IT2017-135 |
発行日 |
2018-03-01 (IT, ISEC, WBS) |
ISSN |
Print edition: ISSN 0913-5685 Online edition: ISSN 2432-6380 |
著作権に ついて |
技術研究報告に掲載された論文の著作権は電子情報通信学会に帰属します.(許諾番号:10GA0019/12GB0052/13GB0056/17GB0034/18GB0034) |
PDFダウンロード |
IT2017-135 ISEC2017-123 WBS2017-116 |
研究会情報 |
研究会 |
WBS IT ISEC |
開催期間 |
2018-03-08 - 2018-03-09 |
開催地(和) |
東京理科大(葛飾キャンパス) |
開催地(英) |
Katsusika Campas, Tokyo University of Science |
テーマ(和) |
IT・ISEC・WBS合同研究会 |
テーマ(英) |
joint meeting of IT, ISEC, and WBS |
講演論文情報の詳細 |
申込み研究会 |
IT |
会議コード |
2018-03-WBS-IT-ISEC |
本文の言語 |
日本語 |
タイトル(和) |
ソーティングを用いた部分列数え上げ符号化法 |
サブタイトル(和) |
|
タイトル(英) |
Improved Lossless Compression by Substring Enumeration Using Sorting |
サブタイトル(英) |
|
キーワード(1)(和/英) |
部分列数え上げ符号化法 / CSE |
キーワード(2)(和/英) |
圧縮率 / Compression Ratio |
キーワード(3)(和/英) |
整列 / Sorting |
キーワード(4)(和/英) |
データ圧縮 / Data Compression |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
太田 隆博 / Takahiro Ota / オオタ タカヒロ |
第1著者 所属(和/英) |
長野県工科短期大学校 (略称: 長野県工科短大)
Nagano Prefectural Institute of Technology (略称: NPIT) |
第2著者 氏名(和/英/ヨミ) |
眞田 亜紀子 / Akiko Manada / マナダ アキコ |
第2著者 所属(和/英) |
電気通信大学 (略称: 電通大)
The University of Electro-Communications (略称: UEC) |
第3著者 氏名(和/英/ヨミ) |
/ / |
第3著者 所属(和/英) |
(略称: )
(略称: ) |
第4著者 氏名(和/英/ヨミ) |
/ / |
第4著者 所属(和/英) |
(略称: )
(略称: ) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2018-03-09 14:20:00 |
発表時間 |
25分 |
申込先研究会 |
IT |
資料番号 |
IT2017-135, ISEC2017-123, WBS2017-116 |
巻番号(vol) |
vol.117 |
号番号(no) |
no.487(IT), no.488(ISEC), no.489(WBS) |
ページ範囲 |
pp.191-196 |
ページ数 |
6 |
発行日 |
2018-03-01 (IT, ISEC, WBS) |
|