2012年8月27日月曜日

docx,pptx,xlsxの実体はzip

前回の投稿でバイナリデータのヘッダについて触れましたが、 http://2ndgd.blogspot.jp/2012/08/blog-post_24.html こちらのリンクにあるように、Office関連のファイルは同じヘッダで 区別することができません。 http://www.garykessler.net/library/file_sigs.html また、上記参考リンクの「DOCX, PPTX, XLSX」の項目にあるように、 office2007製品から拡張子が変わっているだけでなく、 「OOXML」というXML形式にデータの仕様が変わっており それらの実体はZIP圧縮されたデータで、「DOCX, PPTX, XLSX」などのファイルの 拡張子を「.zip」に変更して解凍するとその中身が 複数のxmlファイルや画像ファイルなどから構成されていることが確認できます。 今更なお話でした。

0 件のコメント:

コメントを投稿