2012年8月27日月曜日
docx,pptx,xlsxの実体はzip
前回の投稿でバイナリデータのヘッダについて触れましたが、
http://2ndgd.blogspot.jp/2012/08/blog-post_24.html
こちらのリンクにあるように、Office関連のファイルは同じヘッダで
区別することができません。
http://www.garykessler.net/library/file_sigs.html
また、上記参考リンクの「DOCX, PPTX, XLSX」の項目にあるように、
office2007製品から拡張子が変わっているだけでなく、
「OOXML」というXML形式にデータの仕様が変わっており
それらの実体はZIP圧縮されたデータで、「DOCX, PPTX, XLSX」などのファイルの
拡張子を「.zip」に変更して解凍するとその中身が
複数のxmlファイルや画像ファイルなどから構成されていることが確認できます。
今更なお話でした。
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿