EPub
ePub(Electronic Publication的缩写,意为:电子出版),是一个自由的开放标准,属于一种可以“自动重新编排”的内容;也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。其是一种电子图书标准,由国际数位出版论坛(IDPF)提出,其中包括3种文件格式标准(文件的附档名为.epub),这个格式已取代了先前的Open eBook开放电子书标准。
EPub是一个自由的开放标准,属于一种可以“自动重新编排”的内容,也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPub 档案内部使用了XHTML或DTBook (一种由DAISY Consortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容。简而言之,epub就是一种国际通用的电子书标准。该格式中包含了数位版权管理(DRM)相关功能可供选用。EPub于2007年9月成为国际数位出版论坛(IDPF)的正式标准,以取代旧的开放Open eBook电子书标准。
EPub这个免费的标准格式包含了几乎所有的电子阅读器或者桌面软件皆可读取的格式,实际上已经成为电子书的实际标准。一些厂商像索尼在这些电子书的基础上添加上数字版权管理(DRM),但是其他一些厂商为这些书推出完全开放,没有数字版权管理(DRM)的版本。和PDF这种页面格式不同,EPUB是可以重新排版的格式,也就是不限定页面,屏幕小了它可以像普通文本文件一样调整行的长短等等,从而可以适应各种屏幕。其实它也就是用ZIP压缩的文本文件(说XML更好些吧),只是不知道图文混排怎么处理或者能否处理。这种格式刚出来两年,是国际数字出版论坛(IDPF)的标准格式,这种格式也可以支持数字版权管理。
在电脑上读这种EPUB格式的软件还是不少的,维基页面上也有介绍,也有在线应用。制作软件也有一些,有各种转换方式。现在书似乎已经太多,超过阅读能力,而不是格式方便与否以及免费和自由与否的问题了。EPub于2007年9月成为国际数位出版论坛(IDPF)的正式标准,以取代旧的开放Open eBook电子书标准。EPub包括三项主要规格:
* 开放出版结构(Open Publication Structure,OPS)2.0,以定义内容的版面;
* 开放包裹格式(Open Packaging Format,OPF)2.0,定义以XML为基础的.epub档案结构;
* OEBPS容纳格式(OEBPS Container Format,OCF)1.0,将所有相关文件收集至ZIP压缩档案之中。
EPub格式技术特征
epub格式电子书遵循IDPF推出的OCF规范,OCF规范遵循ZIP压缩技术,即epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件(例如winrar、winzip)进行浏览或解压处理,一个未经加密处理的epub电子书以三个部分组成。
1、文件:mimetype
每一本epub电子书均包含一个名为mimetype的文件,且内容不变,用以说明epub的文件格式。文件内容如下:
application/epub+zip //注释,表示可以用epub工具和ZIP工具打开
2、目录:META-INF
依据OCF规范,META-INF用于存放容器信息,默认情况下(即加密处理),该目录包含一个文件,即container.xml,文件内容如下:
<?xml version='1.0' encoding='utf-8'?>
<container xmlns="urn:oasis:names:tc:opendocument:xmlns:container" version="1.0">
<rootfiles>
<rootfile full-path="OEBPS/content.opf" media-type="application/oebps-package+xml" />
</rootfiles>
</container>
container.xml的主要功能用于告诉阅读器,电子书的根文件(rootfile)的路径(红色部分)和打开放式,一般来讲,该container.xml文件也不需要作任何修改,除非你改变了根文件的路径和文件名称。除container.xml文件之外,OCF还规定了以下几个文件:
(1)[manifest.xml],文件列表
(2)[metadata.xml],元数据
(3)[signatures.xml],数字签名
(4)[encryption.xml],加密
(5)[rights.xml],权限管理
对于epub电子书而言,这些文件都是可选的。
3、目录:OEBPS
OEBPS目录用于存放OPS文档、OPF文档、CSS文档、NCX文档,如果是制作中文电子书,则还包括ttf文档(即字体文档),OEBPS目录也可以建立相应的子目录,例如建立chapter目录,把各章节的OPS文档放在chapter目录之中。
其中content.opf文件和toc.ncx文件为必需,其它文件可根据电子书的具体情况而定。
4、格式优势
EPUB解决了PDF和开发人员友好性有关的所有瑕疵。一个EPUB就是一个简单ZIP格式文件(使用.epub扩展名),其中包括按照预先定义的方式排列的文件。除此以外,EPUB非常简单:
1. epub中的所有内容基本上都是XML。EPUB文件可使用标准XML工具创建,不需要任何专门或者私有的软件。
2. EPUB内容(eBook的具体内容)基本上都是XHTML 1.1(另一种格式是DTBook,为视力受限者编码书籍的一种标准。关于DTBook的更多信息请参阅参考资料,本教程中不涉及这部分)。
3. 大多数EPUB XML模式都来自现成的、可免费获得的、已发布的规范。
最关键的在于EPUB元数据是XML,EPUB内容是XHTML。如果文档构建系统产生的结果用于Web和/或基于 XML,那么也可用于生成EPUB;以google、apple为代表的众多公司都以epub作为数字图书的格式。
OPF文件构成
OPF文档是epub电子书的核心文件,且是一个标准的XML文件,依据OPF规范,主要由五个部分组成:
1、<metadata>元数据信息,由两个子元素组成:
* <dc-metadata>,其元素构成采用dubline core(DC)的15项核心元素,包括:
<title>:题名
<creator>:责任者
<subject>:主题词或关键词
<description>:内容描述
<contributor>:贡献者或其它次要责任者
<date>:日期
<type>:类型
<format>:格式
<identifier>:标识符
<source>:来源
<language>:语种
<relation>:相关信息
<coverage>:履盖范围
<rights>:权限描述
* <x-metadata>即扩展元素。如果有些信息在上述元素中无法描述,则在此元素中进行扩展。
2、<menifest>文件列表,由于列出OEBPS文档及相关的文档,有一个子元素构成,
* <item id="" href="" media-type="">,该元素由三个属性构成:
id:表示文件的ID号
href:文件的相对路径
media-type:文件的媒体类型
例如:<item id="chap01" href="chap01.xhtml" media-type="application/xhtml+xml"/>
3、<spine toc="ncx">脊骨,其主要功能是提供书籍的线性阅读次序。由一个子元素构成:
* <itemref idref="">,由一个属性构成:
*
idref:即参照menifest列出的ID
例如:<itemref idref="chap01"/>
4、<guide>指南,依次列出电子书的特定页面, 例如封面、目录、序言等, 属性值指向文件保存地址。一般情况下,epub电子书可以不用该元素。
5、<tour>导读。可以根据不同的读者水平或者阅读目的,按一定次——选择电子书中的部分页面组成导读。一般情况下,epub电子书可以不用该元素。
EPub是一个自由的开放标准,属于一种可以“自动重新编排”的内容,也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPub 档案内部使用了XHTML或DTBook (一种由DAISY Consortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容。简而言之,epub就是一种国际通用的电子书标准。该格式中包含了数位版权管理(DRM)相关功能可供选用。EPub于2007年9月成为国际数位出版论坛(IDPF)的正式标准,以取代旧的开放Open eBook电子书标准。
EPub这个免费的标准格式包含了几乎所有的电子阅读器或者桌面软件皆可读取的格式,实际上已经成为电子书的实际标准。一些厂商像索尼在这些电子书的基础上添加上数字版权管理(DRM),但是其他一些厂商为这些书推出完全开放,没有数字版权管理(DRM)的版本。和PDF这种页面格式不同,EPUB是可以重新排版的格式,也就是不限定页面,屏幕小了它可以像普通文本文件一样调整行的长短等等,从而可以适应各种屏幕。其实它也就是用ZIP压缩的文本文件(说XML更好些吧),只是不知道图文混排怎么处理或者能否处理。这种格式刚出来两年,是国际数字出版论坛(IDPF)的标准格式,这种格式也可以支持数字版权管理。
在电脑上读这种EPUB格式的软件还是不少的,维基页面上也有介绍,也有在线应用。制作软件也有一些,有各种转换方式。现在书似乎已经太多,超过阅读能力,而不是格式方便与否以及免费和自由与否的问题了。EPub于2007年9月成为国际数位出版论坛(IDPF)的正式标准,以取代旧的开放Open eBook电子书标准。EPub包括三项主要规格:
* 开放出版结构(Open Publication Structure,OPS)2.0,以定义内容的版面;
* 开放包裹格式(Open Packaging Format,OPF)2.0,定义以XML为基础的.epub档案结构;
* OEBPS容纳格式(OEBPS Container Format,OCF)1.0,将所有相关文件收集至ZIP压缩档案之中。
EPub格式技术特征
epub格式电子书遵循IDPF推出的OCF规范,OCF规范遵循ZIP压缩技术,即epub电子书本身就是一个ZIP文件,我们将epub格式电子书的后缀.epub修改为.zip后,可以通过解压缩软件(例如winrar、winzip)进行浏览或解压处理,一个未经加密处理的epub电子书以三个部分组成。
1、文件:mimetype
每一本epub电子书均包含一个名为mimetype的文件,且内容不变,用以说明epub的文件格式。文件内容如下:
application/epub+zip //注释,表示可以用epub工具和ZIP工具打开
2、目录:META-INF
依据OCF规范,META-INF用于存放容器信息,默认情况下(即加密处理),该目录包含一个文件,即container.xml,文件内容如下:
<?xml version='1.0' encoding='utf-8'?>
<container xmlns="urn:oasis:names:tc:opendocument:xmlns:container" version="1.0">
<rootfiles>
<rootfile full-path="OEBPS/content.opf" media-type="application/oebps-package+xml" />
</rootfiles>
</container>
container.xml的主要功能用于告诉阅读器,电子书的根文件(rootfile)的路径(红色部分)和打开放式,一般来讲,该container.xml文件也不需要作任何修改,除非你改变了根文件的路径和文件名称。除container.xml文件之外,OCF还规定了以下几个文件:
(1)[manifest.xml],文件列表
(2)[metadata.xml],元数据
(3)[signatures.xml],数字签名
(4)[encryption.xml],加密
(5)[rights.xml],权限管理
对于epub电子书而言,这些文件都是可选的。
3、目录:OEBPS
OEBPS目录用于存放OPS文档、OPF文档、CSS文档、NCX文档,如果是制作中文电子书,则还包括ttf文档(即字体文档),OEBPS目录也可以建立相应的子目录,例如建立chapter目录,把各章节的OPS文档放在chapter目录之中。
其中content.opf文件和toc.ncx文件为必需,其它文件可根据电子书的具体情况而定。
4、格式优势
EPUB解决了PDF和开发人员友好性有关的所有瑕疵。一个EPUB就是一个简单ZIP格式文件(使用.epub扩展名),其中包括按照预先定义的方式排列的文件。除此以外,EPUB非常简单:
1. epub中的所有内容基本上都是XML。EPUB文件可使用标准XML工具创建,不需要任何专门或者私有的软件。
2. EPUB内容(eBook的具体内容)基本上都是XHTML 1.1(另一种格式是DTBook,为视力受限者编码书籍的一种标准。关于DTBook的更多信息请参阅参考资料,本教程中不涉及这部分)。
3. 大多数EPUB XML模式都来自现成的、可免费获得的、已发布的规范。
最关键的在于EPUB元数据是XML,EPUB内容是XHTML。如果文档构建系统产生的结果用于Web和/或基于 XML,那么也可用于生成EPUB;以google、apple为代表的众多公司都以epub作为数字图书的格式。
OPF文件构成
OPF文档是epub电子书的核心文件,且是一个标准的XML文件,依据OPF规范,主要由五个部分组成:
1、<metadata>元数据信息,由两个子元素组成:
* <dc-metadata>,其元素构成采用dubline core(DC)的15项核心元素,包括:
<title>:题名
<creator>:责任者
<subject>:主题词或关键词
<description>:内容描述
<contributor>:贡献者或其它次要责任者
<date>:日期
<type>:类型
<format>:格式
<identifier>:标识符
<source>:来源
<language>:语种
<relation>:相关信息
<coverage>:履盖范围
<rights>:权限描述
* <x-metadata>即扩展元素。如果有些信息在上述元素中无法描述,则在此元素中进行扩展。
2、<menifest>文件列表,由于列出OEBPS文档及相关的文档,有一个子元素构成,
* <item id="" href="" media-type="">,该元素由三个属性构成:
id:表示文件的ID号
href:文件的相对路径
media-type:文件的媒体类型
例如:<item id="chap01" href="chap01.xhtml" media-type="application/xhtml+xml"/>
3、<spine toc="ncx">脊骨,其主要功能是提供书籍的线性阅读次序。由一个子元素构成:
* <itemref idref="">,由一个属性构成:
*
idref:即参照menifest列出的ID
例如:<itemref idref="chap01"/>
4、<guide>指南,依次列出电子书的特定页面, 例如封面、目录、序言等, 属性值指向文件保存地址。一般情况下,epub电子书可以不用该元素。
5、<tour>导读。可以根据不同的读者水平或者阅读目的,按一定次——选择电子书中的部分页面组成导读。一般情况下,epub电子书可以不用该元素。
该文章最后由 阿炯 于 2024-12-02 11:21:39 更新,目前是第 2 版。