我们常以为自己知道什么是 PDF,但很少有人真正详细解释过。本文旨在用清晰、易懂的方式介绍 PDF,而不过分技术化。我们将讲解基础知识,包括 PDF 的内部结构以及为什么它至今仍然如此流行。现在开始吧!
PDF 基础
定义
PDF 是……的缩写 Portable Document Format. 它是一种电子文档格式,被设计成看起来和使用方式都像纸质文件。“Portable(可移植)”表示无论在什么设备或环境下查看,PDF 都应保持相同的外观。
历史
PDF 由 Adobe 于 1991 年创建,并成为开放标准,使任何人都可以开发创建、处理和查看 PDF 的工具。2008 年,它被标准化为 ISO 标准, 进一步推动了其广泛应用。
特性
PDF 的一个关键特征是它是自包含的;显示文档所需的一切都包含在文件中。这使得 PDF 易于传输、存储和 归档. 此外,PDF 阅读器 Adobe Reader 是免费的,这也促进了 PDF 的广泛使用。了解 PDF 的结构,可以帮助你更高效地使用 Acrobat 等工具处理文档项目。
PDF 如何工作?
简单 PDF
从本质上讲,PDF 就像一个装有多张独立 页面. 的活页夹或文件夹。你可以向 PDF 中添加页面、拆分页面,并在不同 PDF 之间移动页面,就像在活页夹中整理纸张一样。
PDF 还包含一组适用于整个文档的数据,称为 文档级数据. 其中包括文档安全信息、 元数据, 以及适用于整个文档的其他属性。
你可以把它想象成一个实体纸质活页夹,上锁并在封面内外写有信息。通过这个纸质活页夹的类比,更容易理解这些属性在电子 PDF 文档中的作用。
PDF 的更多内容
当然,PDF 远不止这些。下面我们更详细地看看文档级别的内容。
PDF 包含:
- 书签: 书签 用作导航机制,类似目录。
- 安全数据: 用于控制对文档的访问。
- 附件: 这是真实文件附加在 PDF 中,使 PDF 的行为有点像 zip 文件。
- 文档脚本: 文档级脚本会在打开或打印 PDF 等各种文档级事件中被触发。
- 表单字段与数据: 虽然用户在页面上与表单字段交互,但这些字段在文档级进行维护。字段在整个文档中是全局的,而 小部件 则是在特定页面上用于显示这些字段的本地外观和用户界面。
- 文档元数据: 包括作者、标题和关键词等信息。
- 各种资源: 包括字体、色彩空间、图像、视频等,用于文档的其他部分。
PDF 的各个页面是用户看到并与之交互的部分。这些页面通过一个绘制页面内容的渲染引擎来显示。渲染引擎需要字体、色彩空间定义和图像等资源。这些资源都包含在 PDF 中,有助于实现其可移植性。但字体是个例外,并不一定必须嵌入到 PDF 中。
当字体被嵌入时,它会包含在 PDF 内。如果未嵌入,Acrobat 会在用户系统中查找该字体,或使用不需要嵌入的默认字体。因此,有时 PDF 并非完全自包含。
元素类型
在页面上,有两种类型的元素: 静态页面内容 和 批注列表. 静态页面内容包括所有普通文本、图形和图像(主文档内容)。
批注 是用户可以交互的特殊元素,例如表单字段控件、评论和标记工具以及多媒体工具。与静态内容不同,批注并不总是可见的。例如,链接是一种批注,它在页面上占据空间,但可能没有任何可见外观。
当绘制一个圆形这样的批注时,它呈现为红色的圆形线条。在 PDF 结构内部,页面内容和批注都是使用同一种 矢量图形语言. 渲染引擎会先绘制页面内容,然后按指定顺序绘制批注。这种分层方式使批注看起来像是浮在页面内容之上。
批注为 PDF 提供 动态 和 交互功能 。它们是页面上唯一能响应用户操作(如按键和鼠标点击)的元素。例如,一个圆形批注可以被选中、移动和调整大小。
不同类型的批注提供不同的交互方式。便笺批注会提示用户输入文本,并且可以移动但无法调整大小。每种批注类型对用户输入的响应方式都不相同,在呈现在主页面内容之上的同时增强了 PDF 的交互能力。
编辑 PDF
PDF 中的页面内容理应是静态的。在 Adobe Reader 中查看时,页面内容保持不可更改,因为该阅读器没有提供修改工具。然而,在 Adobe Acrobat 中,你可以直接编辑内容。最好在用于创建文档的原始应用程序中进行编辑。
完成修改后,再次将文档保存为 PDF。此方法可以保持文档完整性,避免潜在的格式和内容准确性问题。
提示: 如果你需要快速编辑,PDF2Go 通过其 PDF 转 Word 转换器. 为你提供了便捷的在线解决方案。该工具可以将 PDF 转换为可编辑的 Word 文档,从而更轻松地进行全面修改。完成编辑后,你可以轻松地 将文档重新保存为 PDF 格式.
图形操作符
图形操作符 是精确渲染 PDF 内容的基础元素。这些操作符构成图形语言的核心,决定了 PDF 页面上出现的每一项内容,无论是文本等静态内容,还是批注等动态元素。
矢量图形是对绘制内容的精确描述,由这些操作符组成。它们指定关键信息,如线条的起点和终点、颜色、粗细以及其他视觉属性。这套详细的指令集可确保 PDF 中的每个图形元素在不同查看平台以及打印过程中都能被准确再现。
PDF 结构
PDF 的内部结构可以被想象成一棵树。顶部是文档级属性(元数据、脚本、页面、安全信息、AcroForm),下面是一组页面,每个页面包含 静态内容, 一组 资源 用于渲染该内容,以及一份 批注列表.
请注意,批注会使用 PDF 中的资源。如果一个批注具有可视外观,它会使用与主页面内容相同的矢量图形语言。换句话说,它需要与主体内容相同的资源才能被正确渲染和显示。
AcroForm
“ AcroForm 类似于整个 PDF 文档中所有表单字段及其数据的主列表。你在各个页面上看到的每个字段控件,本质上都是该主列表中条目的一个副本。值得注意的是,这些表单字段控件在 PDF 结构中与评论和标记批注一起列出。
对于负责在页面上显示所有内容的渲染引擎来说,所有批注(无论是表单字段还是标记)都被一视同仁地当作需要显示的元素。这些批注类型之间真正的区别在于它们的交互处理方式,而不在于它们的可视呈现方式。
总结
了解 PDF 的结构和功能有助于充分发挥其潜力,无论是用于创建表单、保护文档,还是可靠地共享信息。借助可靠的 PDF工具, 尽情探索并利用这一通用格式的强大功能吧!