1.如何走出PDF字体输出的陷阱
PDF格式自Adobe于1993年推出以来,由于其强大的页面描述能力及种种显见的优点,而逐渐成为出版业中的事实标准。
但随着PDF在印前领域中的广泛应用,它给用户带来便利的同时也带来了新的输出陷阱,其中由于字体技术相对复杂、字体错误非常隐蔽这两大原因,导致字体出现印刷生产事故的概率最大,印前人员也往往较难检查出问题所在。 字体技术简述 字库有两种类型:TrueType字库和PostScript字库。
其中,TrueType字库(由Microsoft和Apple于1991年共同推出)供前端排版时显示和打印输出用,打印质量没有PostScript字库好,但完全可以满足一般用字需求;而PostScript字库是按PostScript页面描述语言(Adobe于1985年发布)定义的字库,其主要特点是可以精确绘制字型,因而在平滑性、细节和忠实性方面比TrueType字库好。 字库的始祖是Adobe开发的Type1和Apple研发的TrueType字库。
Type1是PostScript字库,只能描述256个字符。而PostScript字库发展经历了由Type1、Type3,到1990年发布的复合字库Type0格式(OCF)的历程。
随后Adobe推出CID字库,其易扩充、处理速度快、兼容性好、字体制作简单、质量高,还可有效防盗版,最新推出的字库类型为OpenType字库。 OpenType由Microsoft和Adobe共同开发,也是一种轮廓字体,但比TrueType更为强大,最明显的一个好处就是可以把PostScript字体嵌入到相应软件中,且兼容多平台,支持很大的字符集,还有版权保护功能,可以说是Type1和TrueType的超集。
OpenType字库目前已成为一种业内标准,越来越多的软件支持OpenType,越来越多的字库也升级到OpenType,如方正兰亭字库的123款OpenType字库。 PDF字体处理方法 首先我们来看PDF字体处理路径,示意见图1。
1.PDF字体嵌入的选择 虽然PDF具备自包含的特性,用户还是可根据自己的需求选择下载或嵌入字库,即提取字库轮廓的描述信息。通常生成PS时采用下载(Download),生成PDF时使用嵌入(Embed),均表示自包容文件中的字符信息。
嵌入字体可防止查看或打印文件时的缺字或字体替换,确保其以原始字体显示,但会使文件稍微变大。由于前端排版软件多用TrueType字体,PDF嵌入的字体也以TrueType为主。
若想使用后端RIP或流程中的PostScript字体,便无法选择。 虽然TrueType能够满足一定的质量要求,但相较于PostScript而言还是略差,且解释速度稍慢。
因此生成PDF时应根据输出质量要求来判断是用前端字还是后端字。若前端字能满足输出质量要求。
2.pdf里能复制文字,但黏贴出来是乱码,怎么回事?
您好!希望我参考得这个资料能够解决您现在的问题!
说明:带OCR识别,带多语言包,OCR识别支持中英文识别。 大小:32.911 MB
1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个 PDF文件识别输出到word文件中。
注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处理图形的识别问题, Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
推荐快速方法:
从CAJ文件中提取文本前需要做好以下准备工作,安装CAJ文件浏览器5.5,安装Office2003,并完全安装Office工具 Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。
CAJ文件的识别:
(一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
(二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。
(三)在CAJ浏览器程序窗口中,选择“文件”→“打印”,并选择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
(四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。
(五)在Microsoft Office Document Image窗口中,选择“页面”菜单中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用OCR识别文本”提取文本。
(六)选择“工具”下的 “将文本发送到word”,最后将把整个CAJ文件识别输出到word文件中。
3.pdf字体乱码怎么办
1. 打开PDf文档后字体变成乱码,基本上是由于电脑缺少对应的字体所造成的。我们可以通过PDF编辑器来查看PDF文档所需要的字体。打开PDF文档属性,切换到“字体”选项卡,就可以看到当前PDF文档所需要的字体。
2. 如果电脑中没有安装相应的字体 ,我们可以通过百度中搜索以获取相关的字体。如图所示,就以“仿宋GB2312”字体为例。
3. 字体下载完成后,只需要右击选择“安装”项即可自动完成字体的安装操作。或者直接将字体拷贝到“C:\Windows\Fonts”目录中就安装完成了。
4. 如果PDf文档包含许多字体,逐一安装每种字体就显得很繁琐,对此我们可以将PDf文档进行转曲操作,以达到跨平台浏览的特点。这可以借助PDF虚拟打印机来实现。打开“打印”窗口,将“打印机”选择为“Microsoft Print to pdf”项,点击“打印“按钮。
5. 此时将打开“另存为”窗口,在此输入要输出保存的PDf名称,点击“确定”按钮即可将PDf文档进行转曲操作。
6. 打开转曲后的PDF文档,在“文档属性”-“字体” 选项卡中查看 ,就会发现PDF未包含任何字体 。这样此文档可以在多种平台设备中打开,即使没有字体也是影响正常查看 。
转载请注明出处众文网 » 毕业论文输出pdf版本后字体出错(如何走出PDF字体输出的陷阱)