比如一些直接从网上下载的PDF文件,比如下面这个PDF文档,它的原始格式是word。
其实就像一幅画一样。它不能被复制或编辑。
一般来说,将文字较多或图片较少的PDF文档转换成可编辑的word文档更容易也更可行。
新版office支持直接打开转换PDF,但是经常会有这个提示。它超出了word支持的页面大小,无法打开。可以先试试。
Word打不开,用acrobat的字符识别功能。首先识别文档。
这种文字基本上可以直接识别,识别率还是挺高的(因为文档中文字比较多,难度也不大)。我们直接复制到记事本进行格式化,然后粘贴到word中。效果挺好的。
但是不要识别,直接用acrobat存成word,没有效果。
会有一些识别错误,这当然是不可避免的。您仍然需要比较原始文档来纠正它。此外,必须牺牲原有的字体格式和布局。
让我们提高难度。扫描PDF。
和上面的身份证明文件然后到word一样。然后就像下图。
当文档很复杂时,Acrobat无法工作。毕竟OCR字符识别不是acrobat的强项。
在这里,我们可以使用ABBYY软件来转换PDF。目前可以算是OCR字符识别的佼佼者。
把它拖进去,让它自动识别就行了。有300多页,过程有点长。它会直接扫描PDF文档的图片来识别文字。而且,这个工具很大程度上保留了原格式的样式和排列。
识别后直接保存为word文档。
效果还是很好的。