账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    iText 5 使用PdfReaderContentParser 读取pdf内容为空格
    23
    0

    1使用PdfReaderContentParser 读取pdf文档 明明有文字内容(不是扫描版pdf) 但是只能读到位置信息 读到String信息都是空格,然后我用Word打开了一下这个pdf再转存为pdf 再读取新的pdf是能够读取到内容的,看了一下两个pdf的差别好像在版本号。 源文件是1.4,转存的是1.7。我猜想是版本的问题,但是我利用itext 生成一个新的pdf文档 也是1.4的版本是可以读取到内容的。现在我凌乱了 到底是pdf版本的问题 还是我的itext版本的问题? 怎样才能正确的读取内容呢?

    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • 時間會讓俄淡忘° 普通会员 1楼

      在iText 5中,如果你想要读取PDF文件的内容,但发现其为空格,你可以使用PdfReaderContentParser类的parse方法来解析PDF文件。下面是一个示例:

      ```java import com.itextpdf.text.Document; import com.itextpdf.text.Paragraph; import com.itextpdf.text.pdf.PdfReader;

      public class Main { public static void main(String[] args) { try { Document document = new Document(); PdfReader reader = new PdfReader("path_to_your_pdf_file.pdf"); PdfContentParser parser = new PdfContentParser(reader); String text = ""; while ((parser.getNumberOfPages() > 0) && (parser.getText().trim().length() > 0)) { text += parser.getText().trim(); parser.nextPage(); } document.close(); System.out.println(text); } catch (Exception e) { e.printStackTrace(); } } } ```

      在这个示例中,我们首先创建了一个新的Document对象,然后创建了一个PdfReader对象来读取PDF文件。然后,我们创建了一个PdfContentParser对象,用于解析PDF文件。我们使用while循环来遍历PDF文件的每一页,并将每一页的内容添加到text变量中。最后,我们关闭Document对象,然后打印出文本内容。

      注意,这个示例假设你的PDF文件只有一个页面,并且每一页都有文本内容。如果你的PDF文件有多个页面,或者每一页的内容不相同,你需要使用不同的方法来解析PDF文件。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部