从pdf文件中提取文本 -凯发k8网页登录

天平山上白云泉，云自无心水自闲。何必奔冲山下去，更添波浪向人间！

posts - 288, comments - 524, trackbacks - 0, articles - 6

凯发k8网页登录-凯发天生赢家一触即发官网 :: 凯发k8网页登录首页 :: 新随笔 :: 联系 :: 聚合

从pdf文件中提取文本

posted on 2016-11-28 11:03 云自无心水自闲阅读(312) 评论(0) 编辑收藏

有好几个java library都可以实现这个功能，但是从pdf提取文本的一个问题是，提取出来的文本没有固定的顺序，不容易比较好的还原其格式。

我的做法是使用pdfclown来进行这项工作。官方网站是：https://pdfclown.org/ 先下载其最新版本。
参考其示例代码：https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

使用这段代码，我们不仅可以得到文本的字符串，还能得到文本的页数和相对坐标。
我的思路是先把所有文本的字符串和坐标提取出来。然后排序，排序的顺序是纵坐标，然后横坐标。
这样排序完毕后，就能比较好的解决文本格式问题。

新用户注册


只有注册用户后才能发表评论。




网站导航:

从pdf文件中提取文本 -凯发k8网页登录

从pdf文件中提取文本

日历

留言簿(3)

随笔分类

随笔档案

最新随笔

积分与排名

最新评论

阅读排行榜

评论排行榜