我相信大家都有过这样的需求,把doc、ppt、excel、pdf、txt中的文本内容提取出来。提取出来的文本内容可用于文档内容的全文索引,文档的基本内容摘要等。在度娘上搜索“如何提取文档内容”,确实有很多demo可以借鉴,但是,很多demo要么是需要付费的jar包,要么提取出的内容不全或者乱码。Java有许多开源工具包可用,尚且还不完美,何况其它一些开发语言如node、golang、ruby、py...
阅读全文