Есть ли библиотека Java для преобразования документа из PDF в HTML?

Реализация с открытым исходным кодом будет предпочтительным.

11.12.2008 10:49:48
Я хотел бы знать решение для этого тоже. PDFBox может сделать это ( java.dzone.com/articles/… ), но очень ограниченным образом.
Alp 2.05.2011 11:15:21
3 ОТВЕТА
РЕШЕНИЕ

Очевидно, что это не простая задача, форматирование PDF намного богаче, чем форматирование HTML (плюс вы должны извлекать изображения, связывать их и т. Д.).
Простое извлечение текста намного проще (хотя и не тривиально ...).
Я вижу в боковой панели вашего вопроса похожий вопрос: преобразование PDF в HTML с Python, который указывает на библиотеку (poppler, который, по-видимому, написан на C ++, возможно, доступен с помощью JNI / JNA) и на связанный вопрос, который предлагает даже больше ответов.

2
23.05.2017 10:32:49

Только те, о которых я знаю, должны быть оплачены.

БФО
JPedal

1
11.12.2008 11:08:28

Попробуйте использовать PDFBox от Apache Foundation .

1
4.11.2014 23:03:20