Автор: Cocpucm
Дата: 02-03-07 11:28
Отвечу, хоть и с опозданием
В моем пиратском FineReader'е полный комплект языков распознавания (около ста). Есть, в том числе, и русский в старой орфографии. Система распознавания работает нормально (сам распознавал около 30 страниц), но есть одно очень большое НО: словарной поддержки у дореволюционной орфографии (в отличии от русского в современной) нет. Соответственно, качество распознавания неидеального скана будет существенно хуже, чем у современного русскаго текста. Как результат, мне приходилось много времени тратить на ручное редактирование (примерно на порядок бОльшее, чем на современный текст), и от распознавания Грота пришлось отказаться. хотя признаюсь, что распознавание быстрее, чем набор текста вручную.
Есть еще одна трудость. В некторых книгах XIX в. строчная "ф" внешне похожа на заглавную "Ф", только меньшего размера, и FineReader распозает ее именно как заглавную. Честно говоря, меня это бесило. Я уж молчу про книги XVIII – начала XIX вв., когда и "т" печаталось почти как "m", и "ъ" как "Ъ", и "i" как "ї" ;-)
|
|