КулЛиб электронная библиотека
Всего книг - 578715 томов
Объем библиотеки - 868 Гб.
Всего авторов - 231593
Пользователей - 106426

Впечатления

lopotun про Похлёбкин: Специи и приправы (Кулинария)

Жаль человека. Он бы ещё много чего смог рассказать интересного и о кухне и об истории развития нашей страны, и не только нашей, если бы не убили его какие-то подонки в 2000-м году. :((

Рейтинг: +4 ( 4 за, 0 против).
Serg55 про Вязовский: Властелин земли (Неотсортированное)

нормальные книги, жду продолжение...

Рейтинг: 0 ( 0 за, 0 против).
Colourban про Абрамов: Большое Домино (Альтернативная история)

5-я книга в самиздате есть, а издательский файл будет только когда опубликуют в бумаге.

Рейтинг: 0 ( 0 за, 0 против).
vovih1 про Абрамов: Большое Домино (Альтернативная история)

5 книга будет?

Рейтинг: +1 ( 1 за, 0 против).
Stribog73 про Котова: Стальные небеса (Героическая фантастика)

Это не автор заблокировала. Это ЛитРес заблокировал - они эти книги продают.

Рейтинг: +3 ( 3 за, 0 против).
Serg55 про Котова: Стальные небеса (Героическая фантастика)

Хорошие книги, но автор почему-то их заблокировала для чтения?

Рейтинг: 0 ( 0 за, 0 против).
Влад и мир про Винокуров: Начало (Космическая фантастика)

Читать о матерном дебиле не интересно, так как большая часть речи матерные связки и самоунижение личного достоинства ГГ. Я с автором и ГГ о его умственными способностями согласен и потому читать не интересно. Отстой.

Рейтинг: +1 ( 1 за, 0 против).
Форумы - Флудильня - Вы можете помочь в распознавании (OCR) либгена
DeMorte
DeMorte's picture
Оффлайн
Зарегистрирован: 26.09.2012

Stager проработал метод массового распознавания djvu-части либгена, в которой числится приблизительно 80 000 книг без текстового слоя. Вы можете принять участие и помочь в создании коллекции, пригодной для полнотекстового поиска. Страница начинания: http://lbc.rsl.ru/massocr/

Цитата:
Распознавание текста в библиотеке LibraryGenesis цель инициативы - распознать и дополнить текстовым слоем все сканированные в картинках книги в библиотеке. Распознавание производится силами участников инициативы, с помощью свободного программного обеспечения, на безвозмездной основе.

Если вы хотите присоединиться к инициативе - вам нужно иметь компьютер под управлением Linux, с установленной программой tesseract для распознавания, ocrodjvu для обработки djvu файлов, и скриптом на python, координирующим работу.
Описание скрипта, инструкции по установке, ссылки на скачивание.

обсуждение на форуме либгена: http://genofond.org/viewtopic.php?p=38917#p38917

Пожалуйста, присодединяйтесь - вместе результат заставит себя ждать возможно не год, а пару месяцев!

ANSI
ANSI's picture
Оффлайн
Библиотекарь
Зарегистрирован: 30.09.2012
Премия "Супер-библиотекарь" (Сделано 10000 действий с базой библиотеки!)Премия "Книжный Гуру" (Добавлено 1000 книг в библиотеку!)Мастер критики (Написано 100 отзывов!)Люди ждут ваш отзыв (Достигнуто 100 положительных оценок в отзывах!)Премия "Известный блогер" (Добавлено 100 записей в блог!)Премия "Авторитет форума" (Добавлено 10000 сообщений на форуме!)
Re: Вы можете помочь в распознавании (OCR) либгена

идея интересная... а нельзя файнридером распознавать и назад в djvu? хотя... смысл? тогда уж выводить в doc хотя бы... а ссылок на тессеракт на данном сайте нету... вот djvu express 5.5 довольно сносно распознает автоматом (с ОЦРкой от Iris), хотя базы там такие же, как в Iris 12 corporate (такие же кривые)... лучше бы отработать идею подключения баз языков от файнридера, а то слишком много лишней работы получается (импорт в файнридер - распознавание - вычитка - вклейка)

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".