Оптическое распознавание текста (OCR)

Мы разбираем устройства и собираем их снова. Остаются лишние детали и понимание того, зачем они были нужны.

Есть вещи, которыми люди могут пользоваться годами, даже не подозревая, что они собой представляют. И если митохондриальные рибосомы – экзотичный пример, то система OCR – более расхожий. Ты наверняка не раз скачивал из сети электронные книги, а может, и сам сканировал текст, а потом засовывал его в FineReader. При этом мало кто знает, как работает система OCR, благодаря которой стала возможна конвертация печатного слова в готовые к редактированию файлы.

Для начала OCR разбивает текст на отдельные блоки, ориентируясь по белым пятнам (интервалы между главами или колонками текста). Затем набор букв разбивается на строки – опять же исходя из соотношения между черными и белыми пятнами. На этом этапе могут начаться проблемы: если лист криво лежит, а межстрочный интервал очень мал, то буквы «й» и «ё», которые не виноваты в своем уродстве, уже наверняка не распознаются. Затем система OCR начинает искать в строках знакомые буквы, совсем как это делаешь ты. Она сверяет, на какую букву из ее базы похожа каждая конкретная закорючка (иногда принимая «ы» за «ь1») и посимвольно «набирает» текст в файле. Для современных систем распознавания (используемых в программах, а также в некоторых цифровых фотокамерах с функцией «пересъемки» текста) процент совпадений может составлять до 99,9% от общего числа букв. Увы, видеть текст сквозь пятна кофе пока не умеет ни одна OCR.

Комментарии
Декабрьский номер
Декабрьский номер

100 самых сексуальных женщин страны 2016 в декабрьском MAXIM!

Новости партнеров

Рекомендуем

Закрыть
Примечание бородавочника по имени Phacochoerus Фунтик