Чо-то я тут ехал, читал книжку в электронной книжке, а она ж распознанная и там есть ошибки - неправильно распознанные символы. И я задумался, а не написать ли свою программу распознавания. Испытать силы так сказать. Раньше я и подумать о таком боялся, а ща чо-то "а хер ли там сложного?"

Сложное, конечно, есть. Одно дело, ты работаешь с линиями и кругами, нарисованными в Paint. У тебя идеально белый фон, идеально чёрные линии и больше ничего. Другое дело работать с реальными сканами. Фон - градации серого, символы тоже градации серого, и хер его знает, как их распознавать - может быть написано всё, что угодно. Но несколько интересных идей мне в голову сразу пришло. Думаю, не одному мне. Вот, например, программе проще распознавать, если она знает, с каким языком имеет дело, а также, с каким текстом - художественный, технический, научный. Можно использовать словари, частоты символов в словах для конкретного языка. Надо быть готовым к тому, что символы могут быть написаны разным шрифтом. Но как правило, основная часть текста написана одним шрифтом и на это тоже стоит опираться - т.е. если ты не уверен, что это за символ - проверить, не поменялся ли шрифт. Если не поменялся, проверить соседние символы и по частотам попытаться определить искомое. Думаю, афтарам программ распознавания такие мысли тоже в голову приходили.

Если бы я смог такое написать, то, в отличие от кубика Рубика и спрайтовой графики БК эта программа была бы гораздо более востребована. Так что пока написал тут, чтобы не забыть, что я вообще на такое замахнулся. А пока я увлечён мебельным проектом, о котором расскажу чуть позже. Впрочем, надеюсь, на него много времени не уйдёт.

@темы: программирование