Распознать сканы pdf |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-08-28 09:00 В прошлой статье писал про то, как скачивали файлы из базы, тут речь пойдет о том, как распознать сканы pdf, среди этих документов. Дело в том, что нужно вытащить информацию из таблиц и анализировать их в дальнейшем, поэтому надо сканы перевести в формат, который можно обработать с помощью python. На сайте pypi.org есть библиотека pytesseract от Google. Так как требуется установка движка от Google на компьютер и плюс в нашем случае это будет работа с документами которые могут содержать конфиденциальную информацию то все действия будут проводиться на внутреннем компьютере не имеющем выхода в сеть. И так скачав необходимый файл и прописав к нему путь в коде мы можем приступить к обработке файлов с помощью python: Для начала все pdf файлы мы переводим в другой формат (например, .png) с помощью библиотеки fitz: Далее все .png с помощью библиотеки pytesseract мы распознаем в текст (указывая конечно же какой язык мы используем) К сожалению бесплатная библиотека от Google очень плохо распознает потому как на выводе получился текст, который сильно отличался по смыслу от оригинала! Для типовых документов эту проблему можно решить путем написания нейронной сети и обучения ее на выборке этих документах, после чего подцеплять к pytesseract. Таким образом, мы можем просто дообучить pytesseract для своих задач, что бы он распознавал файлы без ошибок, но проблема в том, что это не универсальное решение и под каждый тип документов приходилось бы дообучать pytesseract, что не делает этот метод универсальным. Так как в наборе программных инструментов была лицензия ABBYY FineReader, то было принято решение все скачанные файлы прогонять через ABBYY и сохранять в нужном формате. Источник: newtechaudit.ru Комментарии: |
|