- Ирина Артемьева
- Евгений Тяжков
- Антон Гордон
- Сергей Соколов
Данное приложение реализует функцию распознавания текста на изображениях. Интерфейс на базе веб-технологии разработан с использованием Streamlit. Функция распознавания осуществляется на основе модели easyocr. Для соответствия конкретным требованиям данного приложения модель easyocr прошла дополнительное обучение. Свёрточная нейронная сеть (CNN) модели была дообучена на наборах данных изображений с кириллическими символами. Оптимизированная модель предназначена для помощи студенту в распознавании с изображения текстов на русском и английском языках, в том числе научных работ, учебных материалов и юридических документов.
- Используется
st.set_page_config
для установки конфигурации страницы, такой как заголовок и значок страницы. - Затем с помощью CSS-стилей изменяется дизайн страницы, включая фон, цветовые кнопки и вкладки.
- Используются
st.tabs
для создания трех вкладок - "Распознание", "Поиск" и "Экстракция".
- Внутри вкладки «Распознание» создается форма для загрузки изображения.
- При загрузке изображения представлена функция
easyocr_recognition
, использующая EasyOCR для получения текста. - Результат выводится на странице, если пользователь нажимает кнопку «Распознать документ из файла».
- Реализован поиск статей на сайте cyberleninka.ru с помощью ввода ключевых слов во вкладке «Поиск».
- Извлечение ключевых слов:
- Реализовано извлечение ключевых из текста. Формат файла:
txt
иpdf
. - Для экстракции используется модель
m16tem/keyphrase-extraction-kbir-inspec
.
- Реализовано извлечение ключевых из текста. Формат файла: