Skip to content

IrinaArtemeva/URFU_Practice1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 

Repository files navigation

Состав команд:

  1. Ирина Артемьева
  2. Евгений Тяжков
  3. Антон Гордон
  4. Сергей Соколов

Описание:

Данное приложение реализует функцию распознавания текста на изображениях. Интерфейс на базе веб-технологии разработан с использованием Streamlit. Функция распознавания осуществляется на основе модели easyocr. Для соответствия конкретным требованиям данного приложения модель easyocr прошла дополнительное обучение. Свёрточная нейронная сеть (CNN) модели была дообучена на наборах данных изображений с кириллическими символами. Оптимизированная модель предназначена для помощи студенту в распознавании с изображения текстов на русском и английском языках, в том числе научных работ, учебных материалов и юридических документов.

Настройка страницы и дизайна

  • Используется st.set_page_config для установки конфигурации страницы, такой как заголовок и значок страницы.
  • Затем с помощью CSS-стилей изменяется дизайн страницы, включая фон, цветовые кнопки и вкладки.

Вкладки

  • Используются st.tabs для создания трех вкладок - "Распознание", "Поиск" и "Экстракция".

Распознание текста

  • Внутри вкладки «Распознание» создается форма для загрузки изображения.
  • При загрузке изображения представлена функция easyocr_recognition, использующая EasyOCR для получения текста.
  • Результат выводится на странице, если пользователь нажимает кнопку «Распознать документ из файла».

Поиск статей

  • Реализован поиск статей на сайте cyberleninka.ru с помощью ввода ключевых слов во вкладке «Поиск».

Экстракция ключевых слов

  • Извлечение ключевых слов:
    • Реализовано извлечение ключевых из текста. Формат файла: txt и pdf.
    • Для экстракции используется модель m16tem/keyphrase-extraction-kbir-inspec.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages