A web application for marking up texts and searching for terms in parallel scientific and technical texts.
Разработка системы извлечения многокомпонентных терминов и их переводных эквивалентов из параллельных научно-технических текстов
Разработать приложение, которое позволит пользователю размечать тексты, сохранять выделенные термины, а также анализировать их. Выделенным терминам можно будет присваивать характеристики, чтобы потом по ним можно было искать термины в БД.
Создание терминологических баз данных представляет собой сложный и трудоемкий процесс, требующий значительного количества времени на их создание и обновление, что особенно важно для развивающихся терминологий таких предметных областей, как авиация, космонавтика, нанотехнологии, биоинженерия, информационные технологии и многих других. Одним из наиболее время-затратных процессов является ручной сбор иллюстративного материла - извлечение специальной терминологии из коллекций текстов, что требует наличия средств автоматического извлечения многокомпонентных терминов при обработке научно-технических текстов.
Разрабатываемая система предназаняена для создания терминологической базы данных (ТБД) и проведения исследований в области компьютерной лингвистики. Я этой темой занимаюсь почти 2 года и аналогов назвать не могу. Отдалённо похожие системы:
- Переводчики (Google, Яндекс, Deepl): позволяют размечать тексты, но не дают работать с терминологией. Также нет возможности редактировать "разметку".
- Словари (thesaurus): позволяют в какой-то степени изучать терминологию, но не дают возможности дополнять её на основе размеченных текстов.
Дополнение к п.4: ранее мной уже была разработана система извлечения терминов из текстов. С ней работали преподаватели с факультета лингвистики, проводились студенческие практики, даже есть научные публикации. Цель моей работы - исправить старые архитектурные ошибки и разработать полноценную систему с хранилищем. Эта работа нужна нашим лингвистам для исследований и сбора терминологической базы (и мне для закрытия курсовой по БД)
- Параллельная работа с текстами на русском и английском языке;
- Разметка текстов, т.е. выделение цветом в тексте подстрок произвольной длины;
- Создание нескольких разметок одного текста и их переключение (так, разметка текста будет вестись на нескольких "слоях")
- Добавление новых слоёв разметки текстов;
- Присвоение характеристик выделенным элементам текста;
- Сохранение разметки текстов;
- Просмотр, редактирование и удаление выделенных из текстов элементов и их характеристик;
- Незарегистрированый пользователь:
- войти в аккаунт.
- Студент:
- выйти из аккаунта;
- разметить тексты, т.е. выделить терминологические единицы и сохранить их в базу данных, перед этим опционально отредактировав их и присвоив им характеристики (метки), а также сопоставив термины, если обрабатываются не одиночные, а параллельные тексты;
- провести поиск терминов в базе данных по заданным характеристикам, присвоенным на этапе разметки (студент работает только с теми терминами, которые он выделял); по необходимости терминам можно добавлять характеристики и редактировать их.
- Преподаватель:
- выйти из аккаунта;
- разметить тексты, т.е. выделить терминологические единицы и сохранить их в базу данных, перед этим опционально отредактировав их и присвоив им характеристики (метки), а также сопоставив термины, если обрабатываются не одиночные, а параллельные тексты;
- провести поиск терминов в базе данных по заданным характеристикам, присвоенным на этапе разметки (студент работает только с теми терминами, которые он выделял); по необходимости терминам можно добавлять характеристики и редактировать их;
- добавить новый слой разметки текстов (тексты можно размечать по словам, терминам, семантичесим падежам и т.д.).
- Администратор:
- выйти из аккаунта;
- разметить тексты, т.е. выделить терминологические единицы и сохранить их в базу данных, перед этим опционально отредактировав их и присвоив им характеристики (метки), а также сопоставив термины, если обрабатываются не одиночные, а параллельные тексты;
- провести поиск терминов в базе данных по заданным характеристикам, присвоенным на этапе разметки (студент работает только с теми терминами, которые он выделял); по необходимости терминам можно добавлять характеристики и редактировать их;
- добавить новый слой разметки текстов (тексты можно размечать по словам, терминам, семантичесим падежам и т.д.);
- создавать и удалять аккаунты пользователей, а также выдавать им роли;
- конфигурировать базу данных, делать её резервные копии.
Тип приложения: Web SPA
Технологический стек: Swagger, Golang, PostgreSQL, ???Frontend???
13. UML диаграммы классов для двух отдельных компонентов - компонента доступа к данным и компонента с бизнес-логикой
Основные цвета:
- #00ABE4 - цвет кнопок и рамок;
- #E9F1FA - цвет фона;
- #FFFFFF - цвет полей ввода/вывода;
- #000000 - цвет текста и иконок.
Цвета слоёв разметки текстов:
- #A5B3FF
- #7CDAEF
- #E49196
- #FF9E57
- #97F9A1
Радиусы скруглений:
- 10px - маленькие кнопки (выход из аккаунта, удаление элемента и т.д.);
- 15px - большие кнопки и информационные блоки.
https://ru.pinterest.com/andreysapozhkov535/computer-linguistics/