Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Тип Реферат
Предмет Информатика и программирование
Просмотров
1543
Размер файла
20 б
Поделиться

Ознакомительный фрагмент работы:

Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Коррекция словарной базы модуля морфологического анализа «РДМА_ИПИИ»

Г.В. Дорохина, В.А. Акчурин

Введение

Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д.

Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, содержащихся в тексте. В настоящее время средства морфологического анализа русскоязычных текстов являются достаточно развитыми – результаты их оценки представлены в [2], [3].

К настоящему времени ИПИИ разработаны модуль декларативного морфологического анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологического анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов -около 3 млн словоформ, синтезированных по словарю А. А. Зализняка [6].

Оценка применения упомянутых модулей в рамках форума «Оценка методов автоматического анализа текста: морфологические парсеры русского языка» показала, что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с неверным заданием морфологической информации (МИ) словоформ – набора грамматических характеристик, присущих словоформе. Источником этих ошибок могли служить поэтапное расширение набора грамматических характеристик, используемых в модуле, а также многочисленные процедуры пополнения и корректировки , ной базы, в ходе совершенствования её наполнения.

Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные таты морфологического анализа. Так как словарная база РДМА_ИПИИ явля-источником для наполнения базы данных модуля морфологического анализа без ооваря, ошибки в ней впоследствии распространятся и на результаты бессловарного логического анализа.

В связи с этим актуальной является разработка методик проверки словарных наличие некорректных МИ и методики корректировки словарной'базы.

Объект исследования – словарная база модуля морфологического анализа. Предмет исследования – корректность морфологической информации.

Цель работы – коррекция словарной базы модуля морфологического анализа РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи:

- генерация правил выявления некорректных значений МИ на основе теоретических данных и классификация видов ошибок;

- разработка рекомендаций по коррекции словарной базы.

Правила выявления некорректных значений МИ

Для анализа словарной базы на наличие некорректных значений МИ выберем из неё все значения МИ без повторений. В результате количество различных значений МИ составило 1359.

На основе теоретических данных [7], [8] был сформирован набор из 96 правил. Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обязательных и недопустимых грамматических категорий для частей речи. В этой таблице грамматическая категория, обязательная для некоторой части речи, отмечена цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая грамматическая категория для некоторой части речи – цифрой «О».

Пустые ячейки таблицы на пересечении столбца и строки указывают на то, что грамматическая категория не является обязательной для всех словоформ данной части речи, в то же время парадигма слов данной части речи содержит хотя бы одну словоформу, которой присуща указанная грамматическая категория. В табл. 2 представлены правила определения некорректных значений МИ для случаев, соответствующих пустым ячейкам табл. 1.

Таблица 1 – Обязательные и недопустимые категории для частей речи

Грамматическая категория

Часть речи

1

2

3

4

5

6

7

8

9

10

11

12

Падеж

Время

Лицо

Степень сравнения

Вид глагола

Тип числительного

Тип местоимения

Залог

Число

Род

Возвратная форма глагола

Одушевленность

1

Наречие

0

0

0

0

0

0

0

0

0

0

0

2

Деепричастие

0

1

0

1

0

0

0

0

0

0

3

Причастие

1

1

0

0

1

1

0

4

Местоимение-прилагательное

0

0

0

0

0

0

0

0

5

Глагол

0

0

1

0

0

0

6

Местоимение-существительное

1

0

0

0

0

0

0

0

0

7

Существительное

1

0

0

0

0

0

0

0

0

8

Прилагательное

0

0

0

0

0

0

0

9

Числительное

1

0

0

0

0

0

0

0

Для последующей ссылки на правила данной таблицы необходимо каждому из них присвоить некоторый идентификатор.

Правилам табл. 1 присвоим двойной номер. Первая часть будет обозначать часть речи, к которой применяется правило, вторая – номер морфологической категории. Таким образом, правило, запрещающее ненулевое значение категории «Падеж» у глаголов,будем обозначать П5.1.

Таблица 2 – Правила определения некорректных значений МИ

Часть речи

Условие

Ошибка

Прилагательное

Число = Множественное И Род≠0

Определен род во множественном числе прилагательного

1

Число = Единственное И Род=0

Не определен род в единственном числе прилагательного

2

0душевленность=0 И Падеж=В.п. И (Число=Мн. ИЛИ Род=м.р.)

Не определена одушевленность

3

Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.)

Определена одушевленность

4

Степень сравнения = Сравнительная Степень И Род≠0

Определен род в сравнительной степени прилагательного

5

Степень сравнения = Сравнительная И Число≠0)

Определено число в сравнительной степени прилагательного

6

Степень сравнения = Сравнительная И Краткость≠0

Определена краткость в сравнительной степени прилагательного

7

Степень сравнения = Сравнительная И Падеж≠0

Определен падеж в сравнительной степени прилагательного

8

Краткая форма И Падеж≠0

Определен падеж

9

Числительное

Тип Числительного = Порядковое И Число = Множественное И Род ≠0

Определен признак рода

10

Тип Числительного = Порядковое И Число = Единственное И Род = 0

Не определен признак рода

11

Тип Числительного = Порядковое И Число = 0

Не определено число

12

Падеж=В.п. И 0душевленность=0 И (Число=Мн. ИЛИ Род=м.р.)

Не определена одушевленность

13

Одушевленность≠0 И (Падеж≠В.п. ИЛИ Число=Ед. И Род≠м.р.)

Определена одушевленность

14

Глагол

Вид глагола = Совершенный И Время = Наст. вр.

Настоящее время у глагола совершенного вида

15

Вид глагола = Несовершенный И Время = Буд.

Будущее время у глагола несовершенного вида

16

Наклонение = Повелительное И Время≠0

Определено время в повелительном наклонении глагола

17

Лицо≠0 И Род≠0

Не заданы лицо и род глагола

18

Лицо = 0 И (Время = Наст. вр. ИЛИ Время = Буд. ИЛИ Наклонение = Повелительное)

Не определено лицо

19

Время = Прош. вр. И Род = 0

Не определен род

20

Переходи. = Непереходный И Залог = Страдательный

Неверный залог

21

Форма глаг. = Возвратная И Залог = Страдательный

Неверный залог

22

Причастие

Залог = 0

Не определен залог

23

Непереходный И Залог = Страдательный

Неверный залог причастия

24

Вид=Совершенный И Время≠Прош.вр.

Неверное время

25

Число=ед. И Род=0

Не определен род

26

Число=мн. И Род≠0

Определен род

27

Число=0

Не определено число

28

НЕ Краткая форма И Падеж=0

Не определен падеж

29

Краткая форма И Падеж≠0

Определен падеж

30

В табл. 2 знаки равенство нулю («=0») значения некоторой грамматической категории обозначает, что эта категория не определена в анализируемой МИ, а неравенство нулю («^0») говорит об определенности категории в анализируемой МИ. Ссылки на правила табл. 2 будем делать по их порядковому номеру (4-й столбец). Например, П28.

С применением описанных выше правил (табл. 1,2) проведена проверка словарной базы РДМА_ИПИИ на наличие некорректных МИ. В результате было выявлено 211 значений МИ и около 44 500 словоформ, требующих корректировки.

Корректировка словарной базы РДМА_ИПИИ

Внесение автоматических изменений в словарную базу может явиться источником новых ошибок. В связи с этим идеология модуля РДМА_ИПИИ требует проверки человеком запланированных изменений.

Так как количество записей, отнесённых к ошибочным, исчисляется десятками тысяч, необходимо автоматизировать процесс классификации некорректных МИ и формирования рекомендаций по корректировке словарной базы. При этом будем использовать следующую методику.

1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ назовём Таблицей словоформ.

2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ.

3. Выберем из таблиц 1, 2 правило, согласно которому . первый элемент Остатка некорректных МИ является некорректным.

4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки устранит ошибку и не приведёт к появлению новых.

5. Добавим правило к Множеству применённых правил.

6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- 1 сей, которые не удовлетворяют ни одному из Множества применённых правил.

7. Если Остаток некорректных МИ не пуст и для его первого элемента количество словоформ с данной МИ больше порогового, перейти на шаг 3.

Таблица 3 – Корректировка словарной базы

Правило

Количество словоформ

Рекомендация

П9, ПЗО

38 468

Заменить значение категории падежа на неопределенное.

П1,П10

4 794

Заменить значение категории рода на неопределенное.

П24

899

Набор словоформ разделен по леммам – получено 27 лемм. Из них:

- 8 являются исключениями из правила и корректировке не подлежат;

- для 1 ошибочно построены страдательные формы причастия (словоформы подлежат удалению);

- в 18 ошибочно отнесены к непереходным (заменить значение категории переходности на «переходный»).

П13

123

Заменить значение категории одушевленности на «неодушевленное».

П14

42

Заменить значение категории одушевленности на неопределенное.

П7.11

120

Данная группа содержит словоформы существительных группы plura-lia tantum («имеющие только множественное число»). Часть словоформ этой группы определены как имеющие единственное число (подлежат удалению). Для остальных обнулить в МИ признак возвратной формы глагола.

П23

44

Данная группа содержит причастия от леммы «врезать», с которой словарная база работает некорректно.

Результаты применения данной методики отражены в табл. 3, где также указан порядок применения правил и рекомендации по исправлению ошибок. Данные рекомендации позволяют исправить выявленные ошибки.

Выводы

Научная новизна данной работы состоит в следующем.

1. На основе теоретических сведений сгенерированы правила выявления некорректных значений морфологической информации.

2. Разработана методика корректировки словарной базы модуля морфологического анализа.

Практическая значимость работы состоит в применимости сгенерированных правил и методики для выявления, анализа и исправления ошибок в МИ словарных баз систем обработки русскоязычных текстов на морфологическом уровне.

Список литературы

1. Антонов А. Диалог 2 роботов о всякой ерунде [Электронный ресурс] / Антонов А. – Режим доступа: http://www.roboter.ru/news/arch_spri_08/dialog_08_04_l8.htm

2. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Электронный ресурс] / О. Ляшевская, И. Астафьева, А. Бонч-Осмоловская [и др.] // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной Международной конференции «Диалог» (Бекасово, 26 – 30 мая 2010 г.). – Вып. 9 (16). – М.: РГГУ, 2010. – Режим доступа: http://ru-eval.ru/Dialog2010.pdf

3. Форум «Оценка методов автоматического анализа текста: морфологические парсеры русского языка»: Таблицы оценок 2010 [Электронный ресурс]. – Режим доступа: http://ru-eval.ru/tables_index.html

4. Дорохина Г.В. Модуль морфологического анализа слов русского языка / Г.В. Дорохина, А.П. Пав-люкова // Искусственный интеллект. – 2004. – № 3. – С. 636–642.

5. Дорохина Г.В. Модуль морфологического анализа без словаря слов русского языка / Г.В. Дорохина, В.Ю. Трунов, Е.В. Шилова // Искусственный интеллект. – 2010. – № 2. – С. 32–36.

6. Зализняк А.А. Грамматический словарь русского языка: словоизменение, около 100 000 слов / А.А. Зализняк. – М.: Русский язык, 1977. – 880 с.

7. Литневская Е. И. Морфология // Русский язык: краткий теоретический курс для школьников [Электронный ресурс] / Е.И. Литневская. – Режим доступа: http://www.gramota.ru/book/litnevskaya.php7part4.htrn

8. Розенталь Д.Э. Справочник по правописанию, произношению, литературному редактированию / Розенталь Д.Э., Джанджакова Е.В., Кабанова П.П. – [2-е изд., дополнен.]. – М.: ЧеРо, 1998. – 400 с.


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156450
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
63 457 оценок star star star star star
среднее 4.9 из 5
Тгу им. Г. Р. Державина
Реферат сделан досрочно, преподавателю понравилось, я тоже в восторге. Спасибо Татьяне за ...
star star star star star
РЭУ им.Плеханово
Альберт хороший исполнитель, сделал реферат очень быстро, вечером заказала, утром уже все ...
star star star star star
ФЭК
Маринаааа, спасибо вам огромное! Вы профессионал своего дела! Рекомендую всем ✌🏽😎
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

решить 6 практических

Решение задач, Спортивные сооружения

Срок сдачи к 17 дек.

только что

Задание в microsoft project

Лабораторная, Программирование

Срок сдачи к 14 дек.

только что

Решить две задачи №13 и №23

Решение задач, Теоретические основы электротехники

Срок сдачи к 15 дек.

только что

Решить 4задачи

Решение задач, Прикладная механика

Срок сдачи к 31 дек.

только что

Выполнить 2 задачи

Контрольная, Конституционное право

Срок сдачи к 12 дек.

2 минуты назад

6 заданий

Контрольная, Ветеринарная вирусология и иммунология

Срок сдачи к 6 дек.

4 минуты назад

Требуется разобрать ст. 135 Налогового кодекса по составу напогового...

Решение задач, Налоговое право

Срок сдачи к 5 дек.

4 минуты назад

ТЭД, теории кислот и оснований

Решение задач, Химия

Срок сдачи к 5 дек.

5 минут назад

Решить задание в эксель

Решение задач, Эконометрика

Срок сдачи к 6 дек.

5 минут назад

Нужно проходить тесты на сайте

Тест дистанционно, Детская психология

Срок сдачи к 31 янв.

6 минут назад

Решить 7 лабораторных

Решение задач, визуализация данных в экономике

Срок сдачи к 6 дек.

7 минут назад

Вариационные ряды

Другое, Статистика

Срок сдачи к 9 дек.

8 минут назад

Школьный кабинет химии и его роль в химико-образовательном процессе

Курсовая, Методика преподавания химии

Срок сдачи к 26 дек.

8 минут назад

Вариант 9

Решение задач, Теоретическая механика

Срок сдачи к 7 дек.

8 минут назад

9 задач по тех меху ,к 16:20

Решение задач, Техническая механика

Срок сдачи к 5 дек.

9 минут назад
9 минут назад
10 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно