это быстро и бесплатно
Оформите заказ сейчас и получите скидку 100 руб.!
ID (номер) заказа
1769752
Ознакомительный фрагмент работы:
СОДЕРЖАНИЕ
Введение…………………………………………………..………………………….3
Понятие «деревья классификации» и цель их построения……………………..4
Этапы построения дерева классификации ………………………………..……..6
Область применения деревьев классификации……………………………...…10
Заключение………….………………………………………………………………14
Список литературы………………….………………………...……………………15
ВВЕДЕНИЕ
Методы многомерного разведочного анализа данных стали находить широкое применение в социально-экономических науках. Их основное преимущество заключается в том, что исследователь имеет возможность проверить априорные предположения о структуре зависимостей между переменными, описывающими какое-либо явление или объект и выдвинуть предварительные гипотезы о природе взаимосвязей между ними. К наиболее гибким методам поиска зависимостей между переменными, описывающими некий объект или явление, относится метод «деревья классификации».
Анализ деревьев применяется в ситуациях, когда "строгие предпосылки", лежащие в основе более традиционных статистических методов не выполняются. Так, если кластерный анализ решает задачу разбиения совокупности объектов на несколько однородных групп, то анализ деревьев помогает сформулировать правило, по которому объекты относятся к тому или иному классу. Именно поэтому представленная тема является довольно актуальной для рассмотрения.
Цель работы – изучить деревья классификации. Достижение поставленной цели определило необходимость решения следующего комплекса взаимосвязанных задач:
- рассмотреть понятие «деревья классификации» и цель их построения;
- выявить этапы построения дерева классификации;
- исследовать область применения деревьев классификации.
Информационной базой исследования послужили материалы научных конференций, различные научные публикации по исследуемой тематике, учебные издания, статистические и др. материалы.
Методологической базой работы послужили такие общетеоретические методы познания, как – формализация, теоретический анализ, конкретизация, логический и сравнительный анализ.
ПОНЯТИЕ «ДЕРЕВЬЯ КЛАССИФИКАЦИИ» И ЦЕЛЬ ИХ ПОСТРОЕНИЯ
Деревья классификации - это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных. Построение деревьев классификации - один из наиболее важных методов, используемых при проведении "добычи данных" [5].
Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания.
В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменным различных типов − категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации.
Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость.
В качестве примера деревьев классификации рассмотрим следующий. Представьте, что вам нужно придумать устройство, которое отсортирует коллекцию монет по их достоинству (например, 1, 2, 3 и 5 копеек). Предположим, что какое-то из измерений монет, например - диаметр, известен и, поэтому, может быть использован для построения иерархического устройства сортировки монет. Заставим монеты катиться по узкому желобу, в котором прорезана щель размером с однокопеечную монету. Если монета провалилась в щель, то это 1 копейка; в противном случае она продолжает катиться дальше по желобу и натыкается на щель для двухкопеечной монеты; если она туда провалится, то это 2 копейки, если нет (значит это 3 или 5 копеек) - покатится дальше, и так далее. Таким образом, было построено дерево классификации. Решающее правило, реализованное в этом дереве классификации, позволяет эффективно рассортировать горсть монет, а в общем случае применимо к широкому спектру задач классификации.
Далее рассмотрим этапы построения дерева классификации.
ЭТАПЫ ПОСТРОЕНИЯ ДЕРЕВА КЛАССИФИКАЦИИ
Процесс построения дерева классификации состоит из четырех основных шагов:
Выбор критерия точности прогноза.
Выбор типа ветвления.
Определение момента прекращения ветвлений.
Определение "подходящих" размеров дерева.
Рассмотрим вышеперечисленные этапы построения дерева классификации.
Выбор критерия точности прогноза.
Цель анализа с помощью деревьев классификации состоит в том, чтобы получить максимально точный прогноз. К сожалению, очень сложно четко сформулировать, что такое точный прогноз. Наиболее точным прогнозом считается такой, который связан с наименьшей ценой. В большинстве приложений цена - это просто доля неправильно классифицированных наблюдений. Понятие цена вводится для того, чтобы распространить на более широкий класс ситуаций ту идею, что самый лучший прогноз - такой, который дает наименьший процент неправильных классификаций.
Выбор типа ветвления.
Второй шаг анализа с помощью деревьев классификации заключается в том, чтобы выбрать способ ветвления по значениям предикторных переменных, которые используются для предсказания принадлежности анализируемых объектов к определенным классам значений зависимой переменной. В соответствии с иерархической природой деревьев классификации, такие ветвления производятся последовательно, начиная с корневой вершины, переходя к вершинам-потомкам, пока дальнейшее ветвление не прекратится и "неразветвленные" вершины-потомки окажутся терминальными [1].
Выделяют три метода типа ветвления:
- дискриминантное одномерное ветвление;
- дискриминантное многомерное ветвление по линейным комбинациям;
- полный перебор деревьев с одномерным ветвлением по методу CART.
3. Определение момента прекращения ветвлений.
Третий этап анализа с помощью деревьев классификации заключается в выборе момента, когда следует прекратить дальнейшие ветвления. Деревья классификации обладают тем свойством, что если не установлено ограничение на число ветвлений, то можно прийти к "чистой" классификации, когда каждая терминальная вершина содержит только один класс наблюдений (объектов). Однако обычно такая "чистая" классификация нереальна. Даже в простом дереве классификации из примера с сортировкой монет будут происходить ошибки классификации из-за того, что некоторые монеты имеют неправильный размер и/или размеры прорезей для них меняются со временем от износа. В принципе, такие ошибки можно было бы устранить, подвергая дальнейшей классификации монеты, провалившиеся в каждую прорезь, однако на практике всегда приходится в какой-то момент прекращать сортировку и удовлетворяться полученными к этому времени результатами.
Аналогично, если при анализе с помощью дерева классификации данные о классификации зависимой переменной или уровни значений предикторных переменных содержат ошибки измерений или составляющую шума, то было бы нереально пытаться продолжать сортировку до тех пор, пока каждая терминальная вершина не станет "чистой". В модуле Деревья классификации имеются две опции для управления остановкой ветвлений. Их выбор прямо связан с выбором для данной задачи Правила остановки.
Число неклассифицированных. В этом варианте ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать не более чем заданное число объектов (наблюдений). Эта опция доступна в качестве Правила остановки в двух вариантах: По ошибке классификации или По вариации. Нужное минимальное число наблюдений задается как Число неклассифицированных, и ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений) [1].
Доля неклассифицированных. При выборе этого варианта ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать количество объектов, не превышающее заданную долю численности одного или нескольких классов. Требуемую минимальную долю следует задать как Долю неклассифицированных и тогда, если априорные вероятности взяты одинаковыми и размеры классов также одинаковы, ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов. Если же априорные вероятности выбирались не одинаковыми, то ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов.
Определение "подходящих" размеров дерева.
Можно высказать ряд общих соображений о том, что следует считать "подходящими размерами" для дерева классификации. Оно должно быть достаточно сложным для того, чтобы учитывать имеющуюся информацию, и в то же время оно должно быть как можно более простым. Дерево должно уметь использовать ту информацию, которая улучшает точность прогноза, и игнорировать ту информацию, которая прогноза не улучшает. По возможности оно должно углублять наше понимание того явления, которое мы пытаемся описать посредством этого дерева. Очевидно, однако, что сказанное можно отнести вообще к любой научной теории, так что мы должны более конкретно определить, что же такое дерево классификации "подходящего размера". Одна из возможных стратегий состоит в том, чтобы наращивать дерево до нужного размера, каковой определяется самим пользователем на основе уже имеющихся данных, диагностических сообщений системы, выданных на предыдущих этапах анализа, или, на крайний случай, интуиции. Другая стратегия связана с использованием хорошо структурированного и документированного набора процедур для выбора "подходящего размера" дерева, разработанных Бриманом и др. Нельзя сказать, чтобы эти процедуры были доступны новичку, но они позволяют получить из процесса поиска дерева "подходящего размера" некоторые субъективные суждения.
Таким образом, метод характеризуется построением дерева классификации, состоящего из корневого узла, содержащего всю выборку, дочерних и родительских узлов, а также терминальных узлов, т.е. окончательных узлов, которые далее не делятся. Каждой вершине соответствует правило, согласно которому объекты относятся к тому или иному классу [4]. Алгоритм построения дерева классификации включает в себя выбор критерия точности прогноза; выбор метода построения дерева классификации; определение оптимального размера дерева и кросс проверку построенного дерева.
Выявим область применения деревьев классификации.
ОБЛАСТЬ ПРИМЕНЕНИЯ ДЕРЕВЬЕВ КЛАССИФИКАЦИИ
Рассмотрим применение метода дерева классификаций для анализа социологической информации, представляющей собой результаты опроса на тему «Благотворительность». Целью опроса было выяснить, как жители города относятся к благотворительности и насколько активно они принимают участие в тех или иных благотворительных акциях. Опросник, в том числе, включал в себя следующие вопросы [2]:
1. Оказывали ли Вы благотворительную помощь за последние пять лет? Варианты ответа: 0 – да; 1 – нет.
2. Пол респондента: 1 – мужской; 2 – женский.
3. Ваш возраст (количество полных лет).
4. Ваше образование? Варианты ответа: 1 – неполное среднее; 2 – полное среднее; 3 – профессионально-техническое с неполным средним образованием; 4 – профессионально-техническое с полным средним образованием; 5 – среднее специальное образование; 6 – неполное высшее; 7 – высшее.
5. Ваше занятие в настоящее время? Варианты ответа: 1 – работаю; 2 – учусь; 3 – нахожусь на пенсии по выслуге, по возрасту; 4 – нахожусь на пенсии по инвалидности; 5 – веду домашнее хозяйство; 6 – нахожусь в отпуске по беременности, по уходу за ребенком; 7 – безработный, ищу работу; 8 – не работаю и не ищу работу.
6. Ваш доход за последний месяц?
Выборка составила 1001 респондент, для обработки было отобрано 749 полных опросных листов, содержащих ответы на все вопросы.
Цель анализа – выделить и охарактеризовать группы респондентов, принимающих и не принимающих участие в благотворительности.
В качестве зависимой переменной выступал первый вопрос, в котором респонденты высказывали свое желание или нежелание принимать участие в благотворительных акциях. Остальные вопросы выступали в качестве независимых переменных.
Обработка результатов проводилась в программе STATISTICA. В качестве метода построения дерева использовался метод C&RT. В качестве правила остановки использовалось остановка по отклонению.
Результат применения метода – дерево классификации, позволяющее провести наглядную интерпретацию результатов (рисунок 1).
Рисунок 1 - Дерево классификации [2]
Дерево содержит 6 терминальных вершин и 5 решающих правил. Прокомментируем его, начиная с корневой вершины, в которой выборка делится на две группы в зависимости от дохода: если доход респондента менее либо равен 33 524 руб., то он попадает в группу респондентов, которые не участвуют в благотворительности (вершина 2, 615 человек), в противном случае – в группу принимающих участие в благотворительности (вершина 3, 134 человека).
Вершина 2 в свою очередь в зависимости от дохода разделяется на две группы: респонденты с доходом менее либо равным 27 470,6 руб., не принимающие участие в благотворительности (вершина 4, 405 человек), и с доходом более 27 470,6 руб., принимающие участие (вершина 5, 209 человек).
Вершина 5 разделяется на две терминальные вершины в зависимости от пола: для женщин (8 вершина, 112 человек) характерно участие в благотворительности, а для мужчин (9 вершина, 97 человек) – нет.
Вершина 4 в зависимости от дохода разделяется на две группы: респонденты с доходом менее либо равным 25 822,5 руб., не принимают участие в благотворительности (вершина 6, 315 человек), и с доходом более 25 822,5 руб., принимают участие (вершина 7, 91 человек).
Вершина 6 разделяется на две терминальные вершины в зависимости от образования: для людей с высшим образованием характерно участие в благотворительности (10 вершина, 74 человека), в противном случае – нет (11 вершина, 241 человек).
Значимость предикторов распределяется следующим образом: наиболее значимый (ранг 100) – доход, следующий по значимости – пол (ранг 65), далее образование (ранг 49) и возраст (ранг 37), самый наименее значимый предиктор – возраст (ранг 14).
Таким образом, решающим фактором, оказывающим влияние на участие респондентов в благотворительности, является доход. Также можно сделать вывод, что для женщин более характерно участие в благотворительности, чем для мужчин. Фактор образования тоже оказывает влияние на построение решающих правил: люди с невысоким доходом и высшим образованием принимают участие в благотворительности, в отличие от респондентов, не имеющих высшего образования.
Ошибки классификации на обучающей выборке составили 1,8 % для класса 0 и 1,7 % для класса 1. При проведении кросспроверки доля ошибочно классифицированных респондентов составила 4,5 %, что говорит о хорошем качестве классификации.
Изучение деревьев классификации не слишком распространено в вероятностно-статистическом распознавании образов, однако они широко используются в таких прикладных областях, как медицина (диагностика), программирование (анализ структуры данных), ботаника (классификация) и психология (теория принятия решений).
Данный анализ широко используется при обработке результатов анкетирования. В этом случае анализ деревьев позволяет понять: в чем различия между респондентами, ответившими на один и тот же вопрос по-разному.
При медицинских исследованиях использование анализа деревьев - этот ответ на вопрос, в какой последовательности проводить диагностику заболевания.
В промышленности "деревья", это правила, по которым можно диагностировать состояние производственного процесса.
В социологии анализ деревьев используется для изучения поведения различных групп населения [7].
Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традиционных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами, то более результативным будет использование именно традиционных методов. Однако, как метод разведочного анализа, или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.
ЗАКЛЮЧЕНИЕ
Деревья классификации - это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных.
Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания.
Процесс построения дерева классификации состоит из четырех основных шагов:
Выбор критерия точности прогноза.
Выбор типа ветвления.
Определение момента прекращения ветвлений.
Определение "подходящих" размеров дерева.
Изучение деревьев классификации не слишком распространено в вероятностно-статистическом распознавании образов, однако они широко используются в таких прикладных областях, как медицина (диагностика), программирование (анализ структуры данных), ботаника (классификация) и психология (теория принятия решений). Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных. Как метод разведочного анализа, или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.
Следовательно, задачи выполнены, цель-достигнута.
СПИСОК ЛИТЕРАТУРЫ
Галицкая, Е.Г. Деревья классификации / Е.Г. Галицкая, Е.Б. Галицкий // Социологические исследования. – 2017. - №3(347). – с. 84-88.
Фомина, Е.Е. Деревья классификаций как один из способов анализа социологической информации / Е.Е. Фомина // Социосфера. – 2018. – № 4. – С. 209-212.
Фомина, Е.Е. Использование методов многомерной статистики для анализа социальной и экономической информации / Е.Е. Фомина // Экономика. Социология. Право. – 2018. – № 2 (10). – С. 61–67.
Анализ статистических данных с использованием деревьев решений. [Электронный ресурс]. – Режим доступа: Режим доступа: http://math.nsc.ru/AP/ datamine/decisiontree.htm
Деревья классификации [Электронный ресурс]. – Режим доступа: http://statsoft.ru/home/textbook/modules/stclatre.html
Деревья классификации. [Электронный ресурс]. – Режим доступа: https://docplayer.ru/20542703-Derevyaklassifikacii.html
Деревья классификации. [Электронный ресурс]. – Режим доступа: http://www.nickart.spb.ru/analysis/derev.php
Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников
Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.
Цены ниже, чем в агентствах и у конкурентов
Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит
Бесплатные доработки и консультации
Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки
Гарантируем возврат
Если работа вас не устроит – мы вернем 100% суммы заказа
Техподдержка 7 дней в неделю
Наши менеджеры всегда на связи и оперативно решат любую проблему
Строгий отбор экспертов
К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»
Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован
Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн
Требуется разобрать ст. 135 Налогового кодекса по составу напогового...
Решение задач, Налоговое право
Срок сдачи к 5 дек.
Школьный кабинет химии и его роль в химико-образовательном процессе
Курсовая, Методика преподавания химии
Срок сдачи к 26 дек.
Реферат по теме «общественное мнение как объект манипулятивного воздействий. интерпретация общественного мнения по п. бурдьё»
Реферат, Социология
Срок сдачи к 9 дек.
Выполнить курсовую работу. Образовательные стандарты и программы. Е-01220
Курсовая, Английский язык
Срок сдачи к 10 дек.
Изложение темы: экзистенциализм. основные идеи с. кьеркегора.
Реферат, Философия
Срок сдачи к 12 дек.
Заполните форму и узнайте цену на индивидуальную работу!