Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


Деревья классификации

Тип Реферат
Предмет Статистика

ID (номер) заказа
1769752

200 руб.

Просмотров
1234
Размер файла
83.13 Кб
Поделиться

Ознакомительный фрагмент работы:

СОДЕРЖАНИЕ
Введение…………………………………………………..………………………….3
Понятие «деревья классификации» и цель их построения……………………..4
Этапы построения дерева классификации ………………………………..……..6
Область применения деревьев классификации……………………………...…10
Заключение………….………………………………………………………………14
Список литературы………………….………………………...……………………15


ВВЕДЕНИЕ
Методы многомерного разведочного анализа данных стали находить широкое применение в социально-экономических науках. Их основное преимущество заключается в том, что исследователь имеет возможность проверить априорные предположения о структуре зависимостей между переменными, описывающими какое-либо явление или объект и выдвинуть предварительные гипотезы о природе взаимосвязей между ними. К наиболее гибким методам поиска зависимостей между переменными, описывающими некий объект или явление, относится метод «деревья классификации».
Анализ деревьев применяется в ситуациях, когда "строгие предпосылки", лежащие в основе более традиционных статистических методов не выполняются. Так, если кластерный анализ решает задачу разбиения совокупности объектов на несколько однородных групп, то анализ деревьев помогает сформулировать правило, по которому объекты относятся к тому или иному классу. Именно поэтому представленная тема является довольно актуальной для рассмотрения.
Цель работы – изучить деревья классификации. Достижение поставленной цели определило необходимость решения следующего комплекса взаимосвязанных задач:
- рассмотреть понятие «деревья классификации» и цель их построения;
- выявить этапы построения дерева классификации;
- исследовать область применения деревьев классификации.
Информационной базой исследования послужили материалы научных конференций, различные научные публикации по исследуемой тематике, учебные издания, статистические и др. материалы.
Методологической базой работы послужили такие общетеоретические методы познания, как – формализация, теоретический анализ, конкретизация, логический и сравнительный анализ.
ПОНЯТИЕ «ДЕРЕВЬЯ КЛАССИФИКАЦИИ» И ЦЕЛЬ ИХ ПОСТРОЕНИЯ
Деревья классификации - это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных. Построение деревьев классификации - один из наиболее важных методов, используемых при проведении "добычи данных" [5].
Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания.
В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменным различных типов − категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации.
Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость.
В качестве примера деревьев классификации рассмотрим следующий. Представьте, что вам нужно придумать устройство, которое отсортирует коллекцию монет по их достоинству (например, 1, 2, 3 и 5 копеек). Предположим, что какое-то из измерений монет, например - диаметр, известен и, поэтому, может быть использован для построения иерархического устройства сортировки монет. Заставим монеты катиться по узкому желобу, в котором прорезана щель размером с однокопеечную монету. Если монета провалилась в щель, то это 1 копейка; в противном случае она продолжает катиться дальше по желобу и натыкается на щель для двухкопеечной монеты; если она туда провалится, то это 2 копейки, если нет (значит это 3 или 5 копеек) - покатится дальше, и так далее. Таким образом, было построено дерево классификации. Решающее правило, реализованное в этом дереве классификации, позволяет эффективно рассортировать горсть монет, а в общем случае применимо к широкому спектру задач классификации.
Далее рассмотрим этапы построения дерева классификации.
ЭТАПЫ ПОСТРОЕНИЯ ДЕРЕВА КЛАССИФИКАЦИИ
Процесс построения дерева классификации состоит из четырех основных шагов:
Выбор критерия точности прогноза.
Выбор типа ветвления.
Определение момента прекращения ветвлений.
Определение "подходящих" размеров дерева.
Рассмотрим вышеперечисленные этапы построения дерева классификации.
Выбор критерия точности прогноза.
Цель анализа с помощью деревьев классификации состоит в том, чтобы получить максимально точный прогноз. К сожалению, очень сложно четко сформулировать, что такое точный прогноз. Наиболее точным прогнозом считается такой, который связан с наименьшей ценой. В большинстве приложений цена - это просто доля неправильно классифицированных наблюдений. Понятие цена вводится для того, чтобы распространить на более широкий класс ситуаций ту идею, что самый лучший прогноз - такой, который дает наименьший процент неправильных классификаций.
Выбор типа ветвления.
Второй шаг анализа с помощью деревьев классификации заключается в том, чтобы выбрать способ ветвления по значениям предикторных переменных, которые используются для предсказания принадлежности анализируемых объектов к определенным классам значений зависимой переменной. В соответствии с иерархической природой деревьев классификации, такие ветвления производятся последовательно, начиная с корневой вершины, переходя к вершинам-потомкам, пока дальнейшее ветвление не прекратится и "неразветвленные" вершины-потомки окажутся терминальными [1].
Выделяют три метода типа ветвления:
- дискриминантное одномерное ветвление;
- дискриминантное многомерное ветвление по линейным комбинациям;
- полный перебор деревьев с одномерным ветвлением по методу CART.
 3. Определение момента прекращения ветвлений.
Третий этап анализа с помощью деревьев классификации заключается в выборе момента, когда следует прекратить дальнейшие ветвления. Деревья классификации обладают тем свойством, что если не установлено ограничение на число ветвлений, то можно прийти к "чистой" классификации, когда каждая терминальная вершина содержит только один класс наблюдений (объектов). Однако обычно такая "чистая" классификация нереальна. Даже в простом дереве классификации из примера с сортировкой монет будут происходить ошибки классификации из-за того, что некоторые монеты имеют неправильный размер и/или размеры прорезей для них меняются со временем от износа. В принципе, такие ошибки можно было бы устранить, подвергая дальнейшей классификации монеты, провалившиеся в каждую прорезь, однако на практике всегда приходится в какой-то момент прекращать сортировку и удовлетворяться полученными к этому времени результатами.
Аналогично, если при анализе с помощью дерева классификации данные о классификации зависимой переменной или уровни значений предикторных переменных содержат ошибки измерений или составляющую шума, то было бы нереально пытаться продолжать сортировку до тех пор, пока каждая терминальная вершина не станет "чистой". В модуле Деревья классификации имеются две опции для управления остановкой ветвлений. Их выбор прямо связан с выбором для данной задачи Правила остановки.
Число неклассифицированных. В этом варианте ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать не более чем заданное число объектов (наблюдений). Эта опция доступна в качестве Правила остановки в двух вариантах: По ошибке классификации или По вариации. Нужное минимальное число наблюдений задается как Число неклассифицированных, и ветвление прекращается, когда все терминальные вершины, содержащие более одного класса, содержат не более чем заданное число объектов (наблюдений) [1].
Доля неклассифицированных. При выборе этого варианта ветвления продолжаются до тех пор, пока все терминальные вершины не окажутся чистыми или будут содержать количество объектов, не превышающее заданную долю численности одного или нескольких классов. Требуемую минимальную долю следует задать как Долю неклассифицированных и тогда, если априорные вероятности взяты одинаковыми и размеры классов также одинаковы, ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов. Если же априорные вероятности выбирались не одинаковыми, то ветвление прекратится, когда все терминальные вершины, содержащие более одного класса, будут содержать количество наблюдений, не превышающее заданную долю объема одного или нескольких классов.
Определение "подходящих" размеров дерева.
Можно высказать ряд общих соображений о том, что следует считать "подходящими размерами" для дерева классификации. Оно должно быть достаточно сложным для того, чтобы учитывать имеющуюся информацию, и в то же время оно должно быть как можно более простым. Дерево должно уметь использовать ту информацию, которая улучшает точность прогноза, и игнорировать ту информацию, которая прогноза не улучшает. По возможности оно должно углублять наше понимание того явления, которое мы пытаемся описать посредством этого дерева. Очевидно, однако, что сказанное можно отнести вообще к любой научной теории, так что мы должны более конкретно определить, что же такое дерево классификации "подходящего размера". Одна из возможных стратегий состоит в том, чтобы наращивать дерево до нужного размера, каковой определяется самим пользователем на основе уже имеющихся данных, диагностических сообщений системы, выданных на предыдущих этапах анализа, или, на крайний случай, интуиции. Другая стратегия связана с использованием хорошо структурированного и документированного набора процедур для выбора "подходящего размера" дерева, разработанных Бриманом и др. Нельзя сказать, чтобы эти процедуры были доступны новичку, но они позволяют получить из процесса поиска дерева "подходящего размера" некоторые субъективные суждения.
Таким образом, метод характеризуется построением дерева классификации, состоящего из корневого узла, содержащего всю выборку, дочерних и родительских узлов, а также терминальных узлов, т.е. окончательных узлов, которые далее не делятся. Каждой вершине соответствует правило, согласно которому объекты относятся к тому или иному классу [4]. Алгоритм построения дерева классификации включает в себя выбор критерия точности прогноза; выбор метода построения дерева классификации; определение оптимального размера дерева и кросс проверку построенного дерева.
Выявим область применения деревьев классификации.
ОБЛАСТЬ ПРИМЕНЕНИЯ ДЕРЕВЬЕВ КЛАССИФИКАЦИИ
Рассмотрим применение метода дерева классификаций для анализа социологической информации, представляющей собой результаты опроса на тему «Благотворительность». Целью опроса было выяснить, как жители города относятся к благотворительности и насколько активно они принимают участие в тех или иных благотворительных акциях. Опросник, в том числе, включал в себя следующие вопросы [2]:
1. Оказывали ли Вы благотворительную помощь за последние пять лет? Варианты ответа: 0 – да; 1 – нет.
2. Пол респондента: 1 – мужской; 2 – женский.
3. Ваш возраст (количество полных лет).
4. Ваше образование? Варианты ответа: 1 – неполное среднее; 2 – полное среднее; 3 – профессионально-техническое с неполным средним образованием; 4 – профессионально-техническое с полным средним образованием; 5 – среднее специальное образование; 6 – неполное высшее; 7 – высшее.
5. Ваше занятие в настоящее время? Варианты ответа: 1 – работаю; 2 – учусь; 3 – нахожусь на пенсии по выслуге, по возрасту; 4 – нахожусь на пенсии по инвалидности; 5 – веду домашнее хозяйство; 6 – нахожусь в отпуске по беременности, по уходу за ребенком; 7 – безработный, ищу работу; 8 – не работаю и не ищу работу.
6. Ваш доход за последний месяц?
Выборка составила 1001 респондент, для обработки было отобрано 749 полных опросных листов, содержащих ответы на все вопросы.
Цель анализа – выделить и охарактеризовать группы респондентов, принимающих и не принимающих участие в благотворительности.
В качестве зависимой переменной выступал первый вопрос, в котором респонденты высказывали свое желание или нежелание принимать участие в благотворительных акциях. Остальные вопросы выступали в качестве независимых переменных.
Обработка результатов проводилась в программе STATISTICA. В качестве метода построения дерева использовался метод C&RT. В качестве правила остановки использовалось остановка по отклонению.
Результат применения метода – дерево классификации, позволяющее провести наглядную интерпретацию результатов (рисунок 1).
Рисунок 1 - Дерево классификации [2]
Дерево содержит 6 терминальных вершин и 5 решающих правил. Прокомментируем его, начиная с корневой вершины, в которой выборка делится на две группы в зависимости от дохода: если доход респондента менее либо равен 33 524 руб., то он попадает в группу респондентов, которые не участвуют в благотворительности (вершина 2, 615 человек), в противном случае – в группу принимающих участие в благотворительности (вершина 3, 134 человека).
Вершина 2 в свою очередь в зависимости от дохода разделяется на две группы: респонденты с доходом менее либо равным 27 470,6 руб., не принимающие участие в благотворительности (вершина 4, 405 человек), и с доходом более 27 470,6 руб., принимающие участие (вершина 5, 209 человек).
Вершина 5 разделяется на две терминальные вершины в зависимости от пола: для женщин (8 вершина, 112 человек) характерно участие в благотворительности, а для мужчин (9 вершина, 97 человек) – нет.
Вершина 4 в зависимости от дохода разделяется на две группы: респонденты с доходом менее либо равным 25 822,5 руб., не принимают участие в благотворительности (вершина 6, 315 человек), и с доходом более 25 822,5 руб., принимают участие (вершина 7, 91 человек).
Вершина 6 разделяется на две терминальные вершины в зависимости от образования: для людей с высшим образованием характерно участие в благотворительности (10 вершина, 74 человека), в противном случае – нет (11 вершина, 241 человек).
Значимость предикторов распределяется следующим образом: наиболее значимый (ранг 100) – доход, следующий по значимости – пол (ранг 65), далее образование (ранг 49) и возраст (ранг 37), самый наименее значимый предиктор – возраст (ранг 14).
Таким образом, решающим фактором, оказывающим влияние на участие респондентов в благотворительности, является доход. Также можно сделать вывод, что для женщин более характерно участие в благотворительности, чем для мужчин. Фактор образования тоже оказывает влияние на построение решающих правил: люди с невысоким доходом и высшим образованием принимают участие в благотворительности, в отличие от респондентов, не имеющих высшего образования.
Ошибки классификации на обучающей выборке составили 1,8 % для класса 0 и 1,7 % для класса 1. При проведении кросспроверки доля ошибочно классифицированных респондентов составила 4,5 %, что говорит о хорошем качестве классификации.
Изучение деревьев классификации не слишком распространено в вероятностно-статистическом распознавании образов, однако они широко используются в таких прикладных областях, как медицина (диагностика), программирование (анализ структуры данных), ботаника (классификация) и психология (теория принятия решений). 
Данный анализ широко используется при обработке результатов анкетирования. В этом случае анализ деревьев позволяет понять: в чем различия между респондентами, ответившими на один и тот же вопрос по-разному.
При медицинских исследованиях использование анализа деревьев - этот ответ на вопрос, в какой последовательности проводить диагностику заболевания.
В промышленности "деревья", это правила, по которым можно диагностировать состояние производственного процесса.
В социологии анализ деревьев используется для изучения поведения различных групп населения [7].
Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует поэтому полагать, что его рекомендуется использовать вместо традиционных методов статистики. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами, то более результативным будет использование именно традиционных методов. Однако, как метод разведочного анализа, или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.
ЗАКЛЮЧЕНИЕ
Деревья классификации - это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных.
Цель построения деревьев классификации заключается в предсказании (или объяснении) значений категориальной зависимой переменной, и поэтому используемые методы тесно связаны с более традиционными методами дискриминантного анализа, кластерного анализа, непараметрической статистики и нелинейного оценивания.
Процесс построения дерева классификации состоит из четырех основных шагов:
Выбор критерия точности прогноза.
Выбор типа ветвления.
Определение момента прекращения ветвлений.
Определение "подходящих" размеров дерева.
Изучение деревьев классификации не слишком распространено в вероятностно-статистическом распознавании образов, однако они широко используются в таких прикладных областях, как медицина (диагностика), программирование (анализ структуры данных), ботаника (классификация) и психология (теория принятия решений). Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных. Как метод разведочного анализа, или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.
Следовательно, задачи выполнены, цель-достигнута.
СПИСОК ЛИТЕРАТУРЫ
Галицкая, Е.Г. Деревья классификации / Е.Г. Галицкая, Е.Б. Галицкий // Социологические исследования. – 2017. - №3(347). – с. 84-88.
Фомина, Е.Е. Деревья классификаций как один из способов анализа социологической информации / Е.Е. Фомина // Социосфера. – 2018. – № 4. – С. 209-212.
Фомина, Е.Е. Использование методов многомерной статистики для анализа социальной и экономической информации / Е.Е. Фомина // Экономика. Социология. Право. – 2018. – № 2 (10). – С. 61–67.
Анализ статистических данных с использованием деревьев решений. [Электронный ресурс]. – Режим доступа: Режим доступа: http://math.nsc.ru/AP/ datamine/decisiontree.htm
Деревья классификации [Электронный ресурс]. – Режим доступа: http://statsoft.ru/home/textbook/modules/stclatre.html
Деревья классификации. [Электронный ресурс]. – Режим доступа: https://docplayer.ru/20542703-Derevyaklassifikacii.html
Деревья классификации. [Электронный ресурс]. – Режим доступа: http://www.nickart.spb.ru/analysis/derev.php


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156450
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
63 457 оценок star star star star star
среднее 4.9 из 5
Филиал государственного бюджетного образовательного учреждения высшего образования Московской област
Спасибо Елизавете за оперативность. Так как это было важно для нас! Замечаний особых не бы...
star star star star star
РУТ
Огромное спасибо за уважительное отношение к заказчикам, быстроту и качество работы
star star star star star
ТГПУ
спасибо за помощь, работа сделана в срок и без замечаний, в полном объеме!
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

решить 6 практических

Решение задач, Спортивные сооружения

Срок сдачи к 17 дек.

только что

Задание в microsoft project

Лабораторная, Программирование

Срок сдачи к 14 дек.

только что

Решить две задачи №13 и №23

Решение задач, Теоретические основы электротехники

Срок сдачи к 15 дек.

только что

Решить 4задачи

Решение задач, Прикладная механика

Срок сдачи к 31 дек.

только что

Выполнить 2 задачи

Контрольная, Конституционное право

Срок сдачи к 12 дек.

2 минуты назад

6 заданий

Контрольная, Ветеринарная вирусология и иммунология

Срок сдачи к 6 дек.

4 минуты назад

Требуется разобрать ст. 135 Налогового кодекса по составу напогового...

Решение задач, Налоговое право

Срок сдачи к 5 дек.

4 минуты назад

ТЭД, теории кислот и оснований

Решение задач, Химия

Срок сдачи к 5 дек.

5 минут назад

Решить задание в эксель

Решение задач, Эконометрика

Срок сдачи к 6 дек.

5 минут назад

Нужно проходить тесты на сайте

Тест дистанционно, Детская психология

Срок сдачи к 31 янв.

6 минут назад

Решить 7 лабораторных

Решение задач, визуализация данных в экономике

Срок сдачи к 6 дек.

7 минут назад

Вариационные ряды

Другое, Статистика

Срок сдачи к 9 дек.

8 минут назад

Школьный кабинет химии и его роль в химико-образовательном процессе

Курсовая, Методика преподавания химии

Срок сдачи к 26 дек.

8 минут назад

Вариант 9

Решение задач, Теоретическая механика

Срок сдачи к 7 дек.

8 минут назад

9 задач по тех меху ,к 16:20

Решение задач, Техническая механика

Срок сдачи к 5 дек.

9 минут назад
9 минут назад
10 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно
    Введите ваш e-mail
    Файл с работой придёт вам на почту после оплаты заказа
    Успешно!
    Работа доступна для скачивания 🤗.