это быстро и бесплатно
Оформите заказ сейчас и получите скидку 100 руб.!
ID (номер) заказа
6291156
Ознакомительный фрагмент работы:
Содержание
Введение. 2
1. РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ.. 4
1.1 Постановка задачи. 4
1.2 Загрузка датасета. 5
1.3 Описание датасета. 6
1.4 Корректировка типов данных. 7
1.5 Удаление пропусков, Nan и одинаковых значений. 8
1.6 Корреляции и зависимости. 10
1.7 Выводы.. 13
2. Предварительная обработка данных. 14
2.1 Обработка пропусков. Как было установлено в EDA, наиболее значимые пропуски – в признаках Age, Cabin и Embarked. 14
2.2 Кодирование категориальных признаков. 16
2.3 Масштабирование признаков. 18
3. Линейная регрессия (оценка возраста) 20
3.1 Постановка задачи. 20
3.2 Модель. 21
3.3 Результаты регрессии. 23
3.4 Выводы.. 24
4. Логистическая регрессия (прогноз выживаемости) 25
4.1 Признаки для модели. 25
4.2 Обучение модели. 27
4.3 Оценка качества классификации. 28
ЗАКЛЮЧЕНИЕ. 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. 32
ПРИЛОЖЕНИЕ А.. 33
Катастрофа «Титаник» – одно из самых известных кораблекрушений XX века. «Титаник» был крупнейшим пассажирским судном 1912 года; в ночь с 14 на 15 апреля 1912 года, во время своего первого рейса, он столкнулся с айсбергом и затонул в северной Атлантике. В результате погибло 1502 человека из 2224 пассажиров и членов экипажа. Данные о пассажирах, находившихся на борту, были собраны в таблицы. Эти данные стали классическим учебным примером для анализа данных и задач машинного обучения. Цель данной курсовой работы – провести всесторонний анализ данных пассажиров «Титаника» с применением классических методов машинного обучения. Мы последовательно выполним разведочный анализ данных, подготовим данные (очистка, кодирование категориальных признаков, нормализация), построим и обучим модели линейной регрессии (для решения задачи регрессии – оценки возраста) и логистической регрессии (для решения задачи классификации – прогноз выживаемости пассажира).
Для моделей будут рассчитаны соответствующие метрики качества, а результаты проанализированы. В заключении подведём итоги проделанной работы. В ходе исследования используются открытые данные соревнования Titanic: Machine Learning from Disaster с портала Kaggle (файлы train.csv, test.csv и gender_submission.csv). Датасет train.csv содержит информацию о 891 пассажире, включая признак Survived (факт спасения), который будет выступать целевой переменной для модели классификации. Датасет test.csv включает сведения о 418 пассажирах, для которых необходимо предсказать выживаемость (в этой выборке поле Survived отсутствует). Файл gender_submission.csv представляет собой бейслайн-решение: в нём для каждого пассажира из тестовой выборки предсказано выживание исходя только из пола (всем женщинам – выживание, всем мужчинам – гибель).
В работе используются классические методы машинного обучения: линейная регрессия и логистическая регрессия, реализованные с помощью библиотеки scikit-learn. Эти методы выбраны из-за их интерпретируемости и базового характера – они позволяют продемонстрировать основной цикл анализа данных (EDA, предобработка, обучение моделей, оценка качества) без привлечения сложных ансамблевых или нейросетевых алгоритмов.
— 228 с.
Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников
Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.
Цены ниже, чем в агентствах и у конкурентов
Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит
Бесплатные доработки и консультации
Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки
Гарантируем возврат
Если работа вас не устроит – мы вернем 100% суммы заказа
Техподдержка 7 дней в неделю
Наши менеджеры всегда на связи и оперативно решат любую проблему
Строгий отбор экспертов
К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»
Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован
Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн
Тема «Правонарушения: преступления и проступки»
Курсовая, Теория государства и права
Срок сдачи к 20 апр.
Российско-азербайджанские отношения в контексте регионального развития
Курсовая, Прикладное регионоведение
Срок сдачи к 1 мая
Решить 7 задач
Решение задач, Машины и оборудование для сооружения нефтегазопромыслов, нефтегазовое дело, машиностроение
Срок сдачи к 20 апр.
общая характеристика гражданских правоотношений возникающих при оказании юридических и фактических услуг
Презентация, Гражданское право
Срок сдачи к 1 апр.
Расчет СВЧ-усилителя с помощью графоаналитического метода.
Лабораторная, Схемотехника
Срок сдачи к 30 мар.
Перевооружение зоны участка технического обслуживания легковых...
Диплом, Техническое обслуживание и ремонт автомобилей
Срок сдачи к 8 апр.
Тема : Разработка эскизов и схем прически на распущенных
Курсовая, Моделирование причесок
Срок сдачи к 31 мар.
Получить практический опыт проектирования конструкций плоских рычажных механизмов на основе использования модульного принципа в сапр компас-3d.
Решение задач, Теория механизмов и машин (ТММ)
Срок сдачи к 30 мар.
Психологические особенности развития личности в подростковом возрасте: мотивационная сфера
Диплом, Возрастная психология
Срок сдачи к 20 апр.
Написать конспект виртуальной экскурсии в средней группе детского сада. Тема недели " здоровье"
Другое, Окружающий мир
Срок сдачи к 2 апр.
Подробные задания указаны в файлах, нужны пошаговые подробные...
Решение задач, Электротехника и электроника
Срок сдачи к 6 апр.
Помощь в выполнении заданий дистанционного курса
Другое, История международных отношений
Срок сдачи к 10 апр.
Контрольная номер 1 Вариант (08) Задания 9,33,57,81,105,129,153.
Контрольная, Высшая математика
Срок сдачи к 30 мар.
Заполните форму и узнайте цену на индивидуальную работу!