это быстро и бесплатно
Оформите заказ сейчас и получите скидку 100 руб.!
ID (номер) заказа
6291156
Ознакомительный фрагмент работы:
Содержание
Введение. 2
1. РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ.. 4
1.1 Постановка задачи. 4
1.2 Загрузка датасета. 5
1.3 Описание датасета. 6
1.4 Корректировка типов данных. 7
1.5 Удаление пропусков, Nan и одинаковых значений. 8
1.6 Корреляции и зависимости. 10
1.7 Выводы.. 13
2. Предварительная обработка данных. 14
2.1 Обработка пропусков. Как было установлено в EDA, наиболее значимые пропуски – в признаках Age, Cabin и Embarked. 14
2.2 Кодирование категориальных признаков. 16
2.3 Масштабирование признаков. 18
3. Линейная регрессия (оценка возраста) 20
3.1 Постановка задачи. 20
3.2 Модель. 21
3.3 Результаты регрессии. 23
3.4 Выводы.. 24
4. Логистическая регрессия (прогноз выживаемости) 25
4.1 Признаки для модели. 25
4.2 Обучение модели. 27
4.3 Оценка качества классификации. 28
ЗАКЛЮЧЕНИЕ. 31
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. 32
ПРИЛОЖЕНИЕ А.. 33
Катастрофа «Титаник» – одно из самых известных кораблекрушений XX века. «Титаник» был крупнейшим пассажирским судном 1912 года; в ночь с 14 на 15 апреля 1912 года, во время своего первого рейса, он столкнулся с айсбергом и затонул в северной Атлантике. В результате погибло 1502 человека из 2224 пассажиров и членов экипажа. Данные о пассажирах, находившихся на борту, были собраны в таблицы. Эти данные стали классическим учебным примером для анализа данных и задач машинного обучения. Цель данной курсовой работы – провести всесторонний анализ данных пассажиров «Титаника» с применением классических методов машинного обучения. Мы последовательно выполним разведочный анализ данных, подготовим данные (очистка, кодирование категориальных признаков, нормализация), построим и обучим модели линейной регрессии (для решения задачи регрессии – оценки возраста) и логистической регрессии (для решения задачи классификации – прогноз выживаемости пассажира).
Для моделей будут рассчитаны соответствующие метрики качества, а результаты проанализированы. В заключении подведём итоги проделанной работы. В ходе исследования используются открытые данные соревнования Titanic: Machine Learning from Disaster с портала Kaggle (файлы train.csv, test.csv и gender_submission.csv). Датасет train.csv содержит информацию о 891 пассажире, включая признак Survived (факт спасения), который будет выступать целевой переменной для модели классификации. Датасет test.csv включает сведения о 418 пассажирах, для которых необходимо предсказать выживаемость (в этой выборке поле Survived отсутствует). Файл gender_submission.csv представляет собой бейслайн-решение: в нём для каждого пассажира из тестовой выборки предсказано выживание исходя только из пола (всем женщинам – выживание, всем мужчинам – гибель).
В работе используются классические методы машинного обучения: линейная регрессия и логистическая регрессия, реализованные с помощью библиотеки scikit-learn. Эти методы выбраны из-за их интерпретируемости и базового характера – они позволяют продемонстрировать основной цикл анализа данных (EDA, предобработка, обучение моделей, оценка качества) без привлечения сложных ансамблевых или нейросетевых алгоритмов.
— 228 с.
Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников
Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.
Цены ниже, чем в агентствах и у конкурентов
Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит
Бесплатные доработки и консультации
Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки
Гарантируем возврат
Если работа вас не устроит – мы вернем 100% суммы заказа
Техподдержка 7 дней в неделю
Наши менеджеры всегда на связи и оперативно решат любую проблему
Строгий отбор экспертов
К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»
Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован
Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн
Вид в разрезе и сверху на подстанцию. все по гостам и с размерами. План прохода ВЛок можно добавить болото. озера. и начертить по гостам схему подстанции
Чертеж, ВКР
Срок сдачи к 30 апр.
По указанным пунктам описать процесс построения отношений БД...
Курсовая, Управление данными
Срок сдачи к 21 апр.
Ответить кратко на 30 вопросов
Поиск информации, Сети и системы мобильной связи
Срок сдачи к 24 апр.
Курсовая на тему: "Средства обеспечения промышленной безопасности"
Курсовая, Техносферная безопасность
Срок сдачи к 25 мая
Написание ктп на месяц для 1 младшей группы (2-3 г) по фоп, по шаблону. темы «наша планета - земля», «я вырасту здоровым»
Другое, Педагогика
Срок сдачи к 25 апр.
Дипломная работа на тему: Судебные гарантии прав и свобод человека и...
Диплом, Юриспруденция: Судебная и прокурорская деятельность
Срок сдачи к 15 июня
Заполните форму и узнайте цену на индивидуальную работу!