это быстро и бесплатно
Оформите заказ сейчас и получите скидку 100 руб.!
ID (номер) заказа
3042739
Ознакомительный фрагмент работы:
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ…………………………………………………………………………. 6
Статистический анализ. основные понятия и определения 1.1 Математическая статистика……………………………………………. 7
1.2 Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных…………………………….. 13
1.3 Принятие статистических решений……………………………………. 14
1.4 Регрессионный анализ……………………………………………………. 21
2. Анализ и обработка экспериментальных данных 2.1 Предварительная статистическая обработка экспериментальных данных………………………………………………………………………… 24
2.2 Проверка гипотезы о нормальном распределении случайной величины. 27
2.3 Проверка экспериментальных данных на наличие грубой погрешности. 34
2.4 Корреляционный и регрессионный анализ экспериментальных данных. 35
2.5 Множественный регрессионный анализ………………………………… 38
ЗАКЛЮЧЕНИЕ……………………………………………………………………… 40
БИБЛИОГРАФИЧЕСКИЙ СПИСОК……………………………………………… 41
ВведениеХарактерным для современного этапа развития технических наук является широкое и эффективное применение статистики в оценке и обработке экспериментальных данных, металлургия не исключение. Статистика (немец. Statistik, от латинского status – состояние) – это наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определенные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Предвидение событий дает возможность заблаговременно приготовиться к ним, учесть их положительные и отрицательные последствия, а если это возможно – вмешаться в ход развития, контролировать его. Задачей анализа и обработке экспериментальных данных является систематизация и интерпретация результатов наблюдений с целью выявления статистических закономерностей.
Весьма эффективным средством при выполнении статистических исследований является программа Microsoft Excel. Она позволяет обеспечить быстроту статистических расчетов, высокую надежность и достоверность результатов, возможность предоставления данных в аналитической, графической или табличной формах.
Целью курсовой работы является анализ и обработка экспериментальных данных с использованием программы Microsoft Excel.
Задачи курсовой работы:
исследовать возможности программы Microsoft Excel при проведении статистического анализа;
провести обработку данных, полученных в ходе исследования зависимости твердости нержавеющей стали 08Х18Н10Т от содержания в ней углерода и марганца;
выявить взаимосвязь между твердостью и химическим составом стали.
1. Статистический анализ. основные понятия и определения1.1 Математическая статистикаМатематическая статистика – наука, изучающая методы исследования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений за ними, с целью получения вероятностно-статистических моделей случайных явлений. Построенные на основании этих методов закономерности относятся не к отдельным испытаниям, из повторения которых складывается данное массовое явление, а представляют утверждения об общих вероятностных характеристиках данного процесса. Такими характеристиками могут быть вероятности, плотности распределения вероятностей, математические ожидания, дисперсии и т. п. Найденные характеристики позволяют построить вероятностно-статистическую модель изучаемого явления. Применяя к этой модели методы теории вероятностей, исследователь может решать технико-экономические задачи, например, определять вероятность безотказной работы агрегата в течение заданного отрезка времени. Таким образом, теория вероятностей по вероятностной модели процесса предсказывает его поведение, а математическая статистика по результатам наблюдений за процессом строит его вероятностностатистическую модель. В этом состоит тесная взаимосвязь между данными науками. Очевидно, что для обнаружения закономерностей случайного массового явления необходимо провести сбор статистических сведений, т. е. сведений, характеризующих отдельные единицы каких-либо массовых явлений.
В математической статистике рассматриваются две основные категории задач: оценивание и статистическая проверка гипотез. Первая задача разделяется на точечное оценивание и интервальное оценивание параметров распределения. Например, может возникнуть необходимость по наблюдениям получить точечные оценки параметров М(Х) и D(Х) . Если мы хотим получить некоторый интервал, с той или иной степенью достоверности содержащий истинное значение параметра, то это задача интервального оценивания. Вторая задача – проверка гипотез – заключается в том, что мы делаем предположение о распределении вероятностей случайной величины (например, о значении одного или нескольких параметров функции распределения) и решаем, согласуются ли в некотором смысле эти значения параметров с полученными результатами наблюдений.
Если интересующая нас совокупность слишком многочисленна, либо ее элементы малодоступны, а также, если имеются другие причины (организационные, финансовые, физические и т. п.), не позволяющие изучать сразу все ее элементы, прибегают к изучению какой-то части этой совокупности. Эта выбранная для полного исследования группа элементов называется выборкой или выборочной совокупностью.
Выборка – это группа элементов, выбранная для исследования из всей совокупности элементов. Задача выборочного метода в том, чтобы сделать правильные выводы относительно всего собрания объектов, их совокупности.
Конечной целью изучения выборочной совокупности всегда является получение информации о генеральной совокупности. Поэтому естественно стремиться сделать выборку так, чтобы она наилучшим образом представляла всю генеральную совокупность, то есть была бы репрезентативной или представительной. Для получения репрезентативной выборки необходимо четко определять, что понимается под генеральной совокупностью. Ее состав и численность зависят от объектов и целей проводимого исследования.
В тех случаях, когда генеральная совокупность недостаточно известна, обычно не удается предложить лучшего способа получения представительной выборки, чем случайный выбор. При этом случайная выборка формируется случайным отбором: из генеральной совокупности наудачу извлекается по одному объекту.
В практических задачах закон распределения случайных величин обычно неизвестен или известен с точностью до некоторых неизвестных параметров. В частности, невозможно рассчитать точное значение соответствующих вероятностей, так как нельзя определить количество общих и благоприятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний m, в которых событие появилось, к общему количеству произведенных испытаний n. Такая вероятность называется статистической частотой.
В результате на практике сведения о законе распределения случайной величины получают независимыми многократными повторениями опыта, в котором измеряются значения интересующей исследователей случайной величины (варианты). На основе информации из полученной выборки можно построить приблизительные значения для функции распределения и других характеристик случайной величины.
Числа, составляющие генеральную совокупность, называются ее элементами. Закон F(x) распределения случайной величины X называется генеральным законом распределения, а числовые характеристики X – генеральными числовыми характеристиками. Так как генеральная совокупность – большая, то перебрать все ее элементы невозможно, поэтому для изучения генеральной совокупности из нее делают выборку и по ее свойствам судят о свойствах генеральной совокупности.
Выборкой называется множество измеренных значений n x ,x ,...,x 1 2 случайной величины X. Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения). Требования к выборке. Для того чтобы сделать правильный вывод о генеральной совокупности по выборке, выборка должна быть репрезентативной, т. е. правильно представлять генеральную совокупность. Выборка будет обладать таким свойством, если каждый объект генеральной совокупности будет иметь один и тот же шанс быть выбранным, в этом случае выборка является случайной. Число N объектов генеральной совокупности и число n объектов выборки называют объемами генеральной и выборочной совокупностей соответственно.
Кумулятивная кривая будет получена, если по оси абсцисс откладывать интервалы, а по оси ординат – число или долю элементов совокупности, имеющих значение, меньшее или равное заданному.
При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения, а кумулятивная кривая – в график функции распределения.
В Microsoft Excel для построения выборочных функций распределения используются специальная функция ЧАСТОТА и процедура Пакета анализа Гистограмма. Функция ЧАСТОТА вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив чисел. Функция задается в качестве формулы массива.
Синтаксис: ЧАСТОТА (массив данных; массив карманов), где массив данных – это массив или ссылка на множество данных, для которых вычисляются частоты; массив карманов – это массив или ссылка на множество интервалов, в которые группируются значения аргумента массив данных .Количество элементов в возвращаемом массиве на единицу больше числа элементов в массив карманов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших, чем максимальное значение в интервалах.
Процедура Гистограмма используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Процедура выводит результаты в виде таблицы и гистограммы.
Замена теоретической функции распределения F(x) на ее выборочный аналог Fn(x) в определении математического ожидания, дисперсии, стандартного отклонения и т.п. приводят к выборочному среднему, выборочной дисперсии, выборочному стандартному отклонению и т.д. Выборочные характеристики являются оценками соответствующих характеристик генеральной совокупности. Эти оценки должны удовлетворять определенным требованиям. В соответствии с важнейшими требованиями оценки должны быть: несмещенными, то есть стремиться к истинному значению характеристики генеральной совокупности принеограниченном увеличении количества испытаний; состоятельными, то есть с ростом размера выборки оценка должна стремиться к значению соответствующего параметра генеральной совокупности с вероятностью, приближающейся к 1; эффективными, то есть для выборок равного объема используемая оценка должна иметь минимальную дисперсию.
Среди выборочных характеристик выделяют показатели, относящиеся к центру распределения (меры положения), показатели рассеяния вариант (меры рассеяния) и меры формы распределения. К показателям, характеризующим центр распределения, относят различные виды средних (арифметическое, геометрическое и т. п.), а также моду и медиану.
Простейшим показателем, характеризующим центр выборки, является мода.
Мода – это элемент выборки с наиболее часто встречающимся значением.
Средним значением выборки, или выборочным аналогом математического ожидания, называется величина
x=1ni=1nxi, (1.1)где n – количество элементов в выборке.
Иначе говоря, среднее значение – это центр выборки, вокруг которого группируются элементы выборки. При увеличении числа наблюдений среднее приближается к математическому ожиданию.
Выборочная медиана – это число, которое является серединой выборки, то есть половина чисел имеет значения большие, чем медиана, а половина чисел имеет значения меньшие, чем медиана. Для нахождения медианы обычно выборку ранжируют – располагают элементы в порядке возрастания. Если количество членов ранжированного ряда нечетное, медианой является значение ряда, которое расположено посередине, то есть элемент с номером (n + 1)/2. Если число членов ряда четное, то медиана равна среднему значению членов ряда с номерами n/2 и n/2 + 1.
Основными показателями рассеяния вариант являются интервал, дисперсия выборки, стандартное отклонение и стандартная ошибка.
Интервал (амплитуда, вариационный размах) – это разница между максимальным и минимальным значениями элементов выборки. Интервал является простейшей и наименее надежной мерой вариации или рассеяния элементов в выборке.
Более точно отражают рассеяние показатели, учитывающие не только крайние, но и все значения элементов выборки.
Дисперсией выборки, или выборочным аналогом дисперсии, называется величина
s2=1n-1i=1n(xi-x)2. (1.2)Дисперсия выборки – это параметр, характеризующий степень разброса элементов выборки относительно среднего значения. Чем больше дисперсия, тем дальше отклоняются значения элементов выборки от среднего значения.
Выборочным стандартным отклонением (среднее квадратичное отклонение) называется величина
s=s2. (1.3)Этот параметр также характеризует степень разброса элементов выборки относительно среднего значения. Чем больше среднее квадратичное отклонение, тем дальше отклоняются значения элементов выборки от среднего значения. Параметр аналогичен дисперсии и используется в тех случаях, когда необходимо, чтобы показатель разброса случайной величины выражался в тех же единицах, что и среднее значение этой случайной величины.
Стандартная ошибка или ошибка среднего находится из выражения
m=sn. (1.4)Стандартная ошибка – это параметр, характеризующий степень возможного отклонения среднего значения, полученного на исследуемой ограниченной выборке, от истинного среднего значения, полученного на всей совокупности элементов. С помощью стандартной ошибки задается так называемый доверительный интервал. 95-процентный доверительный интервал, равный x ± 2m, обозначает диапазон, в который с вероятностью p = 0,95 (при достаточно большом числе наблюдений n > 30) попадает среднее генеральной совокупности MX[1].
Выборочной квантилью называется решение уравнения
Fnx=p. (1.5)1.2 Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данныхВ результате наблюдений или эксперимента получаются наборы данных, называемые выборками. Для проведения их анализа данные подвергаются статистической обработке. Первое, что всегда делается при обработке данных, это вычисление элементарных статистических характеристик выборок по каждому параметру и по каждой группе. Полезно также вычислить эти характеристики для объединения родственных групп и суммарно по всем данным.
В Мастере функций Excel имеется ряд специальных функций, предназначенных для вычисления выборочных характеристик. Прежде всего, это функции, характеризующие центр распределения .Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов (аргументов) чисел. Функция МЕДИАНА позволяет получать медиану заданной выборки. Функция МОДА вычисляет наиболее часто встречающееся значение. Функция ДИСП позволяет оценить дисперсию по выборочным данным. Функция СТАНДОТКЛОН вычисляет стандартное отклонение.
В пакете Excel помимо Мастера функций имеется набор более мощных инструментов для работы с несколькими выборками и углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных .Для определения характеристик выборки используется процедура Описательная статистика. Процедура позволяет получить статистический отчет, содержащий информацию о центральной тенденции и изменчивости входных данных.[2]
1.3 Принятие статистических решенийСтатистическая гипотеза – это предположение о виде или отдельных параметрах распределения вероятностей, которое подлежит проверке на имеющихся данных.
Проверка статистических гипотез – это процесс формирования решения о возможности принять или отвергнуть утверждение (гипотезу), основанный на информации, полученной из анализа выборки. Методы проверки гипотез называются критериями.
В большинстве случаев рассматривают так называемую нулевую гипотезу (нуль-гипотезу H0), состоящую в том, что все события произошли случайно, естественным образом. Альтернативная гипотеза (H1) состоит в том, что события случайным образом произойти не могли, и имело место воздействие некого фактора .Обычно нулевая гипотеза формулируется таким образом, чтобы на основании эксперимента или наблюдений ее можно было отвергнуть с заранее заданной вероятностью ошибки α. Эта заранее заданная вероятность ошибки называется уровнем значимости.
Уровень значимости – максимальное значение вероятности появления события, при котором событие считается практически невозможным. В статистике наибольшее распространение получил уровень значимости, равный α = 0,05. Поэтому, если вероятность, с которой интересующее событие может произойти случайным образом p < 0,05, то принято считать это событие маловероятным, и если оно все же произошло, то это не было случайным. В наиболее ответственных случаях, когда требуется особая уверенность в достоверности полученных результатов, надежности выводов, уровень значимости принимают равным α = 0,01 или даже α = 0,001.
Величину P, равную 1 – α, называют доверительной вероятностью (уровнем надежности), то есть вероятностью, признанной достаточной для того, чтобы уверенно судить о принятом статистическом решении. Соответственно, в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999.
Интервал, в котором с заданной доверительной вероятностью P = 1 – α находится оцениваемый параметр, называется доверительным интервалом. В соответствии с доверительными вероятностями на практике используются 95-, 99-99,9-процентные доверительные интервалы. Граничные точки доверительного интервала называют доверительными пределами.
Выбор того или иного уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, в общем случае является произвольным. Окончательное решение зависит от исследователя, традиций и накопленного практического опыта в данной области исследований.
Для определения относиться та или иная варианта к данной статистической совокупности достаточно использовать правило трех сигм. Согласно этому правилу в пределах M ± 3σ находится 99,7 % всех вариант. Поэтому если варианта попадает в этот интервал, то она считается принадлежащей к данной совокупности. Если не попадает, то она может быть отброшена. Хотя этот метод и предполагает нормальность исходного распределения, на практике он успешно работает и может быть использован в большинстве других случаев.
Определения границ доверительного интервала находится по формуле
M-tn;psn;M+tn;psn, (1.6)где M – среднее значение;
tn;p – табличное значение распределения Стьюдента с числом степеней свободы n и доверительной вероятностью p.
Наиболее часто проверяется предположение о нормальном распределении генеральной совокупности, поскольку большинство статистических процедур ориентировано на выборки, полученные из нормально распределенной генеральной совокупности.
Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения обычно используют графический метод, выборочные параметры формы распределения и критерии согласия.
Графический метод позволяет давать ориентировочную оценку расхождения или совпадений распределений.
Наиболее убедительные результаты дает использование критериев согласия. Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели. Здесь нулевая гипотеза H0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Среди критериев согласия большое распространение получил непараметрический критерий χ2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения.
Уверенно о нормальности закона распределения можно судить, если имеется не менее 50 результатов наблюдений. В случаях меньшего числа данных можно говорить только о том, что данные не противоречат нормальному закону, и в этом случае обычно используют графические методы оценки соответствия. При большем числе наблюдений целесообразно совместное использование графических и статистических (например, тест хи-квадрат или аналогичные) методов оценки, естественно дополняющих друг друга.
Для применения критерия желательно, чтобы объем выборки n был > 40, выборочные данные были сгруппированы в интервальный ряд с числом интервалов не менее 7, а в каждом интервале находилось не менее 5 наблюдений (частот).
При этом сравниваться должны именно абсолютные частоты, а не относительные. Как и любой другой статистический критерий, критерий хи-квадрат не доказывает справедливость нулевой гипотезы (соответствие эмпирического распределения нормальному), а лишь может позволить ее отвергнуть с определенной вероятностью (уровнем значимости).
В Microsoft Excel критерий хи-квадрат реализован в функции ХИ2ТЕСТ. Функция ХИ2ТЕСТ вычисляет вероятность совпадения наблюдаемых (фактических) значений и теоретических (гипотетических) значений. Если вычисленная вероятность ниже уровня значимости (0,05), то нулевая гипотеза отвергается и утверждается, что наблюдаемые значения не соответствуют нормальному закону распределения. Если вычисленная вероятность близка к 1, то можно говорить о высокой степени соответствия экспериментальных данных нормальному закону распределения.
Функция имеет следующий синтаксис: ХИ2ТЕСТ (фактический интервал; ожидаемый интервал), где фактический интервал – это интервал данных, которые содержат наблюдения, подлежащие сравнению с ожидаемыми значениями; ожидаемый интервал – это интервал данных, который содержит теоретические (ожидаемые) значения для соответствующих наблюдаемых [].
Параметрические критерии служат для проверки гипотез о положении и рассеивании. Из параметрических критериев наибольшей популярностью при проверке гипотез о равенстве генеральных средних (математических ожиданий) пользуется t-критерий Стьюдента (t-критерий различия). Он наиболее часто используется для проверки следующей гипотезы: «Средние двух выборок относятся к одной и той же совокупности». Критерий позволяет найти вероятность того, что оба средних относятся к одной и той же совокупности. Если эта вероятность p ниже уровня значимости (p < 0,05), то принято считать, что выборки относятся к двум разным совокупностям.
При использовании t-критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и опытная группа.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.
Для оценки достоверности отличий по критерию Стьюдента принимается нулевая гипотеза, что средние выборок равны между собой. Затем вычисляется значение вероятности того, что изучаемые события произошли случайным образом.
В Microsoft Excel для оценки достоверности отличий по критерию Стьюдента используются специальная функция ТТЕСТ и процедуры Пакета анализа. Эти перечисленные инструменты вычисляют вероятность, соответствующую критерию Стьюдента, и используются, чтобы определить, насколько вероятно, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.
Функция ТТЕСТ имеет следующий синтаксис: ТТЕСТ (массив1; массив2; хвосты; тип), где массив1 – это первое множество данных; массив2 – это второе множество данных; хвосты – число хвостов распределения. Обычно число хвостов равно 2; тип – это вид исполняемого t-теста. Возможны три варианта выбора: парный тест; двухвыборочный тест с равными дисперсиями; двухвыборочный тест с неравными дисперсиями [1].
Критерий Фишера используют для проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности и, следовательно, их равенстве. При этом предполагается, что данные независимы и распределены по нормальному закону. Гипотеза о равенстве дисперсий принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера:
F=s12/s22. (1.7)Критическое значение Фишера зависит от уровня значимости и числа степеней свободы для дисперсий в числителе и знаменателе.
В Microsoft Excel для расчета уровня вероятности выполнения гипотезы о равенстве дисперсий могут быть использованы функция ФТЕСТ (массив1; массив2) и процедура Пакета анализа Двухвыборочный F-тест для дисперсий.
Важным разделом статистического анализа является корреляционный анализ, служащий для выявления взаимосвязей между выборками.
Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Он оценивается по выборке объема n связанных пар наблюдений (xi,yi) из совместной генеральной совокупности X и Y. Существует несколько типов коэффициентов корреляции, применение которых зависит от предположений о совместном распределении величин X и Y.
Для оценки степени взаимосвязи наибольшее распространение получил коэффициент линейной корреляции (Пирсона), предполагающий нормальный закон распределения наблюдений.
Коэффициент корреляции r – параметр, характеризующий степень линейной взаимосвязи между двумя выборками. Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении коэффициента равном 0 линейной зависимости между двумя выборками нет. Здесь под прямой зависимостью понимают зависимость, при которой увеличение или уменьшение значения одного признака ведет, соответственно, к увеличению или уменьшению второго. При обратной зависимости увеличение одного признака приводит к уменьшению второго и наоборот.
Выборочный коэффициент линейной корреляции между двумя случайными величинами X и Y рассчитывается по формуле
r=(x-Mx)∙(y-My)(x-Mx)2∙(y-My)2. (1.8)Коэффициент корреляции является безразмерной величиной, и его значение не зависит от единиц измерения случайных величин X и Y.
На практике коэффициент корреляции принимает некоторые промежуточные значения между 1 и -1. Для оценки степени взаимосвязи можно руководствоваться следующими эмпирическими правилами. Если коэффициент корреляции r по абсолютной величине (без учета знака) больше, чем 0,95, то принято считать, что между параметрами существует практически линейная зависимость (прямая – при положительном r и обратная – при отрицательном r). Если коэффициент корреляции |r| лежит в диапазоне от 0,8 до 0,95, говорят о сильной степени линейной связи между параметрами. Если 0,6<|r|<0,8, говорят о наличии линейной связи между параметрами. При |r|< 0,4 обычно считают, что линейную взаимосвязь между параметрами выявить не удалось.
В Microsoft Excel для вычисления парных коэффициентов линейной корреляции используется специальная функция КOРРЕЛ. Функция имеет следующий синтаксис: КОРРЕЛ (массив1; массив2), где массив1 – это диапазон ячеек первой случайной величины; массив2 – это второй интервал ячеек со значениями второй случайной величины [3].
1.4 Регрессионный анализПри исследовании взаимосвязей между выборками помимо корреляции различают также и регрессию. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Соответственно, наряду с корреляционным анализом еще одним инструментом изучения стохастических зависимостей является регрессионный анализ. Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находятся оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.
В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в линейной регрессионной модели имеются две переменные X и Y. И требуется по n парам наблюдений (X1,Y1), (X2,Y2),..., (Xn,Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая наилучшим образом приближает наблюдаемые значения. Уравнение этой линии Y = аX + b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины Y0, соответствующее заданному значению независимой переменной X0.
Таким образом, можно сказать, что линейный регрессионный анализ заключается в подборе графика и его уравнения для набора наблюдений. В регрессионном анализе все признаки (переменные), входящие в уравнение, должны иметь непрерывную, а не дискретную природу.
В случае, когда рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми переменными X1, X2,..., Xn, говорят о множественной линейной регрессии. В этом случае регрессионное уравнение имеет вид
Y=a0+a1X1+a2X2+...+anXn, (1.9)где a1, a2,..., an – коэффициенты;
X1, X2,... Xn – независимые переменные;
a0 – константа.
Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Он определяет, с какой точностью полученное регрессионное уравнение описывает (аппроксимирует) исходные данные.
Значимость регрессионной модели исследуется с помощью F-критерия (Фишера). Если величина F-критерия значима (p < 0,05), то регрессионная модель является значимой.
Достоверность отличия коэффициентов a0, a1, a2,..., an от нуля проверяется с помощью критерия Стьюдента. В случаях, когда p > 0,05, коэффициент может считаться нулевым, а это означает, что влияние соответствующей независимой переменной на зависимую переменную недостоверно, и эта независимая переменная может быть исключена из уравнения.
В Microsoft Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:
Y=a0+a1X1+a2X2+...+a16X16, (1.10)где Y – зависимая переменная;
X1,..., X16 – независимые переменные;
a0, a1..., a16 – искомые коэффициенты регрессии.
Для получения коэффициентов регрессии используется процедура Регрессия из Пакета анализа. Кроме того, могут быть использованы функция ЛИНЕЙН для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ для получения предсказанных значений Y в требуемых точках [4].
2. Анализ и обработка экспериментальных данных
2.1 Предварительная статистическая обработка экспериментальных данных.
В таблице 1 приведены результаты исследования механических свойств нержавеющей стали 08Х18Н10Т (твёрдости у,) от факторов – параметров химического состава:
Таблица 1 – Результаты исследования
Номер опыта Вариант 11
С,% (х1) Mn,% (х2) Твер-дость(y)
1 3,74 0,59 70
2 3,54 0,60 66
3 3,63 0,50 63
4 3,49 0,52 64
5 3,48 0,35 77
6 3,54 0,45 76
7 3,63 0,66 83
8 3,63 0,51 78
9 3,93 0,64 73
10 3,64 0,67 67
11 3,69 0,61 79
12 3,54 0,78 72
13 3,67 0,84 76
14 3,48 0,50 66
15 3,31 0,47 81
16 3,67 0,62 80
17 3,63 0,21 70
18 3,73 0,78 72
19 3,75 0,78 79
20 3,62 0,72 68
21 3,68 0,79 72
22 3,59 0,73 82
23 3,60 0,43 75
24 3,43 0,35 74
25 2,95 0,47 75
26 3,28 0,40 67
27 3,19 0,41 79
28 3,28 0,34 77
29 3,71 0,53 73
30 3,60 0,47 77
31 3,63 0,43 68
32 3,56 0,42 72
33 3,69 0,54 79
34 3,55 0,34 75
35 3,57 0,83 78
Для статистической обработки выборочных данных воспользуемся инструментом Microsoft Excel Пакет анализа. Чтобы определить характеристики выборки используется процедура Описательная статистика.
Проанализировав данные, получим следующие результаты (рисунок 1)
Рисунок 1 – Результаты анализа
Представим результаты измерений в виде вариационного ряда (таблица 2)
Таблица 2 – Вариационный ряд
Номер плавки С, % (x1) Mn, % (x2) Твердость, (y)
1 2,95 0,21 63
2 3,19 0,34 64
3 3,28 0,35 66
4 3,28 0,35 66
5 3,31 0,4 67
6 3,43 0,41 67
7 3,48 0,42 68
8 3,48 0,43 68
9 3,49 0,43 70
10 3,54 0,45 70
11 3,54 0,47 72
12 3,54 0,47 72
13 3,56 0,47 72
14 3,59 0,5 72
15 3,6 0,5 73
16 3,6 0,51 73
17 3,62 0,52 74
18 3,63 0,53 75
19 3,63 0,54 75
20 3,63 0,59 76
21 3,63 0,6 76
22 3,63 0,61 77
23 3,64 0,62 77
24 3,67 0,64 77
25 3,67 0,66 78
26 3,68 0,67 79
27 3,69 0,72 79
28 3,69 0,73 79
29 3,71 0,78 79
30 3,73 0,78 80
31 3,74 0,78 81
32 3,75 0,79 82
33 3,93 0,84 83
Вычислим доверительные интервалы для среднего арифметического при 95-; 99-; 99,9 %-ной доверительной вероятности (таблица 3), используя процедуру Описательная статистика.[5]
Таблица 3 – Доверительные интервалы
Уровень надежности ДИ (Углерод) ДИ (Кремний) ДИ (Предел текучести)
95 % 3,561±0,063 0,551±0,056 73,8±1,833
99 % 3,561±0,084 0,551±0,075 73,8±2,46
99,9 % 3,561±0,111 0,551±0,099 73,8±3,247
2.2 Проверка гипотезы о нормальном распределении случайной величины.
Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения, воспользуемся графическим методом и критерием согласия хи-квадрат.
Сформулируем нулевую гипотезу H0 и альтернативную гипотезу H1 [1, 3]:
H0 – «Отличие экспериментальных данных от нормального закона распределения не существенно»,
H1 – «Экспериментальные данные не подчиняются закону нормального распределения».
Если χ2<χα;m2, где χ2 - экспериментальное значение критерия Пирсона, а χα;m2 - теоретическое значение критерия Пирсона, то нуль-гипотеза о нормальном законе распределения экспериментальных данных принимается с доверительной вероятностью P = 1-α. В противном случае нуль-гипотеза отвергается и принимается альтернативная гипотеза.
1. Для Углерода
Таблица 4 – Данные для вычисления критерия Пирсона
ИнтервалХi-1 - Xi niF (xi) Pi = F (xi) -
F (xi-1) nPini - nPiχ2 = (ni - nPi)2/ nPi(2,9;3] 1 0,001 0,001 0,03 0,97 29,725
(3,1;3,2] 1 0,024 0,018 0,63 -0,63 0,633
(3,2;3,3] 2 0,076 0,052 1,83 -0,83 0,373
(3,3;3,4] 1 0,188 0,112 3,93 -1,93 0,945
(3,4;3,5] 4 0,368 0,180 6,30 -5,30 4,460
(3,5;3,6] 9 0,584 0,216 7,54 -3,54 1,664
(3,6;3,7] 12 0,776 0,192 6,74 2,26 0,760
(3,7;3,8] 4 0,968 0,192 6,72 5,28 4,146
(3,9;4] 1 0,001 0,024 0,83 3,17 12,162
Экспериментальное значение критерия Пирсона определяется суммированием данных последнего столбца таблицы 4. Теоретическое значение критерия Пирсона определяется при заданном уровне значимости α и числе степеней свободы m = n-2 c использованием функции Microsoft Excel ХИ2ОБР(α;m). Тогда χ0,05;312=47,4Т.к. 54,8> 47,4, т.е. χ2> χ0,05;332, то принимается альтернативная гипотеза, т.к. данные не подчиняются нормальному закону распределения. Для построения гистограммы необходимо предварительно сгруппировать данные и вычислить относительные частоты (таблица 5).
Таблица 5 – Данные для построения гистограммы
Номер интервалаИнтервалniWi=ni/n Значения относительнойчастоты Wi/h
1 (2,9;3] 1 0,029 0,02
2 (3,1;3,2] 1 0,029 0,02
3 (3,2;3,3] 2 0,057 0,04
4 (3,3;3,4] 1 0,029 0,02
5 (3,4;3,5] 4 0,114 0,07
6 (3,5;3,6] 9 0,257 0,16
7 (3,6;3,7] 12 0,343 0,22
8 (3,7;3,8] 4 0,114 0,07
9 (3,9;4] 1 0,029 0,02
Построим гистограмму относительных частот (рисунок 2)
Рисунок 2 – Гистограмма частот
По гистограмме видно, что отличие экспериментальных данных от нормального закона распределения существенно.
2. Для Марганца
Таблица 6 &ndash
Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников
Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.
Цены ниже, чем в агентствах и у конкурентов
Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит
Бесплатные доработки и консультации
Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки
Гарантируем возврат
Если работа вас не устроит – мы вернем 100% суммы заказа
Техподдержка 7 дней в неделю
Наши менеджеры всегда на связи и оперативно решат любую проблему
Строгий отбор экспертов
К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»
Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован
Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн
Требуется разобрать ст. 135 Налогового кодекса по составу напогового...
Решение задач, Налоговое право
Срок сдачи к 5 дек.
Школьный кабинет химии и его роль в химико-образовательном процессе
Курсовая, Методика преподавания химии
Срок сдачи к 26 дек.
Реферат по теме «общественное мнение как объект манипулятивного воздействий. интерпретация общественного мнения по п. бурдьё»
Реферат, Социология
Срок сдачи к 9 дек.
Выполнить курсовую работу. Образовательные стандарты и программы. Е-01220
Курсовая, Английский язык
Срок сдачи к 10 дек.
Изложение темы: экзистенциализм. основные идеи с. кьеркегора.
Реферат, Философия
Срок сдачи к 12 дек.
Заполните форму и узнайте цену на индивидуальную работу!