Статистика (контрольная работа)
по дисциплине «Статистика»
ИСХОДНЫЕ ДАННЫЕ
В результате обследования станков разных типов цеха предприятия, выполняющих одну и ту же операцию, были получены статистические данные о возрасте оборудования и об эксплуатационных расходах, связанных с работой этих станков. Возраст оборудования – целое число, для станка проработавшего менее одного года, – 1; от 1 года до 2 лет –2 и т.д. Эксплуатационные расходы фиксировались для каждого станка нарастающим итогом с начала года до момента проведения обследования. В результате выполняемой работы предполагалось определить, у какого типа станков наиболее низкие эксплуатационные расходы, как с возрастом станка меняется величина эксплуатационных расходов, с тем чтобы в последующем, при планируемой реорганизации и расширении станочного парка предприятия, произвести замену оборудования наиболее экономичным с точки зрения величины эксплуатационных расходов. Исходные данные для анализа представлены в таблице 2.
ЗАДАНИЕ
В соответствии с вариантом задания на самостоятельную работу студент должен выполнить следующую последовательность действий:
1. По каждому набору данных, содержащему значения двух взаимосвязанных статистических признаков (возраст оборудования и эксплуатационные расходы), определить средний возраст оборудования, средние эксплуатационные расходы, среднее квадратическое отклонение и коэффициент вариации для каждого статистического признака. Определить медиану возраста оборудования для каждого набора данных.
2. Произвести аналитическую группировку статистических данных, выбрав в качестве факторного признака возраст оборудования, результативного признака – эксплуатационные расходы. Для проведения такой группировки рекомендуется создать четыре группы станков по возрасту, образовав четыре группы с равными интервалами. В каждой образованной по возрасту группе рассчитать средние по группе возраст и эксплуатационные расходы. Результаты группировки представить в табличном виде, а также гистограммы и кумуляты, показывающих распределение оборудования по возрасту. По результатам построения таблицы и графиков сделать выводы. Определить моду возраста оборудования расчетным путем и графически.
3. Определить коэффициент Фехнера, построить поле корреляции, рассчитать коэффициент корреляции и определить характеристики связи между признаками: возрастом оборудования и величиной эксплуатационных издержек. Получить уравнение линии регрессии, показывающей характер связи между возрастом оборудования и эксплуатационными расходами (связь считать прямолинейной).
ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ
Среднее арифметическое вычисляется по правилу:
,
где хi – отдельные значения признака, полученные в результате наблюдения; n – общее число наблюдений.
Величина среднего квадратического отклонения рассчитывается по формуле:
,
где хi – отдельные значения признака; – среднее арифметическое; n –общее число наблюдений.
Коэффициенты вариации находятся из аналитического выражения вида:
.
Результаты выполнения группировки, показывающей структуру станочного парка по возрасту, удобно представить в виде таблицы 3.
Таблица 3.
Группы по возрасту, лет |
Число станков в группе, шт |
Суммарный возраст по группе |
Суммарные эксплуатационные расходы по группе |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Мода () – наиболее часто встречающееся значение признака в совокупности рассчитывается как:
,
где: ХМО – нижняя граница модального интервала; h – величина интервала; fMO –частота, соответствующая модальному интервалу; fMO–1 – частота интервала, предшествующего модельному; fMO+1 – частота интервала, следующего за модальным.
Графически мода определяется по гистограмме распределения. Для этого правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника, а левую вершину модального прямоугольника с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
Пример построения гистограммы и моды представлен на рис.1.
Рис. 1. Гистограмма
Медиана – это значение признака, которое приходится на середину ранжированного ряда, т.е. в ранжированном ряду распределения одна половина ряда имеет значение признака больше медианы, другая – меньше медианы.
В интервальном ряду медиана рассчитывается по формуле:
,
где ХМО – нижняя граница модального интервала; h – величина интервала; – порядковый номер медианы ; – накопленная частота до медианного интервала; fMе – частота, соответствующая медианному интервалу.
К простейшим показателям тесноты связи относят коэффициент корреляции знаков – коэффициент Фехнера. Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних.
Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязи пар признаков.
,
где Кф – коэффициент Фехнера; na – число совпадений знаков отклонений индивидуальных величин от средней; nв – число несовпадений знаков отклонений.
Коэффициент Фехнера может принимать различные значения в пределах от –1 до +1. Если коэффициент близок к +1, то можно предположить наличие прямой связи, если –1, то наличие обратной связи.
Степень тесноты связи в статистике измеряют с помощью специального показателя, называемого коэффициентом корреляции:
,
где х – значения факторного признака; у – значения результативного признака; n – общее число наблюдений.
Под формой статистической связи понимают ту тенденцию, которая проявляется в изменении изучаемого результативного признака в связи с изменением факторного признака. Форму связи можно попытаться установить, построив в прямоугольной системе координат все множество пар значений признаков (хi, уi), . По оси абсцисс откладываются значения факторного признака х, по оси ординат – значения признака у. Такое графическое построение называется полем корреляции или диаграммой рассеяния, пример построения представлен на рис. 2.
Рис. 2. Диаграмма рассеяния и линия регрессии
Линия на графике (см. рис. 2), изображающая тенденцию в изменении результативного признака при возрастании факторного, называется линией регрессии. В случае прямолинейной связи линия регрессии ищется в виде уравнения прямой линии:
,
где у – теоретические значения результативного признака, образующие прямую линию; а0, а1 – параметры уравнения; х – значения факторного признака.
Расчет параметров уравнения производится методом наименьших квадратов, в основу которого положено требование минимальности отклонения теоретических значений у’i от эмпирических (полученных в результате наблюдения) значений признака уi при одном и том же значении хi., из системы уравнений: