Задача №77. Расчёт коэффициента Джини
Задача №77. Расчёт коэффициента Джини
Предположим, что в некоторой стране N проживают три группы населения: бедные, средний класс и богатые. Группы равны по численности жителей, но различаются по уровню дохода: средний класс зарабатывает в два раза больше, чем бедные, а богатые зарабатывают в два раза больше, чем средний класс. Внутри групп доходы распределены равномерно. Совокупный доход всех жителей страны равен Y. Нарисуйте график кривой Лоренца и рассчитайте индекс Джини.
Решение:
Третья часть населения, по условию задачи, бедные. Их доходы обозначим через х.
Тогда 2х – величина доходов среднего класса,
4х — величина доходов богатых.
Следовательно, совокупный доход всех жителей страны Y состоит из 7 одинаковых частей.
1/7 – доля доходов бедных,
2/7 – доля доходов среднего класса,
4/7 – доля доходов богатых.
Представим условие задачи в табличной форме:
Индекс Джини рассчитаем двумя способами.
1) Способ аналитический. Коэффициент Джини рассчитывается по формуле:
xi – доля населения, принадлежащая к i-й социальной группе в общей численности населения;
уi – доля доходов, сосредоточенная у i-й социальной группы населения;
n – число социальных групп;
cum yi – кумулятивная доля дохода.
2) Способ геометрический. Коэффициент Джини определяется как отношение площади фигуры, образуемой кривой Лоренца и линией равномерного распределения (Sa), к площади треугольника ниже линии равномерного распределения (Sa+b):
Площадь фигуры, образуемой кривой Лоренца и линией равномерного распределения (Sa) легко найти вычитанием из площади треугольника (Sa+b) площадь фигуры, лежащей ниже кривой Лоренца.
Площадь фигуры b, лежащей ниже кривой Лоренца можно разбить на треугольник и две трапеции:
Площадь фигуры a будет равна:
Индекс Джини будет равен:
Оба способа дали одинаковый результат.
Как видно из таблицы, наиболее обеспеченная группа населения сконцентрировала 57,14% доходов, а доля наименее обеспеченной группы в общем доходе составила 14,29%.
График кривой Лоренца
Мне нужно получить график кривой Лоренца кумулятивной переменной в зависимости от числа наблюдений. Я хочу, чтобы обе оси отображались в процентах (например, скажем, наблюдения — это количество покупателей, а переменная y-это сумма, которую они купили, покупатели уже ранжированы в порядке убывания, я хочу получить график, который говорит: «лучшие 10% покупателей купили 90% из общего количества купленных»). Мой набор данных — это пара миллионов наблюдений.
Как лучше всего это сделать? Под-вопросы:
Если мне нужно добавить две переменные для квантилей total observations и total $ buyed (чтобы использовать их для построения графика), то какой объект возвращает номер строки? Я пытался:
но я получаю матрицу одинаковых столбцов (user_quantile.1, user_quantile.2), из которых мне нужен только один столбец.
Есть ли вместо этого какой-либо способ пропустить добавление процентов в качестве переменных и иметь их только для значений осей?
Сюжет имеет гораздо больше точек, чем мне нужно, чтобы получить линию. Каков наилучший подход к минимизации вычислительных усилий и получению хорошего графика?
2 ответа
- Как построить график кривой (график позвоночника) в android?
Я пытаюсь реализовать график кривой в android. Для этого я использовал библиотеку achartEngine, но она предоставляет линейный график,круговой график, гистограмму, но не график кривой. Можете ли вы предложить какую-нибудь другую библиотеку для Кривого графика? Заранее спасибо
Я использую программу python для извлечения дискретных значений из сетевого анализатора. Он извлекает 401 значение оси y и вычисляет соответствующие значения оси x,и я хочу подогнать их к кривой Лоренца и найти значение оси x максимума оси y и половины максимальной ширины оси Y. Функция Лоренца, к.
Возможно, вы захотите ознакомиться с отличной поисковой системой RSeek для контента R. Один быстрый запрос для кривой Лоренца (и кривой Лоренца ) приводит к этим пакетам:
- : Измерение inequality, концентрации и бедности : Методы относительного распределения : Интерактивный исследовательский анализ пространственных данных : Пакет R для биостатистики, государственной политики и права
все это, по-видимому, дает функцию кривой Лоренца.
Для того, чтобы построить график, вам сначала нужно упорядочить необработанные данные.
1) Вы можете использовать функцию cut2() из пакета Hmisc, чтобы вырезать данные в квантилях. Проверьте документацию, это не сложно. Это похоже на cut() из базового пакета.
2) После использования функции cut2() с данными о доходах вам необходимо вычислить частоту каждого дециля. Используйте для этого table() . Затем рассчитайте проценты дохода для каждого дециля.
3) Теперь у вас должна быть очень маленькая таблица со следующими столбцами: Дециль, совокупный % от общего дохода. Добавьте еще один столбец с линией 45 градусов. Просто добавьте постоянный совокупный % от дохода.
4) Вы можете использовать базовую графику или ggplot2 для построения графика. Я думаю, вы можете сделать это с помощью информации о шаге 3 или, возможно, проверить конкретные вопросы построения графика.
Мне скоро придется это сделать, но у меня уже есть последний стол. Я опубликую код для построения графика, как только сделаю это.
Похожие вопросы:
Я хотел бы нарисовать кривую Лоренца и вычислить индекс Джини с целью определить, сколько паразитов поддерживает топ-37 наиболее инфицированных хозяев. Вот мой набор данных: Количество паразитов на.
Я должен наложить кривую гамма-распределения на график другой кривой, похожей на пауэрлоу. Я сначала строю точечные точки гистограммы в логарифмическом масштабе plot(log(pp$mids),log(pp$density)).
Я хочу нарисовать график сглаживания кривой в Octave на моих данных вместо резкой линии, как разброс с гладкой линией в Excel. Мои данные таковы: x = [1, 2 , 3]; y = [53, 48, 31]; y1 = [89, 51, 49];.
Я пытаюсь реализовать график кривой в android. Для этого я использовал библиотеку achartEngine, но она предоставляет линейный график,круговой график, гистограмму, но не график кривой. Можете ли вы.
Я использую программу python для извлечения дискретных значений из сетевого анализатора. Он извлекает 401 значение оси y и вычисляет соответствующие значения оси x,и я хочу подогнать их к кривой.
Я хотел спросить вас, возможно ли реализовать эту идею: Итак, в общем, я измеряю сигнал (синяя кривая, см. график измеренных данных и начальное предположение для функции Лоренца ), этот сигнал.
Я строю график как распределения тестовых баллов, так и подогнанной кривой к этим тестовым баллам: h = sorted(data[‘Baseline’]) #sorted fit = stats.norm.pdf(h, np.mean(h), np.std(h)).
Итак, у меня есть эта кривая Лоренца, подходящая для моих данных, но я заметил странную мелочь и ищу ответ. Может быть, ты сможешь помочь. Это мои данные , как вы можете видеть, я взял.
Кривая Лоренца
Дифференциация заработной платы предопределяет неравенство в распределении доходов.
Дифференциация доходов населения — это объективно складывающиеся различия в уровне доходов индивидов и социальных групп, обусловленные различиями в оплате труда и социальных выплат, способностях и предприимчивости, имущественном положении.
Денежные доходы населения включают в себя заработную плату, социальные трансферты, предпринимательские доходы, проценты, дивиденды и другие доходы от собственности, а также общую стоимость продукции –личного подсобного хозяйства, потребленной в семье и проданной. Доходы населения распределяются по группам населения неравномерно.
Помимо анализа распределения доходов населения, кривую Лоренца также используют при конкурентном анализе.
- Рассчитайте коэффициент Джини
- Постройте кривую Лоренца.
2. Индекс Джини.
Для исчисления коэффициента Джини необходимо рассчитать величины pi и qi. Здесь qi — доля денежных доходов нарастающим итогом (столбец №3 табл.1) деленная на 100.
pi | qi | piqi+1 | pi+1qi |
0.2 | 0.06 | 0.0352 | — |
0.4 | 0.18 | 0.14 | 0.024 |
0.6 | 0.35 | 0.37 | 0.11 |
0.8 | 0.62 | 0.8 | 0.28 |
1 | 1 | — | 0.62 |
ВСЕГО | 1.3462 | 1.0282 |
Коэффициент Джини равен: KL = ∑piqi+1 — ∑pi+1qi = 1.3462 — 1.0282 = 0.318
Пример №2 . Имеются следующие данные о распределении доходов населения региона по трем группам и доле населения в каждой группе:
1 группа | 2 группа | 3 группа | |
Доходы населения по группам (руб.) | 5000-10000 | 10000-20000 | 20000-30000 |
Доля населения в группе | 0,15 | 0,60 | 0,25 |
Определить коэффициент концентрации доходов Джинни.
Решение.
Необходимо найти доли среднего дохода на человека в каждой группе, в виде отношения среднего дохода группы к суммарному среднему доходу, и соответствующие накапливаемые частоты этих долей. Чем ближе значение коэффициента к единице, тем выше уровень дифференциации доходов.
1 группа | 2 группа | 3 группа | Итого | |
Доходы населения по группам (руб.) | 5000-10000 | 10000-20000 | 20000-30000 | |
Среднее значение дохода в группе, руб. | 7500 | 15000 | 25000 | 47500 |
Доля доходов в группе, % | 15,8 | 31,6 | 52,6 | 100,0 |
Далее решается через калькулятор.
Доля доходов в группе, % | Доля населения в группе |
15,8 | 0,15 |
31,6 | 0,6 |
52,6 | 0,25 |
Пример №3 . Дать графическое изображение вариационного ряда, приведенного в таблице (гистограмма, полигон, кумулята). Определить средние величины (меры положения) – среднюю арифметическую, моду, медиану, вычислить квартили и показатели вариации – среднее абсолютное отклонение, дисперсию, среднее квадратическое отклонение, относительный квартильный размах, коэффициент вариации. Построить кривую (ломаную) Лоренца, вычислить коэффициент концентрации дохода (индекс Джини). Пояснить статистический, физический, экономический или иной смысл вычисленных величин.
№ группа | Среднедушевые доходы населения (тыс. руб.) | Количество насосов |
1 | 0-30 | 10 |
2 | 30,1-60 | 14 |
3 | 60,1-90 | 19 |
4 | 90,1-120 | 25 |
Пример №4 . Исходные данные:
% | Доход |
10 | 2.3 |
20 | 4.5 |
30 | 4.7 |
40 | 6 |
50 | 7.5 |
60 | 10.2 |
70 | 14.1 |
80 | 16.7 |
90 | 18.5 |
100 | 15.5 |
Линия фактического неравенства строится на основании данных о процентах дохода приходящихся на каждые 10% населения. Если нижняя первая часть населения получила 2.3% всех доходов то графически это будет точка А. Чтобы получить точку В необходимо сложить процент дохода первых 10% населения с процентами доходов вторых 10% населения (2.3% + 4.5%) и т.д.
% | Доход | S=Si+Si-1 | Площадь треугольника | Площадь | Сумма |
10 | 2.3 | 2.3 | 11.5 | 0 | 11.5 |
20 | 4.5 | 6.8 | 22.5 | 23 | 45.5 |
30 | 4.7 | 11.5 | 23.5 | 68 | 91.5 |
40 | 6 | 17.5 | 30 | 115 | 145 |
50 | 7.5 | 25 | 37.5 | 175 | 212.5 |
60 | 10.2 | 35.2 | 51 | 250 | 301 |
70 | 14.1 | 49.3 | 70.5 | 352 | 422.5 |
80 | 16.7 | 66 | 83.5 | 493 | 576.5 |
90 | 18.5 | 84.5 | 92.5 | 660 | 752.5 |
100 | 15.5 | 100 | 77.5 | 845 | 922.5 |
Итого | 3481 |
Чтобы построить кривую Лоренца откладываем по оси Х откладываем значения столбца Процент (%), а по сои Y значения столбца S.
Рассчитаем коэффициенты концентрации доходов (индекс Джини)
Уровень неравенства определяется с помощью коэффициента Джини.
Он рассчитывается как отношение площади фигуры OABCDKLMNPE к площади треугольника ОEG.
Для того чтобы определить площадь фигуры, лежащей ниже кривой Лоренца, соединяем прямыми линиями точки ОА, АВ и т.д.
Опускаем перпендикуляр на ось X и находим площади фигур, лежащих ниже точек А, B , С.
Площадь SABB’A состоит из треугольника и прямоугольника SBCCB’ также состоит из треугольника и прямоугольника.
Построение кривой Лоренца в Microsoft Excel
Для оценки уровня неравенства между различными слоями населения общества часто используют кривую Лоренца и производный от неё показатель – коэффициент Джинни. С помощью них можно определить, насколько велик социальный разрыв в обществе между самыми богатыми и наиболее бедными слоями населения. С помощью инструментов приложения Excel можно значительно облегчить процедуру построения кривой Лоренца. Давайте, разберемся, как в среде Эксель это можно осуществить на практике.
Использование кривой Лоренца
Кривая Лоренца представляет собой типичную функцию распределения, отображенную графически. По оси X данной функции располагается количество населения в процентном соотношении по нарастающей, а по оси Y — общее количество национального дохода. Собственно, сама кривая Лоренца состоит из точек, каждая из которых соответствует процентному соотношению уровня дохода определенной части общества. Чем больше изогнута линия Лоренца, тем больше в обществе уровень неравенства.
В идеальной ситуации, при которой отсутствует общественное неравенство, каждая группа населения имеет уровень дохода прямо пропорциональный её численности. Линия, характеризующая такую ситуацию, называется кривой равенства, хотя она и представляет собой прямую. Чем больше площадь фигуры, ограниченной кривой Лоренца и кривой равенства, тем выше уровень неравенства в обществе.
Кривая Лоренца может использоваться не только для определения ситуации имущественного расслоения в мире, в конкретной стране или в обществе, но и для сравнения в данном аспекте отдельных домохозяйств.
Вертикальная прямая, которая соединяет линию равенства и наиболее удаленную от неё точку кривой Лоренца, называется индексом Гувера или Робин Гуда. Данный отрезок показывает, какую величину дохода нужно перераспределить в обществе, чтобы достичь полного равенства.
Уровень неравенства в обществе определяется с помощью индекса Джинни, который может варьироваться от 0 до 1. Он ещё называется коэффициентом концентрации доходов.
Построение линии равенства
Теперь давайте на конкретном примере посмотрим, как создать линию равенства и кривую Лоренца в Экселе. Для этого используем таблицу количества населения разбитого на пять равных групп (по 20%), которые суммируются в таблице по нарастающей. Во второй колонке этой таблицы представлена величина национального дохода в процентном соотношении, которая соответствует определенной группе населения.
Для начала построим линию абсолютного равенства. Она будет состоять из двух точек – нулевой и точки суммарного национального дохода для 100% населения.
- Переходим во вкладку «Вставка». На линии в блоке инструментов «Диаграммы» жмем на кнопку «Точечная». Именно данный тип диаграмм подойдет для нашей задачи. Далее открывается список подвидов диаграмм. Выбираем «Точечная с гладкими кривыми и маркерами».
В поле «Значения X» следует указать координаты точек диаграммы по оси X. Как мы помним, их будет всего две: 0 и 100. Записываем данные значения через точку с запятой в данном поле.
В поле «Значения Y» следует записать координаты точек по оси Y. Их тоже будет две: 0 и 35,9. Последняя точка, как мы можем видеть по графику, соответствует совокупному национальному доходу 100% населения. Итак, записываем значения «0;35,9» без кавычек.
Создание кривой Лоренца
Теперь нам предстоит непосредственно построить кривую Лоренца, опираясь на табличные данные.
- Кликаем правой кнопкой мыши по области диаграммы, на которой уже расположена линия равенства. В запустившемся меню снова останавливаем выбор на пункте «Выбрать данные…».
В поле «Значения X» следует занести все данные столбца «% населения» нашей таблицы. Для этого устанавливаем курсор в область поля. Далее зажимаем левую кнопку мыши и выделяем соответствующий столбец на листе. Координаты тут же будут отображены в окне изменения ряда.
В поле «Значения Y» заносим координаты ячеек столбца «Сумма национального дохода». Делаем это по той же методике, по которой вносили данные в предыдущее поле.
Построение кривой Лоренца и линии равенства в Экселе производится на тех же принципах, что и построение любого другого вида диаграмм в этой программе. Поэтому для пользователей, которые овладели умением строить диаграммы и графики в Excel, данная задача не должна вызвать больших проблем.
Мы рады, что смогли помочь Вам в решении проблемы.
Помимо этой статьи, на сайте еще 12369 инструкций.
Добавьте сайт Lumpics.ru в закладки (CTRL+D) и мы точно еще пригодимся вам.
Отблагодарите автора, поделитесь статьей в социальных сетях.
Опишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.