본문 바로가기

ggplot24

geom_freqpoly vs. geom_density 날카로운 geom_freqpoly() geom_freqpoly() 함수는 ggplot2 패키지에서 제공되는 함수 중 하나로, 주어진 데이터의 빈도를 나타내는 도수 다각형(frequency polygon)을 그릴 때 사용됩니다. 도수 다각형은 연속형 변수의 분포를 시각적으로 표현하는 데 유용한 도구로, 데이터 포인트들을 직선으로 이어준 것이락 생각하시면 쉽습니다. 아래에서는 무료 데이터인 tips 데이터셋를 활용하여 geom_freqpoly() 그래프를 그려보았습니다. 아래 코드는 성(sex) 마다 팁을 주는 금액(tip)이 어떻게 다른지를 확인하는 코드입니다. ggplot(tips, aes(x=tip, color=sex))+ geom_frepoly() 그림에서 보시는 것과 같이, 대체로 남성과 여성의 t.. 2024. 1. 1.
2차원 밀도 시각화, contour 및 rater geom_contour() 및 geom_raster() 함수는 ggplot2 패키지에서 제공되는 함수 중에서 2차원 밀도를 시각화하거나 히트맵을 그릴 때 사용되는 함수들입니다. 본 포스팅에서는 geom_contour() 함수와 geom_rater() 함수에 대해 각각 살펴보도록 하겠습니다. geom_contour() 개요 geom_contour() 함수는 등고선(Contour)을 그릴 때 사용됩니다. 등고선 하면 떠오르는게 "산" 맞으신가요? 지리시간에 많이 봤던 기억이 나는데요, ggplot2 패키지에도 2차원 데이터의 등고선을 시각화하여 데이터의 밀도를 나타내는 등고선 함수가 있습니다. 등고선에 대해 모르시는 분이 있을수도 있으니 간략하게 집고 넘어가겠습니다. 등고선은 같은 값을 가진 데이터 포인트들.. 2023. 12. 31.
범주형 변수 비중 분석, geom_mosaic() Titanic 데이터셋 'Titanic.data'는 타이타닉호 승객에 대한 데이터셋으로, 생존 여부 및 다양한 속성에 관한 정보를 포함합니다. 이 데이터셋은 타이타닉호의 여객들에 대한 기본적인 특성과 생존 여부를 나타내며, 데이터 분석이나 머신 러닝 연습에 자주 사용됩니다. 이번 포스팅에서는 Titanic 데이터셋 중에서 Class(선실 등급), Age(나이)를 기준으로 승객이 생존한 비중을 살펴보도록 하겠습니다. Titanic 데이터셋에서 승객 생존 여부는 Survived 변수에서 0은 사망, 1은 생존으로 표시되고, Class(선실 등급)은 원래 데이터셋 중 Pclass라는 데이터 중 null 값이 있는 것을 삭제한 변수입니다. 변수 내.. 2023. 12. 31.
범주형+연속형 변수, boxplot & violin 함수 활용 geom_boxplot()과 geom_violin()은 둘 다 ggplot2 패키지에서 제공되는 함수로, 연속형 변수의 분포를 시각화하는 데 사용됩니다. 각각의 함수가 어떻게 동작하고 어떤 특징을 가지고 있는지 살펴보겠습니다. geom_boxplot() 개요 geom_boxplot() 함수는 상자 수염 그림(Box-and-Whisker Plot)을 통해 연속형 변수 데이터의 중앙값, 사분위수(1사분위수, 3사분위수) 및 이상치(outlier)를 시각적으로 보여줍니다. 이런 특성을 통해 주로 데이터의 중심 경향과 데이터의 분포를 쉽게 파악할 수 있습니다. 예를 위해 ggplot2 패키지에 포함되어 있는 tips 데이터셋을 활용하도록 하겠습니다. tips 데이터셋 중 범주형 변수에 해당하는 day(요일)와 .. 2023. 12. 30.