본문 바로가기

시각화10

geom_freqpoly vs. geom_density 날카로운 geom_freqpoly() geom_freqpoly() 함수는 ggplot2 패키지에서 제공되는 함수 중 하나로, 주어진 데이터의 빈도를 나타내는 도수 다각형(frequency polygon)을 그릴 때 사용됩니다. 도수 다각형은 연속형 변수의 분포를 시각적으로 표현하는 데 유용한 도구로, 데이터 포인트들을 직선으로 이어준 것이락 생각하시면 쉽습니다. 아래에서는 무료 데이터인 tips 데이터셋를 활용하여 geom_freqpoly() 그래프를 그려보았습니다. 아래 코드는 성(sex) 마다 팁을 주는 금액(tip)이 어떻게 다른지를 확인하는 코드입니다. ggplot(tips, aes(x=tip, color=sex))+ geom_frepoly() 그림에서 보시는 것과 같이, 대체로 남성과 여성의 t.. 2024. 1. 1.
2차원 밀도 시각화, contour 및 rater geom_contour() 및 geom_raster() 함수는 ggplot2 패키지에서 제공되는 함수 중에서 2차원 밀도를 시각화하거나 히트맵을 그릴 때 사용되는 함수들입니다. 본 포스팅에서는 geom_contour() 함수와 geom_rater() 함수에 대해 각각 살펴보도록 하겠습니다. geom_contour() 개요 geom_contour() 함수는 등고선(Contour)을 그릴 때 사용됩니다. 등고선 하면 떠오르는게 "산" 맞으신가요? 지리시간에 많이 봤던 기억이 나는데요, ggplot2 패키지에도 2차원 데이터의 등고선을 시각화하여 데이터의 밀도를 나타내는 등고선 함수가 있습니다. 등고선에 대해 모르시는 분이 있을수도 있으니 간략하게 집고 넘어가겠습니다. 등고선은 같은 값을 가진 데이터 포인트들.. 2023. 12. 31.
범주형 변수 비중 분석, geom_mosaic() Titanic 데이터셋 'Titanic.data'는 타이타닉호 승객에 대한 데이터셋으로, 생존 여부 및 다양한 속성에 관한 정보를 포함합니다. 이 데이터셋은 타이타닉호의 여객들에 대한 기본적인 특성과 생존 여부를 나타내며, 데이터 분석이나 머신 러닝 연습에 자주 사용됩니다. 이번 포스팅에서는 Titanic 데이터셋 중에서 Class(선실 등급), Age(나이)를 기준으로 승객이 생존한 비중을 살펴보도록 하겠습니다. Titanic 데이터셋에서 승객 생존 여부는 Survived 변수에서 0은 사망, 1은 생존으로 표시되고, Class(선실 등급)은 원래 데이터셋 중 Pclass라는 데이터 중 null 값이 있는 것을 삭제한 변수입니다. 변수 내.. 2023. 12. 31.
geom_histogram() 살펴보기 geom_histogram() 개요 geom_histogram()은 ggplot2 패키지에서 제공되는 함수 중 하나로, 연속형 변수의 분포를 히스토그램으로 시각화하는 데 사용됩니다. 이 함수는 데이터를 일정한 간격의 구간(bins)으로 나누고, 각 구간에 속하는 데이터의 빈도를 막대로 나타냅니다. 이런 점에서 특정 범주별로 데이터의 빈도를 막대로 나타내는 geom_bar() 함수와 구분됩니다. 아래 코드를 통해 간단히 geom_histogram()을 사용하는 방법을 살펴보겠습니다. 이번 예시에서는 ggplot2 패키지에 포함되어 있는 tips 데이터셋에서 tip 변수를 이용하였습니다. tips 데이터셋은 음식점에서의 손님들이 낸 팁(tip)에 관한 정보를 포함하고 있으며, 이중 tip 변수는 "손님이 낸.. 2023. 12. 30.