DataScience

데이터 프레임의 기초 통계 계산: 평균,중앙값,최대,최소,표준편차,분산,사분위수

Pro.Dev 2024. 8. 1. 12:16
반응형

데이터 프레임의 기초 통계 계산

데이터 분석에서 데이터의 기초 통계량을 파악하는 것은 매우 중요한 단계입니다. 판다스(Pandas) 라이브러리를 사용하면 데이터 프레임에서 다양한 기초 통계량을 쉽게 계산할 수 있습니다. 이번 글에서는 데이터 프레임의 기초 통계 계산 방법에 대해 알아보겠습니다.

데이터 프레임 생성

우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.

import pandas as pd

# 샘플 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [25, 30, 35, 40, 45],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

df = pd.DataFrame(data)
print(df)

기초 통계량 계산

요약 통계량

describe() 메소드를 사용하면 데이터 프레임의 요약 통계량을 계산할 수 있습니다. 이 메소드는 각 열에 대한 통계량을 출력합니다.

# 요약 통계량 계산
summary_stats = df.describe()
print(summary_stats)

describe() 메소드는 평균(mean), 표준편차(std), 최솟값(min), 사분위수(25%, 50%, 75%)와 최댓값(max)을 계산합니다.

개별 통계량 계산

판다스에서는 특정 통계량을 개별적으로 계산할 수도 있습니다.

평균값

# 평균값 계산
mean_age = df['Age'].mean()
mean_salary = df['Salary'].mean()
print(f'평균 나이: {mean_age}')
print(f'평균 급여: {mean_salary}')

중앙값

# 중앙값 계산
median_age = df['Age'].median()
median_salary = df['Salary'].median()
print(f'중앙 나이: {median_age}')
print(f'중앙 급여: {median_salary}')

표준편차

# 표준편차 계산
std_age = df['Age'].std()
std_salary = df['Salary'].std()
print(f'나이 표준편차: {std_age}')
print(f'급여 표준편차: {std_salary}')

최솟값과 최댓값

# 최솟값과 최댓값 계산
min_age = df['Age'].min()
max_age = df['Age'].max()
min_salary = df['Salary'].min()
max_salary = df['Salary'].max()
print(f'최솟값 나이: {min_age}, 최댓값 나이: {max_age}')
print(f'최솟값 급여: {min_salary}, 최댓값 급여: {max_salary}')

기타 유용한 통계 함수

판다스는 이 외에도 다양한 통계 함수를 제공합니다.

분산

# 분산 계산
var_age = df['Age'].var()
var_salary = df['Salary'].var()
print(f'나이 분산: {var_age}')
print(f'급여 분산: {var_salary}')

사분위수

# 사분위수 계산
q1_age = df['Age'].quantile(0.25)
q3_age = df['Age'].quantile(0.75)
print(f'1사분위수 나이: {q1_age}')
print(f'3사분위수 나이: {q3_age}')

결론

이번 블로그에서는 데이터 프레임의 기초 통계 계산 방법에 대해 알아보았습니다. 판다스를 사용하여 요약 통계량을 계산하고, 평균, 중앙값, 표준편차, 최솟값과 최댓값 등을 개별적으로 계산하는 방법을 파이썬 코드 예제와 함께 설명했습니다. 이러한 기초 통계량을 파악하면 데이터의 특성을 이해하고, 데이터 분석의 기초를 다질 수 있습니다. 다음 글에서는 데이터 프레임의 정보 요약과 데이터 유형 확인 및 변환에 대해 다루겠습니다.

반응형