DataScience

데이터 프레임의 기초 통계 계산: 평균,중앙값,최대,최소,표준편차,분산,사분위수

Pro.Dev 2024. 8. 1. 12:16

데이터 프레임의 기초 통계 계산

데이터 분석에서 데이터의 기초 통계량을 파악하는 것은 매우 중요한 단계입니다. 판다스(Pandas) 라이브러리를 사용하면 데이터 프레임에서 다양한 기초 통계량을 쉽게 계산할 수 있습니다. 이번 글에서는 데이터 프레임의 기초 통계 계산 방법에 대해 알아보겠습니다.

데이터 프레임 생성

우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.

import pandas as pd

# 샘플 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [25, 30, 35, 40, 45],
    'Salary': [50000, 60000, 70000, 80000, 90000]
}

df = pd.DataFrame(data)
print(df)

기초 통계량 계산

요약 통계량

describe() 메소드를 사용하면 데이터 프레임의 요약 통계량을 계산할 수 있습니다. 이 메소드는 각 열에 대한 통계량을 출력합니다.

# 요약 통계량 계산
summary_stats = df.describe()
print(summary_stats)

describe() 메소드는 평균(mean), 표준편차(std), 최솟값(min), 사분위수(25%, 50%, 75%)와 최댓값(max)을 계산합니다.

개별 통계량 계산

판다스에서는 특정 통계량을 개별적으로 계산할 수도 있습니다.

평균값

# 평균값 계산
mean_age = df['Age'].mean()
mean_salary = df['Salary'].mean()
print(f'평균 나이: {mean_age}')
print(f'평균 급여: {mean_salary}')

중앙값

# 중앙값 계산
median_age = df['Age'].median()
median_salary = df['Salary'].median()
print(f'중앙 나이: {median_age}')
print(f'중앙 급여: {median_salary}')

표준편차

# 표준편차 계산
std_age = df['Age'].std()
std_salary = df['Salary'].std()
print(f'나이 표준편차: {std_age}')
print(f'급여 표준편차: {std_salary}')

최솟값과 최댓값

# 최솟값과 최댓값 계산
min_age = df['Age'].min()
max_age = df['Age'].max()
min_salary = df['Salary'].min()
max_salary = df['Salary'].max()
print(f'최솟값 나이: {min_age}, 최댓값 나이: {max_age}')
print(f'최솟값 급여: {min_salary}, 최댓값 급여: {max_salary}')

기타 유용한 통계 함수

판다스는 이 외에도 다양한 통계 함수를 제공합니다.

분산

# 분산 계산
var_age = df['Age'].var()
var_salary = df['Salary'].var()
print(f'나이 분산: {var_age}')
print(f'급여 분산: {var_salary}')

사분위수

# 사분위수 계산
q1_age = df['Age'].quantile(0.25)
q3_age = df['Age'].quantile(0.75)
print(f'1사분위수 나이: {q1_age}')
print(f'3사분위수 나이: {q3_age}')

결론

이번 블로그에서는 데이터 프레임의 기초 통계 계산 방법에 대해 알아보았습니다. 판다스를 사용하여 요약 통계량을 계산하고, 평균, 중앙값, 표준편차, 최솟값과 최댓값 등을 개별적으로 계산하는 방법을 파이썬 코드 예제와 함께 설명했습니다. 이러한 기초 통계량을 파악하면 데이터의 특성을 이해하고, 데이터 분석의 기초를 다질 수 있습니다. 다음 글에서는 데이터 프레임의 정보 요약과 데이터 유형 확인 및 변환에 대해 다루겠습니다.

'DataScience' 카테고리의 다른 글

인공지능과 데이터 분석: 초보자 학습 방법 (3)	2024.12.03
데이터 프레임의 정보 요약하기 : value_counts() (0)	2024.08.01
데이터프레임 기본 조작 : 행선택, 열선택, 인덱싱, 슬라이싱 (0)	2024.08.01
데이터 전처리 기법: 결측치(NaN) 처리와 이상치(Outlier) 탐지 (0)	2024.08.01
파이썬으로 OpenAI GPT-3 사용하기 (0)	2024.08.01

현재글데이터 프레임의 기초 통계 계산: 평균,중앙값,최대,최소,표준편차,분산,사분위수

Data Vision

Data Science and Computer Vision for Data-Commerce.

이직, 코랩, 파이썬, Colab, nested list, 데이터분석, keras, 기술면접, 이력서, 취업, Python, str, 파이썬 콜론, 파이썬 리스트, dict, R studio, python list, 면접질문, R스튜디오, serverless,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Data Vision