반응형
데이터 프레임 기본 조작
데이터 분석에서 판다스(Pandas) 라이브러리는 매우 유용한 도구입니다. 이번 글에서는 판다스를 사용하여 데이터 프레임을 기본적으로 조작하는 방법에 대해 다룹니다. 데이터 프레임의 행과 열을 선택하고, 인덱싱과 슬라이싱을 통해 데이터를 조작하는 방법을 알아보겠습니다.
데이터 프레임의 기초 조작: 행, 열 선택하기
판다스를 활용하여 데이터 프레임을 조작하는 기본적인 방법은 특정 행이나 열을 선택하는 것입니다. 이를 통해 필요한 데이터를 추출하고 분석할 수 있습니다.
데이터 프레임 생성
우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.
import pandas as pd
# 샘플 데이터 생성
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [25, 30, 35, 40, 45],
'Salary': [50000, 60000, 70000, 80000, 90000]
}
df = pd.DataFrame(data)
print(df)
열 선택하기
특정 열을 선택하려면 열의 이름을 사용합니다.
# 'Name' 열 선택
names = df['Name']
print(names)
# 여러 열 선택
ages_and_salaries = df[['Age', 'Salary']]
print(ages_and_salaries)
행 선택하기
특정 행을 선택하려면 iloc 또는 loc를 사용합니다.
# 첫 번째 행 선택 (인덱스로 선택)
first_row = df.iloc[0]
print(first_row)
# 인덱스 이름으로 행 선택
david_row = df.loc[3]
print(david_row)
데이터 프레임의 인덱싱과 슬라이싱
인덱싱과 슬라이싱을 통해 데이터 프레임의 특정 부분을 선택할 수 있습니다.
인덱싱
iloc와 loc를 사용하여 인덱싱을 수행할 수 있습니다.
# 인덱스로 특정 값 선택
age_of_charlie = df.iloc[2]['Age']
print(age_of_charlie)
# 인덱스 이름으로 특정 값 선택
salary_of_edward = df.loc[4]['Salary']
print(salary_of_edward)
슬라이싱
슬라이싱을 사용하면 데이터 프레임의 일부를 선택할 수 있습니다.
# 행 슬라이싱
first_two_rows = df.iloc[:2]
print(first_two_rows)
# 열 슬라이싱
subset = df.loc[:, 'Name':'Age']
print(subset)
데이터 프레임의 조건부 선택
조건을 사용하여 데이터 프레임에서 특정 행을 선택할 수도 있습니다.
# 나이가 30 이상인 행 선택
age_filter = df[df['Age'] >= 30]
print(age_filter)
# 급여가 70000 이상인 행 선택
salary_filter = df[df['Salary'] >= 70000]
print(salary_filter)
결론
이번 블로그에서는 데이터 프레임의 기본 조작 방법에 대해 알아보았습니다. 행과 열을 선택하고, 인덱싱과 슬라이싱을 통해 데이터를 조작하는 방법을 파이썬 코드 예제와 함께 설명했습니다. 이러한 기본 조작 방법을 익히면 판다스를 활용한 데이터 분석의 기초를 다질 수 있습니다. 다음 글에서는 더 고급스러운 판다스 기능에 대해 다루겠습니다.
반응형
'DataScience' 카테고리의 다른 글
데이터 프레임의 정보 요약하기 : value_counts() (0) | 2024.08.01 |
---|---|
데이터 프레임의 기초 통계 계산: 평균,중앙값,최대,최소,표준편차,분산,사분위수 (0) | 2024.08.01 |
데이터 전처리 기법: 결측치(NaN) 처리와 이상치(Outlier) 탐지 (0) | 2024.08.01 |
파이썬으로 OpenAI GPT-3 사용하기 (0) | 2024.08.01 |
서울시 강서구 공동 주택 현황 데이터 분석 (20230905) (0) | 2023.09.08 |