반응형

DataScience 12

쿠폰은 아무나 막 주는게 아니다 : K-Means 클러스터링 이란? CRM 고객분석 / 타겟 마케팅

머신러닝 기반 CRM 타겟 마케팅 대시보드Why?? - CRM 안하는 회사는 망하니깐!!오늘날 기업들은 수많은 고객 데이터를 보유하고 있지만, 이를 효과적으로 활용하는 것은 여전히 큰 도전과제입니다. 특히 고객의 구매 패턴과 행동 양식을 이해하고 이에 맞춘 타겟 마케팅을 진행하는 것은 마케팅 효율성과 고객 경험 향상에 필수적입니다. 이번 블로그에서는 비지도 학습(Unsupervised Learning)의 한 종류인 클러스터링 기법을 활용한 CRM 타겟 마케팅 대시보드를 소개합니다.비지도 학습(Unsupervised Learning)과 고객 세그먼테이션왜 비지도 학습인가?마케팅에서 고객을 분류할 때, 우리는 데이터 자체에서 패턴을 발견해야 합니다. 바로 이 지점에서 비지도 학습의 강점이 드러납니다. 레이블..

DataScience 2025.03.24

데이터 파이프라인 구축과 자동화

데이터 파이프라인 구축과 자동화데이터 파이프라인은 데이터의 수집, 처리, 저장, 분석을 일관되게 수행할 수 있도록 설계된 시스템입니다. 특히 빅데이터 환경에서는 방대한 데이터를 효과적으로 관리하고 분석하기 위해 신뢰성 높은 데이터 파이프라인의 구축과 자동화가 필수적입니다. 이 글에서는 데이터 파이프라인 구축과 자동화의 핵심 요소를 전문가 수준에서 다루고자 합니다.1. 데이터 파이프라인의 개념데이터 파이프라인은 원천 데이터(Source)로부터 데이터를 수집하고, 이를 가공하여 데이터 웨어하우스나 데이터 레이크에 저장한 후, 분석 시스템으로 전달하는 일련의 과정을 의미합니다.데이터 파이프라인의 주요 구성 요소:데이터 수집(Source Ingestion): 로그, API, 데이터베이스 등 다양한 원천으로부터 ..

DataScience 2025.02.24

유사도 측정 방법: Cosine, Dot Product, Euclidean

유사도 측정 방법: Cosine, Dot Product, Euclidean유사도 측정은 벡터 간의 관계를 수치화하여, 두 벡터가 얼마나 비슷한지를 나타냅니다. 주요 유사도 측정 방식인 Cosine Similarity, Dot Product, Euclidean Distance의 계산 방식과 특성을 아래에 정리했습니다.1. Cosine Similarity (코사인 유사도)개념두 벡터 간의 각도를 측정하여 유사도를 계산합니다.벡터의 크기는 무시하고, 방향(즉, 각도)에만 초점을 맞춥니다.1에 가까울수록 유사, -1에 가까울수록 비유사.공식cosine similarity=cos⁡(𝜃)=𝐴⋅𝐵∥𝐴∥∥𝐵∥cosine similarity=cos(θ)=∥A∥∥B∥A⋅B​𝐴⋅𝐵A⋅B: 두 벡터의 내적∥𝐴∥..

DataScience 2025.01.05

인공지능과 데이터 분석: 초보자 학습 방법

인공지능과 데이터 분석: 시작하기🌟 **인공지능(AI)**과 데이터 분석은 현대 사회의 필수 기술로 자리 잡았습니다.기업은 데이터를 기반으로 전략을 세우고, AI를 활용해 더 스마트한 의사결정을 내리고 있습니다.여러분도 이 기술들을 배워 직접 프로젝트를 구현하거나 새로운 비즈니스 아이디어를 발전시킬 수 있습니다.이번 글에서는 AI와 데이터 분석의 기본 개념,실질적인 사용 사례, 그리고**입문자들을 위한 학습 가이드**를 소개합니다.  1. 인공지능과 데이터 분석의 차이인공지능(AI)이란? 🤖AI는 컴퓨터가 인간처럼 학습하고 사고하며 문제 해결을 할 수 있도록 만드는 기술입니다.이를 통해 자연어 처리, 이미지 인식,**예측 모델 생성**과 같은 다양한 작업이 가능합니다.예시: 챗봇, 음성 인식 시스템,..

DataScience 2024.12.03

데이터 프레임의 정보 요약하기 : value_counts()

데이터 프레임의 정보 요약하기데이터 분석에서 데이터 프레임의 정보를 요약하는 것은 데이터의 구조와 내용을 이해하는 데 중요한 단계입니다. 판다스(Pandas) 라이브러리를 사용하면 데이터 프레임의 다양한 정보를 쉽게 요약할 수 있습니다. 이번 글에서는 데이터 프레임의 정보를 요약하는 방법에 대해 알아보겠습니다.데이터 프레임 생성우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.import pandas as pd# 샘플 데이터 생성data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000]}d..

DataScience 2024.08.01

데이터 프레임의 기초 통계 계산: 평균,중앙값,최대,최소,표준편차,분산,사분위수

데이터 프레임의 기초 통계 계산데이터 분석에서 데이터의 기초 통계량을 파악하는 것은 매우 중요한 단계입니다. 판다스(Pandas) 라이브러리를 사용하면 데이터 프레임에서 다양한 기초 통계량을 쉽게 계산할 수 있습니다. 이번 글에서는 데이터 프레임의 기초 통계 계산 방법에 대해 알아보겠습니다.데이터 프레임 생성우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.import pandas as pd# 샘플 데이터 생성data = { 'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000]}df = pd.Data..

DataScience 2024.08.01

데이터프레임 기본 조작 : 행선택, 열선택, 인덱싱, 슬라이싱

데이터 프레임 기본 조작데이터 분석에서 판다스(Pandas) 라이브러리는 매우 유용한 도구입니다. 이번 글에서는 판다스를 사용하여 데이터 프레임을 기본적으로 조작하는 방법에 대해 다룹니다. 데이터 프레임의 행과 열을 선택하고, 인덱싱과 슬라이싱을 통해 데이터를 조작하는 방법을 알아보겠습니다.데이터 프레임의 기초 조작: 행, 열 선택하기판다스를 활용하여 데이터 프레임을 조작하는 기본적인 방법은 특정 행이나 열을 선택하는 것입니다. 이를 통해 필요한 데이터를 추출하고 분석할 수 있습니다.데이터 프레임 생성우선 예제 데이터를 사용하여 데이터 프레임을 생성해보겠습니다.import pandas as pd# 샘플 데이터 생성data = { 'Name': ['Alice', 'Bob', 'Charlie', 'Da..

DataScience 2024.08.01

데이터 전처리 기법: 결측치(NaN) 처리와 이상치(Outlier) 탐지

데이터 전처리 기법: 결측치 처리와 이상치 탐지데이터 분석에서 데이터 전처리는 매우 중요한 단계입니다. 데이터가 깨끗하고 일관성 있어야 모델의 성능을 높일 수 있습니다. 이번 블로그에서는 데이터 전처리의 주요 기법 중 하나인 결측치 처리와 이상치 탐지에 대해 다루고, 파이썬 코드 예제를 통해 실제 데이터를 처리하는 방법을 소개합니다.1. 결측치 처리결측치(missing values)는 데이터셋에서 값이 누락된 상태를 말합니다. 결측치는 다양한 원인으로 발생할 수 있으며, 이를 처리하지 않으면 분석 결과에 악영향을 미칠 수 있습니다.결측치 확인우선 결측치를 확인하는 방법을 알아봅시다. pandas 라이브러리를 사용하여 데이터프레임을 생성하고 결측치를 확인할 수 있습니다.import pandas as pd#..

DataScience 2024.08.01

파이썬으로 OpenAI GPT-3 사용하기

비전공자를 위한 LLM 활용 예제: 파이썬으로 OpenAI GPT-3 사용하기비전공자도 쉽게 활용할 수 있도록, 파이썬으로 간단한 LLM(Large Language Model) 사용 예제를 소개합니다. 이번 예제에서는 OpenAI의 GPT-3 모델을 사용해 보겠습니다. GPT-3 모델은 다양한 자연어 처리 작업을 수행할 수 있는 강력한 도구입니다.사전 준비Python 설치: Python이 설치되어 있어야 합니다. python.org에서 설치 방법을 확인하세요.OpenAI API 키 발급: OpenAI API 키가 필요합니다. OpenAI 홈페이지에서 회원가입 후 API 키를 발급받으세요.필요한 라이브러리 설치: 터미널(명령 프롬프트)에서 다음 명령어를 실행하여 필요한 라이브러리를 설치합니다.pip ins..

DataScience 2024.08.01

서울시 강서구 공동 주택 현황 데이터 분석 (20230905)

공공데이터 포털의 데이터를 사용함. https://www.data.go.kr/data/15066129/fileData.do data = pd.read_csv('/mnt/data/서울특별시 강서구_공동주택 현황_20230905.csv', encoding='cp949') data.head() 연번 구분 단 지 명 동명 번지수 도로명주소 우편번호 층수별 동수 평형별 \ 0 1 NaN 강변삼천리 염창동 70-20 양천로67길 71-16 7535 15 1 28 32 1 2 의무 강변한솔솔파크 염창동 300 양천로63길 38 7546 11~25 8 32 33 2 3 의무 강변힐스테이트 염창동 299 양천로75길 19 7541 11~23 7 24 33 3 4 의무 관음삼성 염창동 268외3필지 양천로 656 7554..

DataScience 2023.09.08
반응형