본문 바로가기

전체 글

(14)
빅데이터 분석기사 7회차 1유형 문제 import pandas as pdfile = '/content/yemoonsaBigdata/datasets/Part5/ex7/07.01.01-students_scores.csv'df = pd.read_csv(file)print(df.head())print('-'*100)print(df.info())print('-'*100)print(df.describe())print('-'*100)df1 = df[['Statistics','DataScience','MachineLearning','EnglishLiterature']]subject_counts = df1.count()print(subject_counts)print('-'*100)most_popular_subject = subject_counts.idxma..
파이썬 기초 정리 1 # 📌 1. random_state=42의 의미 # 랜덤한 과정을 재현 가능하게 만들기 위한 설정입니다. # 42는 관행적으로 자주 쓰이는 숫자이며, 어떤 숫자든 가능함 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=42) # 📌 2. 결측치 확인 코드 # 결측치가 1개 이상 존재하는 컬럼만 출력 print("결측치 확인") print("Train:", train_df.isnull().sum()[train_df.isnull().sum() > 0]) print("Test:", test_x_df.isnull().sum()[test_x_df.isnull().sum() > 0]) # 📌 ..
빅데이터 분석기사 8회차 3문항 1번 문제 statsmodels에서는 상수항을 자동으로 안 넣어주기 때문에 sm.add_constant()를 씀p-value는 변수가 의미있는지 판단하는 기준이라 0.05 초과 변수는 제거함오즈비(odds ratio)는 이탈 확률이 얼마나 증가하는지를 직관적으로 알려줌 (예: 4.7배 증가) # 📌 라이브러리 불러오기import pandas as pdimport statsmodels.api as smimport numpy as np# 📂 데이터 불러오기 (고객 이탈 여부 포함)data_file = '/경로+파일명.csv"df = pd.read_csv(data_file)# 🎯 종속변수(y)는 이탈 여부, 독립변수(X)는 그 외 나머지X = df.drop('churn', axis=1)y = df['ch..