반응형
목차
1. 데이터 불러오기 및 열 이름 변경
2. 데이터 공란 채우기(NaN)
3. 데이터 frequency table(빈도표) 작성
1. 데이터 불러오기 및 열 이름 변경
문항 번호로 적혀 있던 열 이름을 어떤 항목인지 알아보기도 쉽고 코딩하기 편한 이름으로 변경했다.
first = pd.read_csv('만족도_1차.csv')
second = pd.read_csv('만족도_2차.csv')
first.columns = ['que', 'medicine_care', 'medicine_help', 'medicine_conv', 'medicine_func', 'nutrition_care', 'nutrition_help',
'nutrition_conv', 'nutrition_func', 'exercise_care', 'exercise_help', 'exercise_conv', 'exercise_func', 'kiosk_care',
'kiosk_help', 'kiosk_conv', 'kiosk_func', 'safety_relax', 'safety_help']
second.columns = ['que', 'medicine_care', 'medicine_help', 'medicine_conv', 'medicine_func', 'nutrition_care', 'nutrition_help',
'nutrition_conv', 'nutrition_func', 'exercise_care', 'exercise_help', 'exercise_conv', 'exercise_func', 'kiosk_care',
'kiosk_help', 'kiosk_conv', 'kiosk_func', 'safety_relax', 'safety_help']
2. 데이터 공란 채우기(NaN)
설문에 응답하지 않은 사람들 답변은 아예 비어있기 때문에 파이썬에는 NaN으로 나타난다.
그래서 fillna를 사용하여 공란을 0으로 채웠다.
추가적으로 두 데이터 프레임을 concat을 사용하여 합쳤다.
#NaN 데이터를 0을 채우기
first = first.fillna(0)
second = second.fillna(0)
final = pd.concat([first, second]) #데이터 합치기
final.info()
데이터의 정보를 살펴보면,
first 데이터와 second 데이터가 합쳐져서 final 데이터셋이 되었고
null 데이터가 없어지고 총 444개의 행을 가지게 되었다.
3. 데이터 frequency table(빈도표) 작성
stb.freq 코드를 사용하면 범주형데이터(category)의 기초통계값들을 보여준다.
'medicine_care'에 대한 데이터는 0, 1, 2, 3, 4, 5의 값을 가지고 있고,
각각의 값들의 값의 개수, 값의 누적 개수, 백분율(%), 누적백분율(%)을 알 수 있다.
final.stb.freq(['medicine_care'])
급하게 통계를 내고 그래프를 그려야해서 작성했던 코드이며,
위의 코드들은 나중에 자세히 정리할 예정이다.
- 데이터 합쳐서 라벨링하는 코드와 막대 그래프 그리는 코드는 다음 글로 이어집니다.
- Visual Studio Code에서 작성된 글입니다.
반응형
'프로그래밍 > 코드정리' 카테고리의 다른 글
006. 사용한 코드 정리_기초통계 및 막대 그래프 코드 정리(3) (0) | 2021.08.21 |
---|---|
005. 사용한 코드 정리_기초통계 및 막대 그래프 코드 정리(2) (0) | 2021.08.21 |
댓글