모듈 import¶

In [1]:

!pip install seaborn==0.13.0

Defaulting to user installation because normal site-packages is not writeable
Collecting seaborn==0.13.0
  Downloading seaborn-0.13.0-py3-none-any.whl (294 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 294.6/294.6 kB 6.1 MB/s eta 0:00:00a 0:00:01
Requirement already satisfied: matplotlib!=3.6.1,>=3.3 in ./.local/lib/python3.9/site-packages (from seaborn==0.13.0) (3.6.0)
Requirement already satisfied: numpy!=1.24.0,>=1.20 in ./.local/lib/python3.9/site-packages (from seaborn==0.13.0) (1.23.3)
Requirement already satisfied: pandas>=1.2 in ./.local/lib/python3.9/site-packages (from seaborn==0.13.0) (1.4.2)
Requirement already satisfied: contourpy>=1.0.1 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (1.0.6)
Requirement already satisfied: pillow>=6.2.0 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (9.3.0)
Requirement already satisfied: pyparsing>=2.2.1 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (3.0.9)
Requirement already satisfied: cycler>=0.10 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (0.11.0)
Requirement already satisfied: fonttools>=4.22.0 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (4.38.0)
Requirement already satisfied: kiwisolver>=1.0.1 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (1.4.4)
Requirement already satisfied: packaging>=20.0 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (21.3)
Requirement already satisfied: python-dateutil>=2.7 in ./.local/lib/python3.9/site-packages (from matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (2.8.2)
Requirement already satisfied: pytz>=2020.1 in ./.local/lib/python3.9/site-packages (from pandas>=1.2->seaborn==0.13.0) (2022.5)
Requirement already satisfied: six>=1.5 in ./.local/lib/python3.9/site-packages (from python-dateutil>=2.7->matplotlib!=3.6.1,>=3.3->seaborn==0.13.0) (1.16.0)
Installing collected packages: seaborn
  Attempting uninstall: seaborn
    Found existing installation: seaborn 0.12.0
    Uninstalling seaborn-0.12.0:
      Successfully uninstalled seaborn-0.12.0
Successfully installed seaborn-0.13.0

[notice] A new release of pip available: 22.2.2 -> 24.1.1
[notice] To update, run: pip install --upgrade pip

In [2]:

from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

데이터셋 로드¶

In [3]:

df = sns.load_dataset('titanic')
df.head()

Out[3]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

컬럼(columns) 설명

survivied: 생존여부 (1: 생존, 0: 사망)
pclass: 좌석 등급 (1등급, 2등급, 3등급)
sex: 성별
age: 나이
sibsp: 형제 + 배우자 수
parch: 부모 + 자녀 수
fare: 좌석 요금
embarked: 탑승 항구 (S, C, Q)
class: pclass와 동일
who: 남자(man), 여자(woman), 아이(child)
adult_male: 성인 남자 여부
deck: 데크 번호 (알파벳 + 숫자 혼용)
embark_town: 탑승 항구 이름
alive: 생존여부 (yes, no)
alone: 혼자 탑승 여부

copy¶

DataFrame을 복제합니다. 복제한 DataFrame을 수정해도 원본에는 영향을 미치지 않습니다.

In [4]:

df.head()

Out[4]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

copy()로 DataFrame을 복제합니다.

In [5]:

df_copy = df.copy()

In [6]:

df_copy.head()

Out[6]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

df_copy의 age를 99999로 임의 수정하도록 하겠습니다.

In [7]:

df_copy.loc[0, 'age'] = 99999

수정사항이 반영된 것을 확인할 수 있습니다.

In [8]:

df_copy.head()

Out[8]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	99999.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

하지만, 원본 DataFrame의 데이터는 변경되지 않고 그대로 남아 있습니다.

In [10]:

df.head()

Out[10]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

결측치¶

결측치는 비어있는 데이터를 의미합니다.

결측치에 대한 처리는 매우 중요합니다.

결측치에 대한 처리를 해주려면 다음의 내용을 반드시 알아야 합니다.

결측 데이터 확인
결측치가 아닌 데이터 확인
결측 데이터 채우기
결측 데이터 제거하기

결측치 확인 - isnull(), isna()¶

컬럼(column)별 결측치의 갯수를 확인하기 위해서는 sum() 함수를 붙혀주면 됩니다.

sum()은 Pandas의 통계 관련 함수이며, 통계 관련 함수는 추후에 더 자세히 알아볼 예정입니다.

isnull()

In [11]:

df.isnull().sum()

Out[11]:

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

isna()

isnull() 과 동작이 완전 같습니다. 편한 것으로 써주세요. (심지어 도큐먼트도 같습니다)

In [12]:

df.isna().sum()

Out[12]:

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

DataFrame 전체 결측 데이터의 갯수를 합산하기 위해서는 sum()을 두 번 사용하면 됩니다.

In [13]:

df.isnull().sum().sum()

Out[13]:

결측치가 아닌 데이터 확인 - notnull()¶

notnull()은 isnull()과 정확히 반대 개념입니다.

In [14]:

df.notnull().sum()

Out[14]:

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

결측 데이터 필터링¶

isnull() 함수가 결측 데이터를 찾는 boolean index 입니다.

즉, loc에 적용하여 조건 필터링을 걸 수 있습니다.

In [15]:

df.loc[df['age'].isnull()]

Out[15]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
5	0	3	male	NaN	0	0	8.4583	Q	Third	man	True	NaN	Queenstown	no	True
17	1	2	male	NaN	0	0	13.0000	S	Second	man	True	NaN	Southampton	yes	True
19	1	3	female	NaN	0	0	7.2250	C	Third	woman	False	NaN	Cherbourg	yes	True
26	0	3	male	NaN	0	0	7.2250	C	Third	man	True	NaN	Cherbourg	no	True
28	1	3	female	NaN	0	0	7.8792	Q	Third	woman	False	NaN	Queenstown	yes	True
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
859	0	3	male	NaN	0	0	7.2292	C	Third	man	True	NaN	Cherbourg	no	True
863	0	3	female	NaN	8	2	69.5500	S	Third	woman	False	NaN	Southampton	no	False
868	0	3	male	NaN	0	0	9.5000	S	Third	man	True	NaN	Southampton	no	True
878	0	3	male	NaN	0	0	7.8958	S	Third	man	True	NaN	Southampton	no	True
888	0	3	female	NaN	1	2	23.4500	S	Third	woman	False	NaN	Southampton	no	False

177 rows × 15 columns

연습문제¶

타이타닉 승객 데이터에서 age가 결측치인 승객의 나이를 30세로 일괄 채워 주세요

In [18]:

# 코드를 입력해 주세요
df['age'].fillna(30, inplace=True)
df.head()

Out[18]:

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

In [17]:

# 검증코드
# 본 Cell을 실행시 ERROR가 발생하지 않아야 함
assert df['age'].isnull().sum() == 0
assert df['age'].mean().round(4) == 29.7589

결측치 채우기 - fillna()¶

fillna()를 활용하면 결측치에 대하여 일괄적으로 값을 채울 수 있습니다.

In [19]:

# 다시 원본 DataFrame 로드
df = sns.load_dataset('titanic')

In [20]:

# 원본을 copy하여 df1 변수에 
df1 = df.copy()

In [21]:

df1.tail()

Out[21]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
886	0	2	male	27.0	0	0	13.00	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.00	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	NaN	1	2	23.45	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.00	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.75	Q	Third	man	True	NaN	Queenstown	no	True

888번 index의 결측치가 700으로 채워진 것을 확인할 수 있습니다.

In [22]:

df1['age'].fillna(700).tail()

Out[22]:

886     27.0
887     19.0
888    700.0
889     26.0
890     32.0
Name: age, dtype: float64

In [23]:

df1['age'].tail()

Out[23]:

886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, dtype: float64

In [24]:

df1['age'] = df1['age'].fillna(700)

In [26]:

df1.tail()

Out[26]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
886	0	2	male	27.0	0	0	13.00	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.00	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	700.0	1	2	23.45	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.00	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.75	Q	Third	man	True	NaN	Queenstown	no	True

통계값으로 채우기¶

In [27]:

df1 = df.copy()

In [28]:

df1.tail()

Out[28]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
886	0	2	male	27.0	0	0	13.00	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.00	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	NaN	1	2	23.45	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.00	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.75	Q	Third	man	True	NaN	Queenstown	no	True

평균으로 채우기¶

In [29]:

df1['age'].fillna(df1['age'].mean()).tail()

Out[29]:

886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, dtype: float64

중앙값으로 채우기¶

In [30]:

df1['age'].fillna(df1['age'].median()).tail()

Out[30]:

886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: age, dtype: float64

연습문제¶

남자 승객의 나이의 결측치는, 남자 승객의 나이의 평균으로 채웁니다.
여자 승객의 나이의 결측치는, 여자 승객의 나이의 평균으로 채웁니다.
결측치를 모두 채운 후 age 컬럼의 평균을 출력합니다.(검증코드 실행하여 올바른 값이 출력 되는지 확인)

In [35]:

# 코드를 입력해 주세요
# 남자 승객만 필터링
cond_male = (df1['sex'] == 'male')
# 남자 승객의 나이의 평균
male_mean = df.loc[cond_male, 'age'].mean()
# 남자 승객의 나이의 결측치 채우기
df1.loc[cond_male, 'age'] = df1.loc[cond_male, 'age'].fillna(male_mean)

# 여자 승객만 필터링
cond_female = (df1['sex'] == 'female')
# 여자 승객의 나이의 평균
female_mean = df.loc[cond_female,'age'].mean()
# 여자 승객의 나이의 결측치 채우기
df1.loc[cond_female, 'age'] = df1.loc[cond_female, 'age'].fillna(female_mean)

# 모든 결측치를 채운 후 age 컬럼의 평균을 출력합니다.
age_mean = df1['age'].mean()
age_mean

Out[35]:

29.736034227171306

In [36]:

# 검증코드
# Cell 실행시 오류가 발생하지 않으면 PASS
assert (df1['age'].isnull().sum() == 0)
assert df1['age'].mean().round(5) == 29.73603

최빈값으로 채우기¶

In [37]:

df1['deck'].mode()

Out[37]:

0    C
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

최빈값(mode)으로 채울 때에는 반드시 0번째 index 지정하여 값을 추출한 후 채워야 합니다.

In [38]:

df1['deck'].mode()[0]

Out[38]:

'C'

In [39]:

df1['deck'].fillna(df1['deck'].mode()[0]).tail()

Out[39]:

886    C
887    B
888    C
889    C
890    C
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

NaN 값이 있는 데이터 제거하기 (dropna)¶

In [40]:

df1 = df.copy()

In [41]:

df1.tail()

Out[41]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
886	0	2	male	27.0	0	0	13.00	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.00	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	NaN	1	2	23.45	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.00	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.75	Q	Third	man	True	NaN	Queenstown	no	True

dropna()로 1개 라도 NaN 값이 있는 행은 제거할 수 있습니다. (how='any')

In [42]:

df1.dropna()

Out[42]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
1	1	1	female	38.0	1	0	71.2833	C	First	woman	False	C	Cherbourg	yes	False
3	1	1	female	35.0	1	0	53.1000	S	First	woman	False	C	Southampton	yes	False
6	0	1	male	54.0	0	0	51.8625	S	First	man	True	E	Southampton	no	True
10	1	3	female	4.0	1	1	16.7000	S	Third	child	False	G	Southampton	yes	False
11	1	1	female	58.0	0	0	26.5500	S	First	woman	False	C	Southampton	yes	True
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
871	1	1	female	47.0	1	1	52.5542	S	First	woman	False	D	Southampton	yes	False
872	0	1	male	33.0	0	0	5.0000	S	First	man	True	B	Southampton	no	True
879	1	1	female	56.0	0	1	83.1583	C	First	woman	False	C	Cherbourg	yes	False
887	1	1	female	19.0	0	0	30.0000	S	First	woman	False	B	Southampton	yes	True
889	1	1	male	26.0	0	0	30.0000	C	First	man	True	C	Cherbourg	yes	True

182 rows × 15 columns

기본 옵션 값은 how=any로 설정되어 있으며, 다음과 같이 변경할 수 있습니다.

any: 1개 라도 NaN값이 존재시 drop
all: 모두 NaN값이 존재시 drop

In [43]:

df1.dropna(how='all')

Out[43]:

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	0	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	0	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	0	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
886	0	2	male	27.0	0	0	13.0000	S	Second	man	True	NaN	Southampton	no	True
887	1	1	female	19.0	0	0	30.0000	S	First	woman	False	B	Southampton	yes	True
888	0	3	female	NaN	1	2	23.4500	S	Third	woman	False	NaN	Southampton	no	False
889	1	1	male	26.0	0	0	30.0000	C	First	man	True	C	Cherbourg	yes	True
890	0	3	male	32.0	0	0	7.7500	Q	Third	man	True	NaN	Queenstown	no	True

891 rows × 15 columns

제출¶

제출을 위해 새로 로드된 타이타닉 데이터셋에서 age 컬럼의 결측치를 age 컬럼의 평균값으로 채운 결과를 result_age에 저장하세요.

앞선 예시처럼 마지막 5개 행(tail)이 아닌 전체 결과를 저장해야 합니다.
결과는 전체 DataFrame이 아닌 age 컬럼만 Series 형태로 제출합니다.

In [45]:

df1 = sns.load_dataset('titanic')
# age 컬럼의 평균값을 계산합니다.
age_mean = df1['age'].mean()

# age 컬럼의 결측치를 평균값으로 채웁니다.
df1['age'].fillna(age_mean, inplace=True)

# age 컬럼만 Series 형태로 result_age에 저장합니다.
result_age = df1['age']
result_age

Out[45]:

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64

[Python] Pandas 전처리, 추가, 삭제, 데이터 변환 (0)	2024.06.30
[Python] Pandas 복제, 결측치 실습 (0)	2024.06.30
[Python] Pandas 통계 실습 (0)	2024.06.30
[Python] Pandas 통계 (0)	2024.06.30
[Python] Pandas 실습 (0)	2024.06.30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

. way to L!ah ;

[Python] Pandas 복제, 결측치

모듈 import¶

데이터셋 로드¶

copy¶

결측치¶

결측치 확인 - isnull(), isna()¶

결측치가 아닌 데이터 확인 - notnull()¶

결측 데이터 필터링¶

연습문제¶

결측치 채우기 - fillna()¶

통계값으로 채우기¶

평균으로 채우기¶

중앙값으로 채우기¶

연습문제¶

최빈값으로 채우기¶

NaN 값이 있는 데이터 제거하기 (dropna)¶

제출¶

'Biusiness Insight > Data Science' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[Python] Pandas 복제, 결측치

모듈 import¶

데이터셋 로드¶

copy¶

결측치¶

결측치 확인 - isnull(), isna()¶

결측치가 아닌 데이터 확인 - notnull()¶

결측 데이터 필터링¶

연습문제¶

결측치 채우기 - fillna()¶

통계값으로 채우기¶

평균으로 채우기¶

중앙값으로 채우기¶

연습문제¶

최빈값으로 채우기¶

NaN 값이 있는 데이터 제거하기 (dropna)¶

제출¶

'Biusiness Insight > Data Science' 카테고리의 다른 글

'Biusiness Insight/Data Science' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역