'Python' 카테고리의 글 목록 (2 Page)

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

■ 그룹핑 - 특정 값을 기준으로 몇 개의 그룹으로 분할하여 처리하는 방식 ※ 데이터 준비 df = pd.DataFrame({'A':['chol','young']*3+['chol'], 'B':['one','one','two','one','two','two','one'], 'C':np.random.randn(7), 'D': np.random.randn(7)}) df □ 그룹 객체 만들기 grouped = df.groupby('B') print(grouped) for key, group in grouped: print('key : ',key) print('그룹 개수 : ',len(group)) print(group.head()) print('-'*40) # 특정 그룹만 선택 가능 one_group=group..

Python/Pandas 2023. 11. 13. 19:09

[Pandas] 데이터 프레임 재구조화

■ pd.pivot_table(df), df.pivot_table() - 피벗 테이블 : 기존 데이터를 기반으로 합계, 평균 들의 다양한 통계를 산출할 목적으로 새로운 표를 만드는 기능 - df.pivot_table(index=행방향 컬럼, columns=열방향 컬럼, values=집계대상 컬럼, aggfunc=구할 통계량(sum/mean/...)) ※ 데이터 준비 df = pd.DataFrame(np.arange(16).reshape(4,4), index=list('ABCD'), columns=list('abcd')) year_df = pd.DataFrame([2019,2020,2019,2020], index=list('ABCD'),columns=['year']) class_df = pd.DataFra..

Python/Pandas 2023. 11. 13. 10:01

[Pandas] 데이터 중복 제거

※ 데이터 준비 import pandas as pd import numpy as np df = pd.DataFrame({'k1':['one','two']*3+['two'], 'k2':[1,1,2,3,3,4,4]}) df ■ 중복 데이터 검사 - df.duplicated() - 각 행의 중복 여부를 검사하여 True/False로 알려줌 df.duplicated() □ df. drop_duplicates() : 모든 컬럼에 대해 중복값을 갖는 행을 제거함 df.drop_duplicates() 중복 값이 존재하는 행 지우기 원본 □ df. drop_duplicates(컬럼명 목록) - 매개변수로 주어진 컬럼명 목록에 같은 값을 갖는 행 제거함 - unique 값 하나만 남기고 나머지 다 삭제 df['k3'] ..

Python/Pandas 2023. 11. 13. 08:34

[Pandas] 결측값 처리

※ 데이터 준비 import numpy as np import pandas as pd data = np.random.randint(0,10,(5,5)) df = pd.DataFrame(data,index=list('ABCDE'),columns=list('abcde')) df ※ 결측값 설정 df.at['B','d']=np.nan df.at['D','e']=np.nan df ■ df.isna(), df.notna() - 데이터가 NaN인지 아닌지 검사 checked_nan = df.isna() print(checked_nan) print() # 컬럼별 결측치 개수 print(checked_nan.sum()) print() # 행별 결측치 개수 print(checked_nan.sum(axis=1)) chec..

Python/Pandas 2023. 11. 12. 23:34

[Pandas] 집계함수

○ 모든 집계함수는 axis=0(열 단위)을 기본값으로 가짐 ○ df.mean() : 각 행/열에 대한 평균 산출 ○ df.std() : 각 행/열에 대한 표준편차 산출 ○ df.min() : 각 행/열에 대한 최솟값 산출 ○ df.max() : 각 행/열에 대한 최댓값 산출 ○ ... [문제] Series, Dataframe 생성 및 연산 1. 각 컬럼 값은 Series 객체로 생성 2. 앞서 만들 Series객체를 이용해 DF생성 3. 각 과목의 합계 계산한 컬럼 추가 4. 각 과목의 평균 계산한 컬럼 추가 1-2) 각 컬럼 Series 객체 생성 후 데이터 프레임 만들기 import pandas as pd import numpy as np index_list = ['홍길동','임꺽정','전우치','..

Python/Pandas 2023. 11. 12. 22:49

[Pandas] 데이터 프레임 조작

1. 새로운 행 또는 열 추가 - DataFrame 에 새로운 열 추가 - df[새로운 컬럼명] = 데이터 목록(value) - 기존에 존재하는 컬럼명이면 안됨 - 데이터 목록은 데이터 프레임의 다른 컬럼들의 원소와 같은 개수여야 함 - 데이터 목록 타입 : list, Series, ndarray - DataFrame 에 새로운 행 추가 - df.loc[새로운 행이름] = 데이터 목록(value) - 데이터 목록은 기존 DataFrame의 컬럼의 개수와 컬럼 별 타입이 같아야 함 ※ 데이터 준비 import pandas as pd import numpy as np df= pd.DataFrame([[1,2,3],[7,8,9],[13,14,15]],index=list('ABC'),columns=list('a..

Python/Pandas 2023. 11. 12. 19:11

[Pandas] 데이터 수정 및 정렬

※ 데이터 준비 import numpy as np import pandas as pd data = np.random.randint(100,size=(10,10)) df = pd.DataFrame(data,index=list('abcdefghij'), columns =list('ABCDEFGHIJ')) display(df) ■ 데이터 수정 □ 컬럼 수정 df['E'] = 0 df □ .at ['행이름','열이름] 함수로 배열의 원소를 접근해서 원소의 값을 변경 df.at['e','E'] =1 df □ .loc함수로 행의 값들을 슬라이싱해서 값 변경 df.loc['d':'f']=0 df ※ 데이터 준비 np.random.seed(0) df = pd.DataFrame(np.random.randint(100,s..

Python/Pandas 2023. 11. 11. 15:30

[Pandas] 인덱싱, 슬라이싱

※ 데이터 준비 import numpy as np import pandas as pd data = np.random.randint(100,size=(10,10)) df = pd.DataFrame(data,index=list('abcdefghij'), columns =list('ABCDEFGHIJ')) display(df) ■ 인덱싱 vs. 슬라이싱 인덱싱 (Indexing) : '가리킨다'는 의미 슬라이싱 (slicing) : '잘라낸다'는 의미 예를 들어, a = 'Life is too short, you need to pay attention ' 이라는 문자열이 존재한다고 가정해보자. 문자열 인덱싱은, >>> a = 'Life is too short, you need to pay attention '..

Python/Pandas 2023. 11. 10. 19:54

Yeonnnnny

목록Python (47)

Yeonnnnny

티스토리툴바