목록Data Engineer/pandas (11)
취미가 좋다

인덱스로 행과 열을 선택하기 리스트처럼 인덱스 슬라이싱으로 데이터를 뽑을 수 있다. 반환만 하므로 변경까지 원한다면 df = df[1:3] 을 해야한다. df[1:3] 원하는 데이터의 인덱스를 직접 입력할 수도 있다. df.loc[[0,2]] 열에 조건을 주어 행을 필터링하기 대괄호 [ ] 안에 조건을 넣거나, query 함수의 인자로 조건을 넣을 수 있다. 둘 다 같은 결과를 가져온다. df[df.age > 25] df.query('age > 25') 여러 조건을 추가할 수도 있다. df[ (df.age>25) & (df.name=='Nate') ] 행에 조건을 주어 열을 필터링하기 인덱스를 이용해서 열을 필터링할 수 있다. iloc 의 첫 인자는 행을 의미하고 두 번째 인자는 열을 의미한다. 그래서 ..

데이터 프레임을 파일로 저장하기 위와 같은 데이터 프레임을 파일로 저장해보자. df.to_csv('temp.csv', index=True, header=True) jupyter lab이 있는 위치에 csv파일이 생성된다. index와 header는 True를 default 값으로 가지고 있다. index를 False로 설정하면 각 데이터들이 있는 row가 저장되지 않는다. header를 False로 설정하면 각 데이터들의 헤더들이 저장되지 않는다. None 값을 치환해서 채우기 위와 같이 None, NaN과 같은 빈 값이 있을 때, 원하는 값으로 대체하여 저장할 수 있다. df.to_csv('friend_list_from_df.csv', na_rep = '-') https://youtu.be/ffjpgv..

딕셔너리로 데이터 프레임 생성하기 각 row는 딕셔너리이고 그 row들을 모아서 리스트를 만든다. 그 리스트로 데이터 프레임을 만들면 아래와 같다. import pandas as pd friend_dict_list = [{'name': 'Jone', 'age': 20, 'job': 'student'}, {'name': 'Jenny', 'age': 30, 'job': 'developer'}, {'name': 'Nate', 'age': 30, 'job': 'teacher'}] df = pd.DataFrame(friend_dict_list) 리스트로 데이터 프레임 생성하기 2차원 리스트를 만들고, 따로 헤드를 만든다. from_records라는 함수로 데이터 프레임을 생성한다. friend_list = [ [..

존재하는 파일로부터 데이터 가져오기 csv 파일로부터 가져올 수 있다. txt 파일로도 가져올 수 있지만, 데이터가 ','로 구분되어 있어야 한다. 데이터가 ',' 로 구분되어있지 않고 다른 구분문자로 되어 있으면, delimiter 인자로 지정해주면 된다. import padas as pd df = pd.read_csv('example.csv') df = pd.read_csv('example.txt', delimiter='\t')# 데이터가 탭으로 구분되어 있을 때 헤드 정보가 없을 때 설정하는 법 파일을 가져올 때 헤드 정보가 없다는 것을 알려주고 따로 넣어준다. df = pd.read_csv('example.csv', header=None) df.columns = ['name', 'age', 'jo..

pandas란 데이터를 수정하고 목적에 맞게 변경하는 python 라이브러리이다. 기본 사용법은 아래와 같다. import pandas as pd# 라이브러리를 가져온다. data_frame = pd.read_csv('example.csv') # csv파일을 가져와서 데이터 프레임을 생성한다. data_frame.head()# 앞 5개의 데이터를 가져온다. data_frame.tail(3)# 뒤에서 3개의 데이터를 가져온다. 데이터 프레임 (Data Frame) 판다스에서 사용하는 2D array로 엑셀과 유사하다. 엑셀로는 프로그램을 만들 수 없고 pandas가 numpy를 사용하여 빠르기 때문에 엑셀로 pandas를 대체할 수 없다. 시리즈 (Series) 데이터 프레임의 각 column을 serie..