Programming/Pandas

Programming/Pandas

[pandas] 기후통계분석 데이터를 이용한 EDA 실습

In [145]: import pandas as pd Data Load¶ In [146]: seoul = pd.read_csv('./data/seoul.csv') daegu = pd.read_csv('./data/daegu.csv') print(seoul.columns) original_col = seoul.columns Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object') 기호가 들어있는 컬럼명은 이용하기 불편하므로 바꾸어줍니다. In [147]: col = ['date', 'location'..

Programming/Pandas

[pandas] read_csv 'utf-8' error

기상자료개발포털에서 받아온 자료를 read_csv로 불러오려는데 다음과 같은 오류가 생겼다. 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte 인코딩 형식이 맞지 않아서 생기는 오류라고 한다! 파일을 엑셀로 열어보면 이렇게 생겼다 인코딩 문제도 있지만 read_csv로 csv파일을 읽게 되면 맨 첫 줄을 column명으로 인식하기 때문에 1~7행을 삭제해주어야 한다 또는 skiprows 옵션을 주는 방법도 있다. df = pd.read_csv('경로~~', skiprows=7) 그 후 파일 -> 다른 이름으로 저장을 해서 파일 형식을 CSV UTF-8(쉼표로 분리)로 선택해주면 read_csv로 파일을 열 수 있게 된다. 참고 ..

Programming/Pandas

[Pandas] Movie Lens Data를 이용한 EDA 실습

> 데이터 다운로드 MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org EDA(탐색적 데이터 분석)¶moive lens data 데이터를 이용한 pandas 실습 In [1]: import pandas as pd import numpy as np 0. DataLoad¶ In [2]: movie = pd.read_csv('./data/movies/movies.csv&..

Programming/Pandas

[pandas] DataFrame Merge, Mapping, Grouping

DataFrame 연결¶ In [1]: import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1,2,3,4], 'c':['c0','c1','c2','c3']}, index=[0,1,2,3]) df1 Out[1]: a b c 0 a0 1 c0 1 a1 2 c1 2 a2 3 c2 3 a3 4 c3 In [2]: df2 = pd.DataFrame({'b':[5,6,7,8], 'c':['c0',&#39..

Programming/Pandas

[pandas] DataFrame Indexing & Slicing

idols = { '그룹' : ['마마무', '에이핑크', '투피엠', '비투비'], '멤버수' : [4, 6, 6, 6], '데뷔년도' : ['2014', '2011', '2008', '2012'], '소속사' : ['rbw', 'ist', 'jyp', 'cube'] } df = pd.DataFrame(idols, columns=['소속사', '데뷔년도', '그룹', '멤버수'], index=['1', '2', '3', '4']) Column Indexing 하나의 column만 추출하기 group = df['그룹'] group Series 타입으로 반환된다. 1 마마무 2 에이핑크 3 투피엠 4 비투비 Name: 그룹, dtype: object 이렇게 생성된 Series는 원복에서 복사된 것이 아니라..

Programming/Pandas

[pandas] 여러가지 resource를 이용하여 DataFrame 생성하기 (csv, sql, api, json)

pandas를 이용해서 데이터의 양은 방대하므로 직접 만들지 않고 외부에서 가져오는 경우가 많다 csv read_csv('file 경로') 첫 줄을 columns 명으로 데이터를 가져온다. df = pd.read_csv('./data/student.csv') Mysql read_sql('sql', 'database') 외부모듈 pymysql이 필요하다 설치 conda install pymysql # 또는 pip install pymysql # 1. Database 연결 con = pymysql.connect(host = 'localhost', user='root', password='password', db='database_name', charset='utf8') # 2. sql 작성 sql = 'SE..

Programming/Pandas

[pandas] 데이터 조작 및 분석을 위한 python module - pandas

pandas에는 두 가지 데이터 타입이 있다 Series : 1차원 자료구조. DataFrame : 2차원 자료구조. pandas는 내부적으로 numpy array를 이용하고 있으므로 ndarray와 같이 같은 타입의 데이터만 저장이 가능하다. pandas 데이터 타입은 숫자 인덱스 외에 별도로 문자 인덱스(지정인덱스)를 사용할 수 있다는 특징도 있다. 설치 conda install pandas 1. Series # ndarray ndarr = np.array([1,2,3,4,5], dtype=np.float64) print("ndarr : \n", ndarr) # series s = pd.Series([1,2,3,4,5], dtype=np.float64) print("\n1. Series :\n", s..

Heaea
'Programming/Pandas' 카테고리의 글 목록