In [145]: import pandas as pd Data Load¶ In [146]: seoul = pd.read_csv('./data/seoul.csv') daegu = pd.read_csv('./data/daegu.csv') print(seoul.columns) original_col = seoul.columns Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object') 기호가 들어있는 컬럼명은 이용하기 불편하므로 바꾸어줍니다. In [147]: col = ['date', 'location'..
기상자료개발포털에서 받아온 자료를 read_csv로 불러오려는데 다음과 같은 오류가 생겼다. 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte 인코딩 형식이 맞지 않아서 생기는 오류라고 한다! 파일을 엑셀로 열어보면 이렇게 생겼다 인코딩 문제도 있지만 read_csv로 csv파일을 읽게 되면 맨 첫 줄을 column명으로 인식하기 때문에 1~7행을 삭제해주어야 한다 또는 skiprows 옵션을 주는 방법도 있다. df = pd.read_csv('경로~~', skiprows=7) 그 후 파일 -> 다른 이름으로 저장을 해서 파일 형식을 CSV UTF-8(쉼표로 분리)로 선택해주면 read_csv로 파일을 열 수 있게 된다. 참고 ..
> 데이터 다운로드 MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org EDA(탐색적 데이터 분석)¶moive lens data 데이터를 이용한 pandas 실습 In [1]: import pandas as pd import numpy as np 0. DataLoad¶ In [2]: movie = pd.read_csv('./data/movies/movies.csv&..
pandas를 이용해서 데이터의 양은 방대하므로 직접 만들지 않고 외부에서 가져오는 경우가 많다 csv read_csv('file 경로') 첫 줄을 columns 명으로 데이터를 가져온다. df = pd.read_csv('./data/student.csv') Mysql read_sql('sql', 'database') 외부모듈 pymysql이 필요하다 설치 conda install pymysql # 또는 pip install pymysql # 1. Database 연결 con = pymysql.connect(host = 'localhost', user='root', password='password', db='database_name', charset='utf8') # 2. sql 작성 sql = 'SE..
pandas에는 두 가지 데이터 타입이 있다 Series : 1차원 자료구조. DataFrame : 2차원 자료구조. pandas는 내부적으로 numpy array를 이용하고 있으므로 ndarray와 같이 같은 타입의 데이터만 저장이 가능하다. pandas 데이터 타입은 숫자 인덱스 외에 별도로 문자 인덱스(지정인덱스)를 사용할 수 있다는 특징도 있다. 설치 conda install pandas 1. Series # ndarray ndarr = np.array([1,2,3,4,5], dtype=np.float64) print("ndarr : \n", ndarr) # series s = pd.Series([1,2,3,4,5], dtype=np.float64) print("\n1. Series :\n", s..