Programming

Programming/Numpy

[numpy][pandas] np.histogram()으로 도수분포표 만들기

중학교 수학시간에 배운 도수분포표! 도수분포표는 단변수 데이터의 데이터 분포상태를 도표로 확인할 수 있는 표이다. 예를 들어 영어성적 분포를 도수분포표로 나타낸다고 하면 다음과 같이 나타낼 수 있다. 구간 명 0~20점 2 21~40점 3 41~60점 7 61~80점 8 81~100점 5 용어 도수분포표에서 사용되는 용어는 다음과 같다. 각 구간(0~20, 21~40...) : class (계급) 각 계급에 속한 학생 수 : frequency (도수) 구간의 폭(20점) : class interval 구간의 개수 : 계급수 구간의 중위값, 계급을 값으로 표현 : class mark (계급값) 전체데이터에 대해서 해당 클래스의 도수의 비율 : relative frequency (상대도수) 해당 클래스까지 ..

Programming/Pandas

[pandas] 기후통계분석 데이터를 이용한 EDA 실습

In [145]: import pandas as pd Data Load¶ In [146]: seoul = pd.read_csv('./data/seoul.csv') daegu = pd.read_csv('./data/daegu.csv') print(seoul.columns) original_col = seoul.columns Index(['날짜', '지점', '평균기온(℃)', '최저기온(℃)', '최고기온(℃)'], dtype='object') 기호가 들어있는 컬럼명은 이용하기 불편하므로 바꾸어줍니다. In [147]: col = ['date', 'location'..

Programming/Data Visualize

[matplotlib] line plot, scatter plot, box plot 그리기 & subplot을 이용해 그래프 여러 개 그리기

Matplotlib¶대표적인 시각화 library (module) Line plot area plot box plot histogram scatter bar chart, pie chart ... 등 다양한 종류의 차트를 그릴 수 있다. 주로 subpakage인 pyplot 이용한다 In [1]: import matplotlib.pyplot as plt Line plot¶연속적인 값의 경향을 파악할 때 사용한다 ex. 시계열 x축의 자료 위치(x축 눈금) => tick이라고 하며 따로 지정하지 않으면(default) 0, 1, 2, 3...이 된다 In [2]: # 차트의 제목 설정 plt.title('Line Plot') # plot()이라는 메소드를 이용해서 line plot 그림 plt..

Programming/Data Visualize

[matplotlib] 그래프에 한글 폰트 깨짐 현상 해결하기

matplotlib에서 한글깨지는 현상 해결하기¶ In [1]: import matplotlib.pyplot as plt import numpy as np import pandas as pd # 한글폰트 적용을 위해 필요한 library import matplotlib as mpl import matplotlib.font_manager as fm from matplotlib import rc import warnings warnings.filterwarnings(action='ignore') # 경고 무시 # 그래프에서 '-' 기호가 문제가 생길 수 있음 mpl.rcParams['axes.unicode_minus'] = False 한글 폰트 파일이 필요하다. t..

Programming/Pandas

[pandas] read_csv 'utf-8' error

기상자료개발포털에서 받아온 자료를 read_csv로 불러오려는데 다음과 같은 오류가 생겼다. 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte 인코딩 형식이 맞지 않아서 생기는 오류라고 한다! 파일을 엑셀로 열어보면 이렇게 생겼다 인코딩 문제도 있지만 read_csv로 csv파일을 읽게 되면 맨 첫 줄을 column명으로 인식하기 때문에 1~7행을 삭제해주어야 한다 또는 skiprows 옵션을 주는 방법도 있다. df = pd.read_csv('경로~~', skiprows=7) 그 후 파일 -> 다른 이름으로 저장을 해서 파일 형식을 CSV UTF-8(쉼표로 분리)로 선택해주면 read_csv로 파일을 열 수 있게 된다. 참고 ..

Programming/Pandas

[Pandas] Movie Lens Data를 이용한 EDA 실습

> 데이터 다운로드 MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. … grouplens.org EDA(탐색적 데이터 분석)¶moive lens data 데이터를 이용한 pandas 실습 In [1]: import pandas as pd import numpy as np 0. DataLoad¶ In [2]: movie = pd.read_csv('./data/movies/movies.csv&..

Programming/Pandas

[pandas] DataFrame Merge, Mapping, Grouping

DataFrame 연결¶ In [1]: import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1,2,3,4], 'c':['c0','c1','c2','c3']}, index=[0,1,2,3]) df1 Out[1]: a b c 0 a0 1 c0 1 a1 2 c1 2 a2 3 c2 3 a3 4 c3 In [2]: df2 = pd.DataFrame({'b':[5,6,7,8], 'c':['c0',&#39..

Programming

conda install error : Retrying with flexible solve.

conda install pymysql을 하는데 오류가 발생했다. Retrying with flexible solve라고 하는데 conda가 구버전이어서 생기는 오류라고 한다 conda info를 해보니 현재 버전은 4.11.0이다. 시도 1. conda update --all 알고 보니 conda update --all은 아나콘다 패키지를 업데이트 하는 명령어였다. 뒤의 명령어로 base환경을 업데이트한 후 conda update --all을 하니 패키지들이 업데이트가 되었다 다른 명령어를 알려주었기 때문에 주어진 명령어로 다시 update 시도! 해결 2. conda base 환경 update conda update -n base -c defaults conda 업데이트가 잘 되었다! conda in..

Heaea
'Programming' 카테고리의 글 목록 (5 Page)