일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 구글 BERT의 정석
- F분포
- 파이썬 pandas
- 다층 퍼셉트론
- word2vec
- 감성분석
- 은준아 화이팅
- student t분포
- 가설검정
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 머신러닝
- 밑바닥부터 시작하는 딥러닝
- 군집화
- 밑바닥부터 시작하는 딥러닝2
- 차원축소
- 기술통계학
- 최소자승법
- Django
- 텍스트 분류
- 기초통계
- 오래간만에 글쓰네
- 회귀분석
- Pandas
- 모두의 딥러닝
- 히스토그램
- numpy
- 결정계수
- rnn
- 자연어 처리
- 코사인 유사도
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
LEFT JOIN, INNER JOIN 비교 SELECT * FROM orders; SELECT * FROM customers; SELECT * FROM orders LEFT JOIN customers ON orders.customerNumber = customers.customerNumber; LEFT JOIN 코드를 기준을 왼쪽에 있는 테이블에 오른쪽 테이블(CUSTOMERS 테이블)을 JOIN 하는 것. 이때 공유하는 게 같은 칼럼만 JOIN 한다. ON 뒤에 같이 공유하고 있는 칼럼을 적어주면 된다. 즉 LEFT 쪽에 있는 테이블에 있는 건 모두 가져온다. 그리고 추가로 오른쪽에 있는 데이터의 정보를 가져오는데, 다 가져오는 게 아니라 특정 컬럼을 선정하고 그 칼럼과 공통된 데이터를 가지고 있는 ..
MYSQL 명령어 SELECT !! 살펴보기 0)USE 작업할 DataBase 선택 명령어로 database 선택시 해당 데이터 베이스를 더블 클릭하거나 위의 명령문을 사용하면 된다. 1)SELECT FROM 특정 table의 특정 colum 데이터를 가져오기 위해 select를 사용한다. 만일 여러 개의 칼럼을 가져오고 싶다면 과 , 를 같이 사용한다. 칼럼명 입력란에 *를 사용하게 되면 모든 칼럼을 가져온다. 만일 FROM절을 생략하게 되면 내부에서 FROM dual 을 자동으로 생성하여 실행. 반드시 SELECT 절에는 FROM 이 있어야 하지만 MYSQL 내에서 연산을 하려고 할 때 가상의 테이블 dual 을 붙여서 연산 이 가능하게끔 컴퓨터가 처리하는 것. SELECT에 조건 을 붙이고 싶을 때..
MYsQL 이해하기 1)테이블 생성 시 주의사항 -Not Null => 무조건 데이터가 들어가야 함. (반드시 입력이 되어야 함) 만일 Not Null 이 생략되어 있으면 Null 값을 허용해준다. -문자형 괄호 안 => ex)varchar(50), 데이터의 자료형 구분과 자료 크기를 결정 -DEFAULT => 입력을 안했을시 기본 입력값 2) 테이블 속성 설정(제약조건) PRIMARY KEY -> 중복이 없는 키 그리고 NULL 값 허용 X FOREIGN KEY -> 만일 어떤 테이플이 다른 테이블을 참조 했을 때, 참조된 PRIMARY KEY가 참조하는 테이블의 FOREIGH KEY로 들어가면서 연동이 된다. 3)데이터 언어의 분류 데이터 베이스 관련 언어는 크게 3가지로 나뉜다. DDL(데이터 정의..
numpy를 이용해서 기술통계학의 여러 기초통계 수치들을 구해보자. 총합, 평균, 편차 height = np.array([175,165,180,160]) weight = np.array([75,70,95,72]) 임의의 데이터를 생성하자. (배열로) 1)총합 h_sum = np.sum(height) w_sum = np.sum(weight) 2)평균 h_mean = np.mean(height) w_mean = np.mean(weight) 3)편차 h_deviation = height - h_mean w_deviation = weight = w_mean 분산, 표준편차 1)분산 h_var = np.var(height) w_var = np.var(weight) 2)표준편차 h_std = np.std(heigh..
통계청 신생아수 데이터 matplotlib 시각화 기술통계 시각화 작업을 해봄. => 기본적인 전처리와 Seaborn의 다양한 그래프를 사용해봤다. df['variable'].str.split('.', expand = True) #의 return 은 DataFrame임. df['variable'].str.split('.', expand = True)[index] #는 return 이 Series임. 전처리 중에 df['variable'].str.split('.', expand = True) 를 사용하여 전처리 하는 쉬운 방법 알아냄 (이 함수는 split을 모든 행에 적용시켜준다.) for i in df['variable']: df['연도'] = i.split('.')[0] df['월'] = i.spli..

기본 matplotlib 함수들 plt.figure(figsize=()) plt.axes() plt.plot() plt.title() plt.grid() plt.xlabel() plt.ylabel() plt.xticks() plt.yticks() plt.xlim() plt.style.use() plt.subplot(x,y,z) fig, ax = plt.subplots(x,y) => fig, (axes1,axes2) =plt.subplots(x,y) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns matplotlib 패키지와 seaborn 패키지 중에 matplotlib을 살펴볼 예정 pl..
기능 바꾸기 from functools import partial data.head = partial(data.head, n=10) data.head() functools 패키지의 partial 를 통해서 기존 함수의 기능을 바꿀 수 있다. 본래 head() 의 n 디폴트 값은 5이다. partial을 통해서 n=10으로 바꾸면 head() 를 사용하면 10개가 나온다. describe data.describe() 범주 데이터가 아니라 구간 데이터에 한해서 통계적 정보를 줌 (평균, 표준편차, 사분위수, 개수) data.describe().T data.describe(include=np.number).T 범주 데이터가 아니라 구간 데이터에 한해서 통계적 정보를 줌 (평균, 표준편차, 사분위수, 개수) i..
판다스 기본 기능들 data = pd.read_csv('C:\study\workspace_python\pdsample/num.txt',header=None) 판다스 데이터 불러오기 header를 설정하지 않고 txt파일을 읽어오게 되면 txt 파일의 첫 번째 줄이 header가 되어서 나타남. 따라서 header 자동 설정을 풀어줘야 하는데, 파라미터 header의 매개변수에 None 인자를 넣으면 됨. #칼럼 열 print(data[0]) print(type(data[0])) #행 print(data.iloc[0]) type(data.iloc[0]) 열과 행 모두 Series를 반환한다. 이를 통해 데이터 프레임은 여러 Series의 묶음임을 알 수 있다. data = pd.read_csv("https..
배열의 열의 이름과 데이터 타입 지정 array는 기본적으로 homogeneous 다. 동종의 데이터 타입만을 저장한다. 그러나 서로 다른 유형의 데이터 타입으로 묶을 수 있는데 그때 사용법이 정해져 있다. import numpy as np x = np.array([('Rex',9,81.0),('Fibo',10,27.0)], dtype=[('name','U10'),('age','i4'),('weight','f4')]) 먼저, 타입이 다른 열들로 배열을 만들 때, 튜플을 사용하여 만든다. dtype을 설정하지 않고 배열을 만들게 되면 인자에 str이 포함되어 있으면 모든 인자를 str로 받아주게 됨. 따라서 array를 만들 때, dtype에 튜플로 각 열의 이름과 데이터 타입을 지정해줘야 함 print(..
np.expand_dims(a, axis = ?) np.expand_dims(a,axis = 0) #차원 확대 axis = 0이기 때문에 딥스를 확대하는 것. 2차원에서 3차원으로 확장이 된다. a[newaxis,:,:] 와 동일한 결과를 얻는다. 인자를 적을 때 axis = 0 처럼 키를 이용해서 적어도 되지만 키를 생략하고 숫자만 적어도 된다. np.expand_dims(a,1) axis = 1로 확대를 한 것이기 때문에 a[:,newaxis,:] 와 동일하다. 행을 기준으로 차원을 확장한 것. (행이 본래 일차원이였는데, 각 행은 1차원에서 2차원으로 확장이 됨) np.expand_dims(a,2) axis = 2와 동일, 따라서 a[:,:,newaxis] 와 동일 열별로 하나씩 가져와서 하나의 뎁..