일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 군집화
- 오래간만에 글쓰네
- 차원축소
- 밑바닥부터 시작하는 딥러닝
- 구글 BERT의 정석
- 모두의 딥러닝
- 다층 퍼셉트론
- word2vec
- 밑바닥부터 시작하는 딥러닝2
- Django
- 코사인 유사도
- 텍스트 분류
- 히스토그램
- 가설검정
- 최소자승법
- rnn
- numpy
- Pandas
- 파이썬 pandas
- F분포
- 결정계수
- student t분포
- 감성분석
- 은준아 화이팅
- 기술통계학
- 자연어 처리
- 회귀분석
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 머신러닝
- 기초통계
- Today
- Total
목록전체 글 (149)
데이터 한 그릇
시그모이드 함수 오차 공식 로그 함수 로지스틱 회귀에서 퍼셉트론으로 로지스틱 회귀 True or False 중 하나를 선택해야 하는 경우 로지스틱 회귀 원리를 거쳐 이루어진다. 데이터의 위치가 0 혹은 1로 존재할 경우에는, 직선으로 데이터를 잘 표현할 수 없다. 이때 사용하는 게 로지스틱 회귀 시그모이드 함수 y = 1 / 1 + e^-(ax+b) 결국 시그모이드 함수도 ax + b 를 구해야 함을 알 수 있다. (선형 회귀에서도 직선 ax + b 를 구하는 게 목표였다.) 단 직선에서 a는 기울기, b는 절편을 의미했다면 시그모이드 함수는 다르다. 시그모이드 함수 내에서 a 는 그래프의 경사도를 의미, b 는 그래프의 좌우 이동을 의미한다. a값이 커지면 경사가 커지고 작아지면 경사가 작아진다. 시그..
선형 회귀 경사 하강법 선형 회귀 딥러닝의 가장 기초적인 계산 단위 두 가지 : 선형 회귀, 로지스틱 회귀 기존의 데이터를 이용해서 하나의 직선을 그리고 이 직선을 이용해서 새로운 데이터에 대해 예측을 시도. 직선의 방향을 정하고 정확한 기울기와 절편을 구하면 됨. 최소 제곱법 기울기와 절편을 구할 때 사용. 단, 한 개의 x가 주어졌을 때 가능. a = (x - x평균)(y - y평균)의 합 / (x - x평균)^2 의 합 b = y의 평균 - (x의 평균 x 기울기 a) 이를 통해서 구한 직선이 오차가 가장 적은 예측 직선 import numpy as np x = [2,4,6,8] y = [81,93,91,97] mx = np.mean(x) my = np.mean(y) divisor = sum([(i..
중학교 수준의 수학 일차함수 이차함수 미분 지수와 지수함수 시그모이드 함수 로그와 로그함수 일차함수 y = ax + b(a !=0) 기울기 : x가 증가할 때 y가 증가하는 정도 절편 : 그래프가 축과 만나는 지점 이차함수 y = ax^2(a != 0) 포물선 모양 포물선 맨 아래 모양이 최솟값 딥러닝은 최솟값을 구하는 과정, 미분과 기울기를 이용 미분 1. 순간변화율 0에 가까울 정도로 x가 변화할 때 y도 아주 미세하게 변화, 너무 미세하게 움직여서 실제로 움직이는 게 아니라 방향만 드러내는 정도의 순간 변화 => 순간변화율 기울기 순간변화율의 방향성에 맞게 직선을 그어주면 기울기 두 점 사이의 기울기 구하기 점 a 좌표 : (a, f(a)) 점 b 좌표 : (b, f(b)) ab 의 x변화량 b-a..
캐글의 Customer Personality Analysis 데이터를 이용해 고객 세그멘테이션 진행. K-Means 군집화 방법 사용 대학원 빅데이터분석 수업 Term Project pdf 파일과 code 파일 csv 파일 첨부
지도 학습 기반 비지도 학습 기반 지도학습 기반 감성 분석 실습 - IMDB 영화평 캐글에 있는 IMDB 영화평을 기반으로 실습을 진행해 보겠다. import pandas as pd review_df = pd.read_csv('C:\\Users\\user\\Desktop\\labeledTrainData.tsv\\labeledTrainData.tsv', header = 0, sep="\t", quoting =3) review_df.head() print(review_df['review'][0]) 먼저 데이터를 불러오고 데이터의 전반적인 모습을 살펴보겠다. import re review_df['review'] = review_df['review'].str.replace(' ',' ') review_df['r..
Bag of Words - BOW BOW 모델은 문서가 가지는 모든 단어들을 문맥과 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델이다. 비유적으로, 양념감자를 예시로들 수 있다. 문서에 있는 모든 단어들을 추출하여 양념감자 팩에 넣고 뒤섞는 것이 이에 비유될 수 있다. Bag of Words 자체가 이런 비유에서 모델 이름이 생성됐다. 프로세스는 다음과 같다. 만일 문장 1 과 문장 2가 있다면 문장1과 문장2의 모든 단어들을 중복을 제외하고 추출한후 칼럼으로 나열한다. 그리개별문장들을 인덱스로 설정하고 각 인덱스에서 칼럼에 나열되어 있는 단어들의 횟수들을 value 값으로 측정한다. 이러한 프로세스를 가지는 BOW 는 쉽고 빠른 구축을 할 수 있다는 장점이 있다. 하..
클렌징(Cleansing) 토큰화(Tokenization) 필터링/스톱 워드 제거/철자 수정 Stemming Lemmatization 텍스트 분석의 큰 프로세스를 살펴보자면 문서에서 단어 기반으로 하여 피처를 뽑은 후에 피처에 벡터 값을 부여하는 작업이 필요하다. 하지만 피처에 벡터값을 부여하는 작업을 하기 전에 본 데이터에 대한 전처리 작업이 필요하다. 전처리 작업은 크게 클렌징, 토큰화, 필터링/스톱 워드 제거/ 철자 수정/Stemming/Lemmatization 등이 있다. 각각의 전처리 작업을 실습해보도록 하자. 클렌징 텍스트에서 분석에 오히려 방해가 되는 불피요한 문자 등을 제거하는 작업을 말한다. 예를 들어서 인터넷에서 크롤링한 데이터가 있다고 했을 때, html 기호 등을 사전에 삭제하는 작..
텍스트 분석 텍스트 분석 이해 텍스트 분석 NLP 와 텍스트 분석은 머신러닝이 발전한 이후에 분리해서 구분하는게 큰 의미가 없다. 하지만 굳이 구분을 하자면 다음과 같다. NLP 는 기계가 인간의 언어를 이해하고 해석하는데 중점을 두고 기술이 발전해왔다. 텍스트 분석은 비정형 데이터에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다. NLP 는 텍스트 분석 기술 진보의 동력이라고 할 수 있으며, 따라서 NLP 가 발전함에 따라 텍스트 분석 기술도 발전해왔다. 또한 머신러닝은 NLP 와 텍스트 분석 기술 발전의 동력이라고 할 수 있으며, 따라서 머신러닝이 발달함에 따라 NLP 기술과 텍스트 분석 기술이 발전해왔다. 우리가 다뤄볼 주제는 텍스트 분석이며 텍스트 분석의 영역은 크게 다음과..
~20210813 현재까지의 코로나 바이러스 상황 여행 사업과 연관지어 시각화 대학원 입학전 파이썬 프로그래밍과 데이터 분석 프로세스를 연습하기 위해 0813 ~ 0824 까지 프로젝트 진행. INSIGHT(1) 이 내가 도출한 인사이트. 그 이외는 조원. 코로나 관련 데이터를 크롤링 하면서 크롤링 관련한 실제적인 경험을 쌓을 수 있었음. 역시 느끼는 거지만 관련 데이터를 찾기가 쉽지 않음 이번엔 가볍게 프로젝트를 진행했다면 다음엔 좀더 무거운 프로젝트를 진행하고 싶다. 오늘은 대학원 생활 중 이루어야 할 것들 정리(EX. 토익, 자격증, 공모전), DATA ANALYSIS 공부 방향 설정
정밀도 재현율 트레이드 오프 정밀도 / 재현율 트레이드 오프 (Trade-off) 업무에 따라 정밀도/재현율 중요도 다름 분류하려는 업무 특성사 정밀도 도는 재현율이 특별히 강조되어야 할 경우 분류의 결정 임계값(Threshold)을 조정해서 정밀도 도는 재현율의 수치를 높일 수 있음 그러나 정밀도와 재현율은 상호 보완적인 평가 지표이기 때문에 어느 한쪽을 강제로 높이면 다른 하나의 수치는 떨어지는데 이를 정밀도/재현율의 트레이드 오프라고 함 사이킷런에서는 분류 결정 임계값을 조절해서 정밀도와 재현율의 성능 수치를 상호 보완적으로 조정 가능 분류 결정 임계값 Positive 예측값을 결정하는 확률의 기준 임계값을 낮출수록 True 값이 많아짐 사이킷런의 분류 알고리즘에서 결정 확률을 구하는 방식 예측 데..