일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- F분포
- numpy
- student t분포
- 밑바닥부터 시작하는 딥러닝
- Django
- rnn
- 파이썬 pandas
- word2vec
- 밑바닥부터 시작하는 딥러닝2
- 머신러닝
- 코사인 유사도
- 결정계수
- 오래간만에 글쓰네
- 군집화
- 가설검정
- 자연어 처리
- 감성분석
- 히스토그램
- 회귀분석
- 차원축소
- 은준아 화이팅
- 텐서플로2와 머신러닝으로 시작하는 자연어처리
- 구글 BERT의 정석
- 모두의 딥러닝
- 기술통계학
- 기초통계
- 텍스트 분류
- 최소자승법
- 다층 퍼셉트론
- Pandas
- Today
- Total
목록크롤링 (5)
데이터 한 그릇
할리스 커피 홈페이지 데이터 긁어오기 (최종코딩본) def hollys_store(result): for page in range(1,58): url = 'https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=%d&sido=&gugun=&store=' % page header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"} res = requests.get(url, headers = header) html = BeautifulSoup(res.text, 'lxml') ..
크롤링 허용 여부 확인하기 /robots.txt 를 입력 ex) www.naver.com/robots.txt robots.txt 파일이 검색이 안되면 크롤링이 허락되어 있는 경우며 만일 파일이 검색이 되면 아래의 표를 참조하여 허용여부를 판별해야 한다. 표시 허용여부 User-agent:* 모든 접근 허용 Disallow: 또는 User-agent:* Allow:/ User-agent:* 모든 접근 금지 Disallow:/ User-agent:* 특정 디렉토리만 접근 금지 Disallow:/user/ children 어떤 태그의 모든 자식 태그들을 확인할 때 사용. 반환이 iterator #children print(bs_obj.ul.children) a = bs_obj.ul.children for i ..