일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AWS
- Snowflake
- 팀 프로젝트
- beuatifulsoup
- SQL
- cloud platform
- 슈퍼셋
- Til
- 데이터 엔지니어
- 코테 연습
- Selenium
- 데이터 시각화
- Spark
- Kafka
- superset
- airflow
- 데브코스
- django
- PCCP
- HTML
- Tableau
- 코딩 테스트
- 코딩테스트
- Today
- Total
목록Web Data Crawling (5)
주니어 데이터 엔지니어 우솨's 개발일지
데이터 시각화데이터 시각화를 위해서 Matplotlib이나 Seaborn라이브러리를 사용한다.Seaborn라이브러리import seaborn as sns꺾은선 그래프(Line Plot)sns.lineplot(x=[1, 3, 2, 4], y=[4, 3, 2, 1])막대 그래프(Bar Plot)sns.barplot(x=[1,2,3,4],y=[0.7,0.2,0.1,0.05])Matplotlib라이브러리import matplotlib.pyplot as plt제목추가plt.title('제목')라벨추가x축 : plt.xlabel('라벨')y축 : plt.ylabel('라벨')그래프의 축의 범위 지정x축 : plt.xlim(0,10) - x축 범위를 0~10으로 지정y축 : plt.ylim(0,10) - y축 범위를..
BeautifulSouprequests 모듈 사용시 아주 긴 텍스트이 정보를 가져오기 때문에 분석이 힘든 점을 보완하여 HTML코드를 분석해주는 HTML Parser를 이용할 수 있다.res = requests.get('https://www.example.com')soup = BeautifulSoup(res.text, 'html.parser')- response의 body를 텍스트로 받고, html로 분석soup.prettify()-보기 편한 형태로 만들어준다.폼 가져오기-soup.title()-soup.head()-soup.body()태그로 감싸진 특정요소 하나 찾기- h1=soup.find('h1")태그로 감싸진 특정요소 모두 찾기-soup.find_all('p')태그 이름 가져오기-h1.name태그..
Selenium웹 브라우저를 자동화하는 라이브러리- 응답 후 시간을 지연시킬 수 있다- UI와의 상호작용이 가능하다(키보드 입력과 마우스 클릭등의 상호작용이 가능) Selenium 불러오기라이브러리from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom webdriver_manager.chrome import ChromeDriverManagerdriver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))with - as : 주어진 명령이 끝나면 driver종료드라이버에서 요소 찾기요소 하나 찾기.find_element(by, targ..
Web Scraping 기초인터넷 : 여러 컴퓨터끼리 네트워크를 연결한 것.Web은 인터넷 상에서 정보를 교환하기 위한 시스템이다.Client : 정보를 요청하는 컴퓨터Server : 정보 제공하는 컴퓨터HTTP(Hyper Text Transfer Protocol)웹 상에서 정보를 주고받기 위한 약속http요청시 필요사항- Get, Host, User-Agent웹 브라우저는 HTML요청을 보내고, HTTP 응답에 담긴 HTML문서를 우리가 보기 쉬운 형태로 화면을 그려주는 역할을 한다.웹 페이지는 HTML형식으로 되어있고, 웹 브라우저는 우리가 HTTP요청을 보내고, 응답받은 HTML코드를 렌더링 해주는 역할을 하다. Requestsrequests 라이브러리를 불러온 후, NAVER의 홈 페이지를 요청한..
HTML(Hypertext Markup Language)웹 브라우저가 이해할 수 있는 언어CSS(Cascading Style Sheets)문서를 예쁘게 꾸미는 언어Java Script문서에 기능을 만들어주는 언어HTML콘테츠를 가지는 태그 콘텐츠 콘텐츠를 가지지 않는 태그 두가지로 구분된다.속성과 값 Contenta태그 - 링크href속성을 사용해서 이동하고자 하는 파일 혹은 url을 작성한다.target속성을 사용해서 이동해야 할 링크를 새창(_blank), (_self)등 원하는 타겟을 지정할 수 있다.HTML의 기본 문서 #문서버전 #기본언어설정 #실제 사용자가 눈으로 볼 수 있는 문서의 내용이 입력되는 곳 안녕하세요 ! 들..