'분류 전체보기' 카테고리의 글 목록 (9 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (126)

주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 59일차 TIL

학습 내용 Spark의 주요 파일 타입 Parquet : Spark의 기본 파일 포맷 - 트위터와 클라우데라에서 공동 개발(Doug Cutting)파티션 다시 나누기 df2 = df.repartition(4)파티션 줄이기 df3 = df2.coalesce(2)파티션 저장 format종류 : avro ,parquet, json 등df.write \ .format("avro") \ .mode("overwrite") \ .option("path", "dataOutput/avro/") \ .save()Transformations and Actions - Transformations - Narrow Dependencies : 독립적인 partition level 작업 ..

데브코스 2024. 6. 30. 10:09

데이터 엔지니어링 58일차 TIL

학습 내용Spark SQL이란? - Spark SQL은 구조화된 데이터 처리를 위한 Spark모듈 - 데이터 프레임 작업을 SQL로 처리 가능 - 데이터프레임에 테이블 이름 지정 후 sql함수 사용가능 - 판다스에도 pandasql모듈의 sqldf 함수를 이용하는 동일한 패턴 존재 - HQL(Hive Query Language)과 호환제공 - Hive 테이블들을 읽고 쓸 수 있다.(Hive Metastore) Spark SLQ 사용법 1. 데이터 프레임을 기반으로 테이블 뷰 생성 - createOrReplaceTempView : spark Session이 살아있는 동안 존재 - createO..

데브코스 2024. 6. 30. 10:02

데이터 엔지니어링 57일차 TIL

학습 내용 Spark 데이터 시스템 아키텍처데이터 병렬처리가 가능하려면? 1. 데이터가 먼저 분산되어야 한다 - 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록(128MB) - hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 - Spark에서는 이를 파티션(Partition)이라 부른다(128MB) - spark.sql.files.maxPartitionBytes : HDFS등에 있는 파일을 읽어올 때만 적용됨 2. 나눠진 데이터를 각각 따로 동시 처리 - 맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행 - Spark에서는..

데브코스 2024. 6. 30. 09:59

데이터 엔지니어링 56일차 TIL

학습내용빅데이터의 정의 - 서버 한대로 처리할 수 없는 규모의 데이터 - 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V - Volume : 데이터의 크기 - Velocity : 처리속도 - Variety : 데이터의 특성 (정형, 비정형) - Varecity : 데이터의 품질 빅데이터의 예 - 웹 - 수십 조개 이상의 웹페이지가 존재 - 온갖 종류의 지식의 바다 - 웹 검색엔진 개발은 진정한 대용량 데이터 처리 - 웹 페이지를 크롤하여 중요한 페이지를 찾아내고(페이지 랭크) 인덱싱하고 서빙한다 - 구글이 빅데이터 기술의 발전에 지대한 공헌 - 최근에는 웹 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용된다. 빅데이터 처리의 특징 - 큰 데이터를 손실..

데브코스 2024. 6. 17. 19:19

프리티어 Cluoud Platform에서 Airflow환경 구축

노션에 작성https://ink-find-5d0.notion.site/Cloud-Platform-Airflow-f743be7b9e1e46ed9780b504f9069c9b?pvs=4 Cloud Platform에서 Airflow 환경 구축 | Notion📌 Cloud 종류ink-find-5d0.notion.site

Airflow 2024. 6. 17. 19:00

데이터 엔지니어링 55일차 TIL

학습 내용dbt seed란? - 많은 dimension 테이블들을 csv파일 형태로 쉽게 만든 후 데이터웨어하우스에 테이블로 로딩해주는 기능 1. seeds 폴더에 csv파일 저장 2. dbt run => csv파일을 redshift에 바로 저장- 다른 SQL에서 사용시 Jinjatamplate 사용 : {{ ref("reference_date") }} Staging 테이블을 만들 때 입력 테이블이 자주 바뀐다면? - models 밑의 .sql 파일들을 일일이 찾아 바꿔주어야한다. - 번거롭고 실수가 나오기 쉽다. - 이 번거로움을 해결하기 위한 것이 Sources - 입력 테이블에 별칭을 주고 별칭을 staging 테이블에서 사용한다. DBT Sources 란? - 외부 데..

데브코스 2024. 6. 7. 20:04

이전 Prev 1 ··· 6 7 8 9 10 11 12 ··· 21 Next 다음

목록분류 전체보기 (126)

주니어 데이터 엔지니어 우솨's 개발일지

티스토리툴바