일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Spark
- 코딩테스트
- 데브코스
- superset
- Tableau
- Selenium
- Snowflake
- 슈퍼셋
- AWS
- HTML
- 팀 프로젝트
- 코테 연습
- beuatifulsoup
- cloud platform
- SQL
- 코딩 테스트
- Til
- Kafka
- GCP
- 데이터 시각화
- VPC
- airflow
- 데이터 엔지니어
- PCCP
- django
- Today
- Total
주니어 데이터 엔지니어 우솨's 개발일지
데이터 엔지니어링 4일차 TIL 본문
학습내용
Hash
사전, key-value
탐욕법 (Greedy Algorithm)
현재의 선택이 마지막해답의 최적성을 해치지 않을 때
각 단계에서 그 순간이 최적이라 판단되는 것을 선택한다.
해쉬와 탐욕 알고리즘의 실습문제 풀이
1.
2.
3.
4.
특강 GPT
LLM(Large Language Model)
모델 훈련 : 웹상에서 존재하는 문서들이 모델의 훈련 데이터가 된다.
-품질이 중요하기에 위키피디아가 가장 많이 사용됨
-이를 코드에 적용 가능하며 이 경우 github 훈련용 데이터가 된다.
-비지도학습(Unsupervised Learning)
단점
-들어가는 비용이 상상을 초월한다.
-탄소 발생으로 지구 온난화 가속화
-데이터 주권문제
Word to Vector
-단어를 그대로 사용할 수 없고 이를 숫자도 변환 후(One-Hot encoding) 다시 N차원 공간의 벡터로 변환한다. - 워드임베딩(Word Embedding)
-데이터의 크기를 줄이고 단어간의 유사도를 측정 가능하다.
ex) king : queen = man : woman
Chat GPT(Generative Pre-trained Transformer)
-GPT를 챗봇의 형태로 파인튜닝한 것
-RLHF 훈련 (인간피드백 강화학습)
ChatGPT 4.0
Code Interpreter추가
- 코드를 작성하고 jupyter noterbook에서 실행가능
- 이미지 업로드 지원
GPTs - 개인이 커스텀화한 챗봇
파인튜닝(Fine Tuning)
기존 모델 위에 새로운 레이어를 얹어 다른 용도의 데이터로 훈련하는 것
ex)GPT를 파인튜닝한 Chat GPT
느낀 점
코딩테스트 준비를 하면서 프로그래머스에서 풀었던 문제들을 다시 한번 복습할 수 있었다.
그 때 내가 풀었던 풀이법과 지금 알려주시는 풀이법을 비교해보며 시간복잡도를 낮추면서 코드도 더 간결히 만들 방법에 대해 더 고민해 볼 수 있었던 시간이었다.
특강으로 요즘 핫한 ChatGPT에 대해서도 알게 되었고, ChatGPT가 본체가 아닌 GPT라는 LLM의 파인튜닝버전이라는 사실을 처음 알게되었다. 또한 GPT를 이용한 GPTs등 몰랐었던 여러 유용한 GPT의 기능들을 살펴 볼 수 있었다.
'데브코스' 카테고리의 다른 글
데이터 엔지니어링 6일차 TIL (0) | 2024.04.01 |
---|---|
데이터 엔지니어링 5일차 TIL (2) | 2024.03.29 |
데이터 엔지니어링 3일차 TIL (0) | 2024.03.27 |
데이터 엔지니어링 2일차 TIL (0) | 2024.03.26 |
데이터 엔지니어링 1일차 TIL (0) | 2024.03.25 |