일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- GPT4
- SKT
- KT
- KoGPT
- ChatGPT
- SearchGPT
- GPT-3.5
- Stable Diffusion
- hyperclovaX
- TRANSFORMER
- 인공지능
- naver
- 딥러닝
- 3기
- ML
- OpenAI
- AIVLE
- Meta
- nlp
- generative
- AI
- 네이버
- 생성형
- LLaMA
- deeplearning
- LLM
- 생성형 AI
- GPT-4
- gpt
- Today
- Total
목록KT AIVLE School 3기 기자단/Mini Project (7)
Ttoro_Tech

4차 미니프로젝트 주제 다양한 1:1 문의글이 존재할 때, 문의글의 단어와 문맥 등을 파악하여 각 문의별 담당자에게 빠르게 피드백을 받을 수 있도록 문의글을 분류해보자 sub : Bareun, N-gram, Sequence, KoBert, Text Classification 1. Dataset 다양한 문의 Label이 존재 코드에 관련된 문의가 가장 많은 것을 확인 할 수 있음 원격에 대한 문의가 가장 적은 것을 확인 할 수 있음 2. Data Processing NLP에서 자연어를 어떻게 전처리하는가는 매우 다양한 방법이 있으며, 방법에 따라 성능이 바뀜 이번 프로젝트에서는 다양한 처리 방법 중 데이터 증강 수집 Oversampling 형태소 분석기 영어 한국어 분리 한국어 띄어쓰기 검사 및 특수문자 ..

https://bareun.ai/ 바른 최고 성능의 한국어 형태소 분석기「바른」을 무료로 사용해 보세요. bareun.ai 바른(Bareun) Bareun.ai에서 만든 형태소 분석기 엔진 바이칼에이아이와 한국언론진흥재단이 공동으로 만들어서 공급 한국언론진흥재단의 뉴스빅데이터 분석시스템인 빅카인즈(BIGKINDS)의 형태소 분석 엔진으로 활용 중 무료로 사용할 수 있는 형태소 분석기 바른은 개인, 기업, 학교, 언론기관, 정부 등에서 누구나 무료로 사용 가능 단, 상업적인 목적으로 사용하는 경우에는 유료 라이센스 필요 한국어를 바르게 분석 한국어에 대한 깊은 이해를 바탕으로 만듦 새로운 기술에 집중하기 보다는 말뭉치를 한땀한땀 들여다 보면서 정성으로 담금질 장점 정확도가 매우 높음 적응력이 높아 다양한 ..

2차 미니프로젝트 2번째 주제 Kaggle Competitions : 악성 사이트 탐지 sub : CatBoost, K-Nearest Neighbor imputation(KNN Imputation) 최종 F1 Score 94.3% (상위 10위권) 1. 문제 정의 머신러닝 활용한 악성 사이트 탐지 유효한 독립변수를 선정할 것 최적의 결측치 대체 방안을 도출할 것 2. Data 분석 Train.csv 에 비해, test.csv에는 결측치가 많은 것을 확인할 수 있다. Train에서 높은 회귀 설명력을 보여주나, Test 에서는 결측치로 인해 제대로 작동하지 않음을 예상해볼 수 있다. Train 데이터에서 몇 특징 값이 한 곳으로 몰린 분포를 가진 것을 확인해볼 수 있었다. 3. 데이터 전처리 로그변환 결측..

2차 미니프로젝트 1번째 주제 날씨 데이터를 사용하여, 미세먼지 농도를 예측해보자 sub : RandomForest, XGBoost, DeepLearning 1. DataSets 강수량과 온도, SO2, O3외 QC FLAG(결측치, 정상 코드)를 가진 2021년 데이터를 Train 데이터로 사용하였고, 예측 값으로는 2022년 1시간 뒤 PM10(미세먼지)를 예측하는 문제이다. 1.1.데이터 분석 강수량과 미세먼지(PM10) : 비가 온 이후에는 미세먼지가 낮은 수치를 보여준다. 최저운고와 미세먼지(PM10) : 최저 운고와 미세먼지 간의 관계가 있을 것이다. 온도와 미세먼지(PM10) : 기온과 미세머지 수치가 영향이 있을 것이다. 2. 데이터 전처리 강수량 : 대부분의 데이터가 결측치를 가지나, 강..

3차 미니프로젝트 1번째 주제 차량 공유업체의 차량 파손 여부를 분류하자 sub : ResNet18, VGG-16, Image Classification Task 1. DataSets 주어진 데이터는 실제 차량 파손 이미지를 구하기 어려움으로, DALL-E 라는 이미지 생성 모델을 통해 학습 데이터를 생성한다. (정상 이미지 302개, 비정상 이미지 303개) train, validation, test 데이터 셋 추출 splitfolders 모듈을 사용 train:validation:test = 0.6:0.2:0.2의 비율로 나눔 각각 Car_Images_train, Car_Images_val, Car_Images_test라는 새로운 폴더에 저장하였음. 각 폴더 안에는 abnormal / normal 폴..

3차 미니프로젝트 2번째 주제 화폐를 인지 및 분류하는 딥러닝 모델을 만들어서, 시각장애인분들에게 화폐 구별에 도움이 되는 서비스를 제공하자. sub : YOLO_V5, Object Detection Task 1. DataSets 전체 DataSets은 Image와 JSON 파일이 함께 있는 데이터 각 Label 별로 이미지와 JSON 파일이 함께 존재한다. 학습을 위해 Train과 Validation 셋으로 나눔(train: 0.8, val: 0.2) 2. 데이터 분류 모듈 : Split-folders [pip] 입력 폴더 path와 저장할 path를 넣으면 ratio 비율로 train, val, test 폴더를 자동 생성해주는 모듈 param 중 group_prefix = 2를 할 경우, 이름이 같은..

미니 프로젝트 1 서울시 생활정보 기반 대중교통 수요 분석 목표 - 서울시 제공 공공데이터를 활용, 버스 노선 수요를 분석하고 인사이트를 도출하여 개선안을 제시 문제 - 서울 유동인구 등의 인구 정보와 버스 승하차 인원 및 운행 노선 분석을 통하여 버스 시설 추가 필요 대상 지역을 선정 Data_Set 서울 버스 승하차 이용 데이터 서울 구별 유동 인구 데이터 서울 구별 주민 등록 인구 데이터 서울 구별 업종 등록 데이터 Target 시설 확충이 필요한 지역 조별 토론 방법 MURAL을 활용한 비대면 토론 방법 https://www.mural.co/ Mural is a collaborative intelligence company | Mural Level up your teamwork with an in..