일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- KoGPT
- naver
- Meta
- nlp
- 생성형 AI
- 생성형
- deeplearning
- Stable Diffusion
- generative
- 3기
- OpenAI
- TRANSFORMER
- 네이버
- SearchGPT
- GPT-4
- GPT4
- LLM
- AI
- ML
- gpt
- hyperclovaX
- 인공지능
- AIVLE
- ChatGPT
- LLaMA
- SKT
- 딥러닝
- GPT-3.5
- KT
- Today
- Total
Ttoro_Tech
[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12) 본문
https://www.aitimes.com/news/articleView.html?idxno=154291
LLM은 옛말...이미지까지 학습한 'LMM' 뜬다 - AI타임스
\'대형언어모델(LLM)\'에 이어 앞으로는 \'대형멀티모달모델(LMM)\'이라는 용어가 보편화될 것으로 보인다. 기존에는 \'멀티모달 LLM\'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의
www.aitimes.com
대형멀티모달모델(LMM)
- 기존에는 '멀티모달 LLM'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 새 용어를 밀고 있음
빅테크 기업
- OpenAI의 "GPT-4V(비전)"에 이어
- 올말 출시 예정인 구글의 차세대 모델 '제미니' 역시 LMM이며,
- 최근에는 오픈 소스 LMM '라바(LLaVA) 1.5'까지 개발자 사이에서 인기를 누리고 있음
기존 '언어' 학습을 뛰어넘어 '이미지'까지 학습
- LMM은 기존 언어 학습을 뛰어넘어 이미지까지 학습이 가능
- 벤처비트 - 오픈 소스 커뮤니티에서 라바 1.5가 GPT-4V의 대안으로 떠오르며 인기
LMM
- 이미지를 학습했기 때문에 사용자가 텍스트 대신 이미지를 입력해도 이를 이해하고 답을 낼 수 있음
- 이미지 입력 기능은 기존 언어모델의 활용폭을 크게 넓혀줄 수 있음
- 이 기능은 지난 3월 오픈AI가 출시한 GPT-4부터 사용화됨
- 오픈AI는 이미 지난해 GPT-4의 이미지 학습을 마친 것으로 알려짐
이미지 입력 - AI 모델 개발의 표준
- 빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 매달림
- 최근 메타가 발표한 '메타 AI'도 멀티모달 기능을 갖춤
- LLaVA 1.5 버전이 나올 정도로 업데이트를 거듭함
제미니
- LMM이라는 용어가 부각되게 된 계기
- 구글은 다른 모델과의 차별점으로 방대한 이미지와 동영상을 학습한 점을 강조
OpenAI
- 지난달 25일 공식 블로그를 통해 'GPT-4V(ision)' 시스템 카드' 라는 논문을 소개
- LLM에 이미지 입력을 통합한 기술적인 문제와 이를 통해 확보한 안정성 등에 초점을 맞춘 내용
- 즉 LMM를 주도하는 게 OpenAI라는 것을 강조하는 내용 (Visual Instruction Tuning[paper])
라바 1.5
여러 생성 AI 구성 요소를 결합하고 높은 정확도로 다양한 작업을 수행하는 모델을 생성하도록 미세 조정됨
LMM 구조
- 이미지를 텍스트로 변환하는 비전 인코더
- 비전 인코더와 LLM을 연결하는 '비전 언어 교차 모달 커넥터(vision-language cross-modal connector)'
등 아키텍처를 활용
이를 통해 2단계 프로세스를 거쳐 LMM을 훈련
- 비전-언어 정렬 사전 훈련
- 이미지-텍스트 쌍을 사용해 시각적 특징을 언어 모델의 단어 임베딩 공간에 정렬
- 시각적 지침 조정
- 시각적 지침 조정을 통해 모델이 시각적 프롬프트에 따라 응답
- 이 단계는 컴퓨팅 집약적인 특성과 선별한 대규모 데이터셋이 필요, 어려운 작업
라바 1.5 (Improved Baselines with Visual Instruction Tuning[paper])
위의 과정을 통해 생성된 LMM
- 비전 인코더로는 OpenAI가 2021년 개발해 '달리 2'에도 활용한 '클립(CLIP)' 모델을 사용
- 기본 언어모델로는 Meta의 'LLaMA'를 기반으로 하는 오픈 소스 sLLM '비쿠나(Vicuna)'를 활용
이를 통해 LLM이 이미지를 기반으로 대화 및 추론 문제를 생성하도록 유도,
ChatGPT를 통해 라바를 학습하기 위한 15만 8000개의 훈련 예제를 효과적으로 생성
- 이후 언어 모델과 비전 인코더를 연결, 데이터셋을 추가
- 60만개에 다라하는 데이터셋으로 라바 1.5의 학습을 진행
- 특히 학습 과정은 8개의 A100 GPU를 활용, 비용이 하루 만에 몇 백달러 수준에 그침
라바 1.5 벤치마크
- 벤치마크 테스트 결과 다른 오픈 소스 LMM 11개의 성능을 뛰어 넘음
- GPT-4V의 오픈 소스 대항마로 꼽히는 것도 이 때문
라바 1.5의 단점
- ChatGPT 생성 데이터를 학습했기 때문에, ChatGPT의 사용 약관으로 인해 상업적 목적으로 사용할 수 없음
- 또 개발 과정과 사용 편리성을 감안하면 GPT-4V와 비교하는 것 자체가 무리
- 그러나 뛰어난 가성비와 오픈 소스 특성상 많은 개발자들의 손을 거치며 업그레이드할 수 있다는 점 감안
- 충분히 잠재력 있음
LLaVA 1. 5
- github (위스콘신-매디슨대학교와 마이크로소프트 리서치, 컬럼비아대학교 연구진)
- https://github.com/haotian-liu/LLaVA
GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built tow
[NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards multimodal GPT-4 level capabilities. - GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visua...
github.com
'Tech News > 국외 기업' 카테고리의 다른 글
[GNoME]_AITIMES_뉴스기사('23.12.03) (2) | 2023.12.06 |
---|---|
[구글 대규모 컨텍스트]_AITIMES_뉴스기사('23.10.17) (1) | 2023.10.18 |
[생성형 이미지 워터마크]_AITIMES_뉴스기사('23.10.05) (0) | 2023.10.10 |
[Google Gemini]_AITIMES_뉴스기사('23.09.16) (0) | 2023.09.18 |
[Google 신스ID]_AITIMES_뉴스기사('23.08.31) (0) | 2023.09.14 |