[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Ttoro_Tech

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12) 본문

Tech News/국외 기업

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12)

Lee_Ttoro 2023. 10. 13. 09:48

https://www.aitimes.com/news/articleView.html?idxno=154291

LLM은 옛말...이미지까지 학습한 'LMM' 뜬다 - AI타임스

\'대형언어모델(LLM)\'에 이어 앞으로는 \'대형멀티모달모델(LMM)\'이라는 용어가 보편화될 것으로 보인다. 기존에는 \'멀티모달 LLM\'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의

www.aitimes.com

대형멀티모달모델(LMM)

기존에는 '멀티모달 LLM'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 새 용어를 밀고 있음

빅테크 기업

OpenAI의 "GPT-4V(비전)"에 이어
올말 출시 예정인 구글의 차세대 모델 '제미니' 역시 LMM이며,
최근에는 오픈 소스 LMM '라바(LLaVA) 1.5'까지 개발자 사이에서 인기를 누리고 있음

기존 '언어' 학습을 뛰어넘어 '이미지'까지 학습

LMM은 기존 언어 학습을 뛰어넘어 이미지까지 학습이 가능
벤처비트 - 오픈 소스 커뮤니티에서 라바 1.5가 GPT-4V의 대안으로 떠오르며 인기

LMM

이미지를 학습했기 때문에 사용자가 텍스트 대신 이미지를 입력해도 이를 이해하고 답을 낼 수 있음
이미지 입력 기능은 기존 언어모델의 활용폭을 크게 넓혀줄 수 있음
이 기능은 지난 3월 오픈AI가 출시한 GPT-4부터 사용화됨
오픈AI는 이미 지난해 GPT-4의 이미지 학습을 마친 것으로 알려짐

이미지 입력 - AI 모델 개발의 표준

빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 매달림
최근 메타가 발표한 '메타 AI'도 멀티모달 기능을 갖춤
LLaVA 1.5 버전이 나올 정도로 업데이트를 거듭함

제미니

LMM이라는 용어가 부각되게 된 계기
구글은 다른 모델과의 차별점으로 방대한 이미지와 동영상을 학습한 점을 강조

OpenAI

지난달 25일 공식 블로그를 통해 'GPT-4V(ision)' 시스템 카드' 라는 논문을 소개
LLM에 이미지 입력을 통합한 기술적인 문제와 이를 통해 확보한 안정성 등에 초점을 맞춘 내용
즉 LMM를 주도하는 게 OpenAI라는 것을 강조하는 내용 (Visual Instruction Tuning[paper])

라바 1.5

여러 생성 AI 구성 요소를 결합하고 높은 정확도로 다양한 작업을 수행하는 모델을 생성하도록 미세 조정됨

LMM 구조

이미지를 텍스트로 변환하는 비전 인코더
비전 인코더와 LLM을 연결하는 '비전 언어 교차 모달 커넥터(vision-language cross-modal connector)'

등 아키텍처를 활용

이를 통해 2단계 프로세스를 거쳐 LMM을 훈련

비전-언어 정렬 사전 훈련
- 이미지-텍스트 쌍을 사용해 시각적 특징을 언어 모델의 단어 임베딩 공간에 정렬
시각적 지침 조정
- 시각적 지침 조정을 통해 모델이 시각적 프롬프트에 따라 응답
- 이 단계는 컴퓨팅 집약적인 특성과 선별한 대규모 데이터셋이 필요, 어려운 작업

라바 1.5 (Improved Baselines with Visual Instruction Tuning[paper])

위의 과정을 통해 생성된 LMM

비전 인코더로는 OpenAI가 2021년 개발해 '달리 2'에도 활용한 '클립(CLIP)' 모델을 사용
기본 언어모델로는 Meta의 'LLaMA'를 기반으로 하는 오픈 소스 sLLM '비쿠나(Vicuna)'를 활용

이를 통해 LLM이 이미지를 기반으로 대화 및 추론 문제를 생성하도록 유도,
ChatGPT를 통해 라바를 학습하기 위한 15만 8000개의 훈련 예제를 효과적으로 생성

이후 언어 모델과 비전 인코더를 연결, 데이터셋을 추가
60만개에 다라하는 데이터셋으로 라바 1.5의 학습을 진행
특히 학습 과정은 8개의 A100 GPU를 활용, 비용이 하루 만에 몇 백달러 수준에 그침

라바 1.5 벤치마크

출저 : Improved Baselines with Visual Instruction Tuning

벤치마크 테스트 결과 다른 오픈 소스 LMM 11개의 성능을 뛰어 넘음
GPT-4V의 오픈 소스 대항마로 꼽히는 것도 이 때문

라바 1.5의 단점

ChatGPT 생성 데이터를 학습했기 때문에, ChatGPT의 사용 약관으로 인해 상업적 목적으로 사용할 수 없음
또 개발 과정과 사용 편리성을 감안하면 GPT-4V와 비교하는 것 자체가 무리
그러나 뛰어난 가성비와 오픈 소스 특성상 많은 개발자들의 손을 거치며 업그레이드할 수 있다는 점 감안
충분히 잠재력 있음

LLaVA 1. 5

github (위스콘신-매디슨대학교와 마이크로소프트 리서치, 컬럼비아대학교 연구진)
https://github.com/haotian-liu/LLaVA

GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built tow

[NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards multimodal GPT-4 level capabilities. - GitHub - haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visua...

github.com

'Tech News > 국외 기업' 카테고리의 다른 글

[GNoME]_AITIMES_뉴스기사('23.12.03) (2)	2023.12.06
[구글 대규모 컨텍스트]_AITIMES_뉴스기사('23.10.17) (1)	2023.10.18
[생성형 이미지 워터마크]_AITIMES_뉴스기사('23.10.05) (0)	2023.10.10
[Google Gemini]_AITIMES_뉴스기사('23.09.16) (0)	2023.09.18
[Google 신스ID]_AITIMES_뉴스기사('23.08.31) (0)	2023.09.14

'Tech News/국외 기업' Related Articles

Ttoro_Tech

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12) 본문

[이미지 학습 LLM]_AITIMES_뉴스기사('23.10.12)

대형멀티모달모델(LMM)

빅테크 기업

기존 '언어' 학습을 뛰어넘어 '이미지'까지 학습

LMM

이미지 입력 - AI 모델 개발의 표준

제미니

OpenAI

라바 1.5

라바 1.5 (Improved Baselines with Visual Instruction Tuning[paper])

라바 1.5 벤치마크

라바 1.5의 단점

LLaVA 1. 5

'Tech News > 국외 기업' 카테고리의 다른 글

티스토리툴바