일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- GPT-3.5
- LLaMA
- generative
- 3기
- KT
- KoGPT
- OpenAI
- 인공지능
- TRANSFORMER
- ML
- ChatGPT
- deeplearning
- GPT4
- SKT
- AIVLE
- naver
- 생성형 AI
- 네이버
- LLM
- Stable Diffusion
- SearchGPT
- AI
- nlp
- Meta
- 딥러닝
- GPT-4
- gpt
- 생성형
- hyperclovaX
- Today
- Total
Ttoro_Tech
[Meta 카멜레온]_AITIMES_뉴스기사('23.07.17) 본문
https://www.aitimes.com/news/articleView.html?idxno=152451
메타, 멀티모달 이미지 생성 AI ‘카멜레온’ 공개 - AI타임스
이미지 생성과 분석을 모두 지원하는 멀티모달 이미지 생성 인공지능(AI) 모델이 나왔다.메타가 14일(현지시간) 블로그를 통해 텍스트로 이미지를 생성하고 이미지를 텍스트로 설명하는 기능을
www.aitimes.com
멀티모달 이미지 생성 AI 등장
- 이미지 생성과 분석을 모두 지원
카멜레온(CM3leon)
- 텍스트를 통해 이미지를 생성
- 이미지를 텍스트로 설명하는 기능
- 모두 수행하는 멀티모달 이미지 생성 AI 모델 공개
Meta
- 카멜레온은 기존 이미지 생성 AI 모델에서 사용하는 확산 모델 대신 이미지 데이터를 일정 크기의 패치로 나눔
- 시맨틱 토큰으로 표현되는 데이터로 변환해주는 마스킹된 토큰 모델링(Masked Token Modeling)
사전 훈련 방식 사용 - ChatGPT와 같은 대형언어모델을 구축하는데 일반적으로 사용되는 방식
- 이와 같은 방식으로 카멜레온은 이미지의 패턴을 이해하고 새로운 패턴을 생성하는 방법을 학습
- 사전 훈련 후 생성 작업에 유용한 복잡한 프롬프트를 이해하도록 미세조정을 진행함
Supervised Fine-Tuning(지도 미세조정)
지도 미세조정은 ChatGPT와 같은 텍스트 생성 모델을 훈련하는데 큰 효과를 얻음
Supervised Fine-Tuning을 통해
- 이미지 캡션 생성
- 시각적 질문 응답
- 텍스트 기반 편집 및 조건부 이미지 생성
과 같은 다양한 멀티모달 작업을 수행할 수 있게 됨
데이터셋
- 셔트스톡에서 라이센스가 부여된 수백만 개의 이미지 데이터세트를 사용하여 카멜레온을 훈련
- 7B개의 매개변수로 구성된 카멜레온을 약 3B개 수준의 소규모 텍스트 토큰으로 구성된 데이터세트로 학습
- 그럼에도 시각적 질문에 대한 답변 및 자막 작업 등 다양한 비전 언어 작업을 무리 없이 수행
- 기존 AI 모델보다 5배 더 적은 계산과 더 작은 훈련 데이터세트로 보다 높은 수준의 성능을 기록
실제 생성 이미지
- A small cactus wearing a straw hat and neon sunglasses in the Sahara desert.
(사하라 사막에서 밀짚 모자와 네온 선글라스를 착용한 작은 선인장) - A close-up photo of a human hand, hand model. High quality.
(사람의 손, 손 모델의 클로즈업 사진. 고품질) - A raccoon main character in an Anime preparing for an epic battle with a samurai sword. Battle stance. Fantasy, Illustration.
(사무라이 검으로 장대한 전투를 준비하는 애니메이션의 너구리 주인공, 전투 자세, 판타지, 일러스트레이션) - A stop sign in a Fantasy style with the text “1991.”
("1991"이라는 텍스트가 있는 판타지 스타일의 정지 표지판)
프롬프트를 통해 이미지 편집
다양한 프롬프트에 따라 짧거나 긴 캡션을 생성하고 이미지에 대한 질문에 답할 수도 있음
예를 들어 막대기를 들고 있는 개의 이미지를 통해
Prompt Question: What is the dog carrying? (개는 무엇을 나르고 있습니까?)
Model Generation: Stick (막대기)
Prompt: Describe the given image in very fine detail. (주어진 이미지를 매우 자세하게 설명하십시오)
Model Generation: In this image, there is a dog holding a stick in its mouth. There is grass on the surface. In the background of the image, there are trees.
(이 이미지에는 막대기를 입에 물고 있는 개가 있다. 표면에는 잔디가 있다. 이미지의 배경에는 나무가 있다)
구조 또는 레이아웃 정보를 이해하고 해석해 시각적으로 일관되고 상황에 맞게 이미지 편집 가능
이미지의 경계 상자 분할에 대한 텍스트 설명이 주어지면 이미지를 생성
고해상도 이미지를 표현하기 위해 별도로 학습된 단계도 추가할 수 있음
- Turtle swimming underwater. Aesthetic. Fantasy. (수중에서 헤엄치는 거북이, 미적, 판타지)
- Elephant swimming underwater. Aesthetic. Fantasy. (수중에서 수영하는 코끼리, 미적, 판타지)
- Flock of sheep. Aesthetic. Fantasy. (양 떼, 미적, 판타지)
Meta
우리는 다양한 작업에서 카멜레온의 강력한 성능이
더 높은 충실도의 이미지 생성 및 이해를 향한 단계라고 믿음
카멜레온과 같은 모델은 궁극적으로 메타버스에서
창의성과 더 나은 응용 프로그램을 향상시키는 데 도움이 될 수 있음
'Tech News > 국외 기업' 카테고리의 다른 글
[앨런AI연구소]_AITIMES_뉴스기사('23.08.21) (0) | 2023.08.22 |
---|---|
[스태빌리티 AI]_AITIMES_뉴스기사('23.08.09) (0) | 2023.08.14 |
[NVIDIA 퍼퓨전]_AITIMES_뉴스기사('23.08.02) (0) | 2023.08.03 |
[Meta 페르소나 챗봇]_AITIMES_뉴스기사('23.08.01) (0) | 2023.08.02 |
[ChatGPT 허점발견]_AITIMES_뉴스기사('23.07.28) (0) | 2023.08.01 |