메타, 카멜레온 출시 예정
이미지 생성ㆍ분석 지원 첫 멀티모달 모델
메타가 14일(현지시간) 블로그를 통해 카멜레온을 발표했다. 이 서비스는 텍스트로부터 이미지 생성하고 이미지로부터 텍스트를 생성할 수 있다. 가장 큰 특징은 확산 모델를 사용하지 않았다는 점이다.
잠깐! 확산 모델이란? :
임의의 데이터 x에 점점 noise가 추가 된다. 이 과정을 Diffusion process라 칭한다. 그 다음 노이즈를 추가했던 과정(앞의 diffusion process)를 거꾸로(reverse) 한 과정(process)을 계산한다. 이 과정은 아까 noise data에서 점점 noise를 제거하는 과정이다.
그럼 무슨 기술을 사용했나.
카멜레온이 선택한 사전 훈련방식은 ‘마스킹 된 토큰 모델링’이다. ‘마스킹 된 토큰 모델링’ 이란 이미지 데이터를 일정 크기의 패치로 나누어 시맨틱 토큰으로 표현하여 데이터를 변환하는 학습 방법을 의미한다.
또한, 메타의 기술 적용은 여기서 끝나지 않았다. ‘밀집모자와 네온 선글라스를 쓴 작은 선인장’ 같은 이미지를 잘 만들어 내기 위해 지도 미세조정(Supervised Fine-Tuning) 기술을 사용했다. 이 기술을 사용하면, 텍스트 기반 편집 및 이미지의 특정 조건부 생성과 같은 다양한 작업을 수행할 수 있게 된다.
어떤 사진으로 학습했나.
라이선스가 부여된 수백만 개의 이미지 데이터를 가지고 있는 셔터스톡의 데이터 셋을 원천으로 카멜레온을 훈련해 왔다고 밝혔다. 70억개의 매개변수로 구성된 카멜레온를 약 30억개 수준의 소규모 텍스트 토큰으로 구성된 데이터세트로 학습했다고 말했다.
텍스트 가이드에 따른 이미지 편집
(1) 밀짚 모자와 네온 선글라스를 쓴 작은 선인장
사용자가 프롬프트에 원하는 복잡한 요구사항을 입력한다. 그러면, 카멜레온은 사용자가 원하는 니즈에 맞게 하기 사진과 같은 이미지를 생성한다. 복잡한 설명이지만, 시맨틱 토큰으로 표현되는 데이터로 변환하는 마스킹된 토큰 모델링(masked token modeling) 이 이를 가능케 한 것이다. 두번째 손은, 손 모델의 클로즈 업 사진을 고품질로 요구했다. 세번째 사진은 사무라이 검으로 장대한 전투를 벌이는 너구리 주인공 등등 다양한 요구사항을 이미지로 표현 가능하다.
(2) 진주 귀고리를 한 소녀
미세조정(Supervised Fine-Tuning) 기술을 사용했다. 원래 Input이미지는 진주귀고리를 한 소녀의 원본 이미지 이다. 프롬프트에 수염 난 아저씨 처럼 묘사해 주세요. 입력한다면, 그 얼굴만 미세 조정을 통해 수염이 난 아저씨 얼굴로 바꾸는 것이다. 세번 째 사진은 선글라스를 쓴 걸 요구했고, 정확히 반영했다. 까다로운 요청도 부분적으로 편집이 가능한 메타의 카멜레온 이다.
텍스트 작업
프롬프트에 대해 해석도 가능하다. 사용자가 이미지에 대해 질문하면 정확한 답변이 가능한 것이다. ‘개는 무엇을 나르고 있습니까?’라고 질문한다면, ‘막대기’를 들고 있다고 대답한다. 이런 단답형 대답도 가능하지만, 이미지 전반에 설명을 요구한다면, 표면에 잔디가 있고요, 이미지 배경은 숲이다. 라며 자세한 묘사 또한 가능하다. 사용자가 입력하는 단순한 텍스트 지침 뿐 아니라 이미지 전반적인 레이아웃과 정보를 이해하고 해석 가능하다. 그래서, 시각적으로 일관성이 있기에 상황에 맞는 구체적인 편집이 가능한 것이다. 예를 들어 이미지의 경계 상자 분할에 대한 텍스트 설명이 주어지면 이미지를 생성하게 된다.
구조화된 이미지
"카멜레온"은 물체의 위치 및 속성 정보를 이해하고 해석하는 능력을 갖추고 있다. 예를 들어, "거울이 달린 싱크대가 있는 방"이라는 설명과 함께 물체의 위치와 크기를 다양한 조건으로 설정 가능하다. 이렇게 하면 예시 그림들이 생성된다. 주어진 구조와 맥락을 준수하여 이미지를 일관성 있게 편집하는 기능을 제공한다.
고해상도 이미지
고해상도 이미지를 표현하기 위해 별도로 학습된 단계도 추가할 수 있다.
'각종 AI 소식들' 카테고리의 다른 글
국내 LLM(초거대언어) 한국어 모델 소개 편 (1) (0) | 2023.08.22 |
---|---|
챗 GPT는 왜 한국어가 어색할까? : 한국어 LLM (Large Language Model, LLM) 발전 과제 (0) | 2023.08.21 |
엔디비아, 이미지 생성 AI ‘퍼퓨전(Perfusion)' 공개 (0) | 2023.08.08 |
AI 튜링테스트? NO! 투자 테스트 (0) | 2023.07.31 |
튜링테스트 정의 · 개념 · 문제점 · 해결방안 (0) | 2023.07.30 |