지난 9월, Llama 3.2-Vision 이 공개되었다. 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 모델이고, 11B와 90B 사이즈 2가지로 제공된다. 이 모델들은 이미지 인식, 이미지에 대한 추론, 캡션 생성, 그리고 이미지에 대한 일반적인 질문에 답하는 데 최적화되어 있다고 한다.
Llama 3.2-Vision 설치
github 페이지에가서 확인해보니, 일부 제약사항이 있었다. 텍스트만 사용하는 작업에서는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 총 8개 언어가 공식적으로 지원되지만, 이미지와 텍스트를 함께 사용하는 경우에는 영어만 지원되고 있다고 설명하고 있다.
그래도 설치해보자. ollama 에 대해서 잘모른다면 여기를 클릭해서 참고한다.
$ ollama run llama3.2-vision:11b
pulling manifest
pulling 11f274007f09... 100% ▕████████████████▏ 6.0 GB
pulling ece5e659647a... 100% ▕████████████████▏ 1.9 GB
pulling 715415638c9c... 100% ▕████████████████▏ 269 B
pulling 0b4284c1f870... 100% ▕████████████████▏ 7.7 KB
pulling fefc914e46e6... 100% ▕████████████████▏ 32 B
pulling fbd313562bb7... 100% ▕████████████████▏ 572 B
verifying sha256 digest
writing manifest
success
7.9GB 이다. 개인용 노트북에서 간신히 돌릴만한 사이즈이다.
$ ollama list
NAME ID SIZE MODIFIED
llama3.2-vision:11b 38107a0cd119 7.9 GB 19 minutes ago
llama3.2:latest a80c4f17acd5 2.0 GB 38 hours ago
Llama 3.2-Vision 실행
그냥 웹페이지 일부를 스샷해서 읽혀보기로 했다.
우선 질문을 쓰고, 그 다음에 터미널에 이미지를 드래그앤 드랍하면, 이미지 파일 경로가 써지고, 그 경로의 파일을 읽어 답변을 하는 방식이다. 물론 api 로 할 수도 있다.
>>> read all text of the image. ~/Downloads/sample.jpg
The image displays a screenshot of a computer screen with a white
background and black text. The text is organized into three lines, with
the first line reading "Llama 3.2 Vision" in large font. Below this, in
smaller text, it says "November 6, 2024". At the bottom of the image,
there are two lines of text that read: "Llama 3.2 Vision is now available
to run in Ollama, in both 11B and 90B sizes."
실행해보니 영어로는 이미지를 읽고 설명도 해주는데, 한글은 아직 제대로 인식을 못했다. 그리고 모델이 내 맥북에는 버거운 사이즈라 속도도 너무 느려서 단순 OCR로 사용하기에는 불가능에 가깝다. 아래 그림처럼 Llama-vision:11b
을 실행만 해도 메모리가 크게 뛰어 오르고, 실제 이미지 분석 질문을 하면 한번 더 메모리 사용률이 점프한다. 개인적으로 도움될만한 활용처를 고민중인데, 이미지 caption 작성시 도움이 될거 같긴하다.