요즘 인공지능 얘기하면서 #멀티모달 이란 이야기 많이 하지요? ChatGPT, Claude, Gemini는 모두 멀티모달이지만, 특히 Gemini는 '네이티브 멀티모달'로 불려요. 그냥 멀티모달에 비해 '네이티브 멀티모달'은 어떤 점이 막강할까요?
구글 Gemini의 최신 업데이트에서, 제미나이는 태생부터 모든 감각을 동시에 학습한 '네이티브 멀티모달'이란 점을 엄청 강조했었죠. 혹시 이 멀티모달이 무엇인지 정확히 이해하고 계시는지요?
멀티모달(Multimodal)이란 인공지능이 텍스트뿐만 아니라 이미지, 음성, 비디오 등 다양한 형태의 데이터(Modality)를 동시에 이해하고 처리하는 능력을 말해요. 현재 시점에서 ChatGPT, Gemini, Claude는 모두 멀티모달이라고 할 수 있어요.
ChatGPT에서 음성모드를 켜고 질문을 하면, ChatGPT는 사용자의 음성을 알아듣고 역시 음성으로 답변하거나 텍스트로 대답을 하죠. 또 문서를 캡처한 이미지를 올리고 질문을 해도, ChaTGPT는 그 이미지가 실은 문서라는 것도