멀티모달 AI, 사람처럼 보고 듣고 말하는 인공지능1. 멀티모달이란?‘멀티모달(Multimodal)’은 여러 가지 감각을 함께 사용한다는 뜻이에요.‘멀티’는 ‘여러 개’, ‘모달’은 ‘형태’나 ‘방식’을 의미하죠.즉, 멀티모달 AI는 글, 그림, 소리, 영상 같은 다양한 형태의 정보를 한꺼번에 이해하고 처리하는 인공지능이에요.우리가 일상에서 느끼는 감각을 떠올려 보세요.사람은 눈으로 보고, 귀로 듣고, 입으로 말하고, 손으로 만지며 세상을 이해하죠.AI도 이제 이런 다양한 감각을 배우기 시작한 거예요.2. 예를 들어 볼까요?단순히 글만 이해하던 AI가 아니라, 멀티모달 AI는 이렇게 행동할 수 있어요.사진을 보여주며 물어보기“이 사진 속에 있는 동물은 뭐야?”→ AI가 “고양이야. 흰색 털을 가진 새끼 ..
AI
2025. 10. 5. 23:25