티스토리 뷰
학생들이 과제 하거나 회사원이 일할 때 챗GPT 사용하는 사람들이 많이 있습니다. 재작년에 생성형 AI(인공지능) 챗GPT가 공개된 후, 인공지능이 일상에 성큼 들어왔습니다. 얼마 전 챗GPT를 만든 오픈AI가 새 모델 ‘소라(Sora)’를 내놓자 사람들이 “AI 수준이 이 정도라고?” 하며 깜짝 놀라고 있다고 합니다. 자세히 알아보겠습니다.
소라가 뭐야
고화질 카메라로 직접 촬영한 것 같은 영상을 만들어주는 AI 모델입니다. 예전에도 영상을 만들어주는 AI는 있었지만, 소라는 훨씬 더 복잡한 영상을 진짜처럼 만들 수 있다는 점에서 다릅니다.
예를 들어 “판다 루이 후이 1살 때 영상 만들어줘” 하면 그 시대의 건물과 옷차림 등까지 반영해 영상을 만들 수 있다고 합니다.
심지어 영상 퀄리티도 할리우드 영화만큼 좋다고 합니다. 전문가들은 앞으로 소라 같은 ‘멀티모달AI’ 시대가 쫙 열릴 거라고 말하고 있습니다.
멀티모달 AI이 뭐야
‘멀티’는 여러 개, ‘모달리티(Modality)’는 양식·양상이라는 뜻입니다. 시각·청각 등 다양한 양식으로 된 정보를 받아들이고 학습하는 AI입니다. 예전의 AI와는 뭐가 다른지 알아보겠습니다.
글 밖의 세상은 몰랐는데
기존 AI는 텍스트를 통해서만 정보를 배우고 처리했습니다. 그러다 보니 단어를 아무리 많이 알아도 단어가 지칭하는 대상이 어떻게 생겼는지, 혹은 실제 세계에서 어떤 의미를 갖는지까지는 이해하지 못했습니다.
눈과 귀 달리며
AI가 텍스트뿐 아니라 소리나 이미지도 스스로 학습할 수 있게 되면 AI가 더 똑똑해집니다. 사람처럼 이미지·음성·영상 정보를 스스로 해석하고 이해할 수 있는 것입니다.
진화하는 AI
멀티모달 AI는 인간을 흉내 내는 AI(=좁은인공지능·ANI)에서 인간처럼 스스로 생각하는 AI(=인공일반지능·AGI)로 진화하는 데 핵심적인 기술로 뽑힙니다.
기술이 엄청나네
워낙 핫한 만큼, 내로라하는 기업들이 경쟁 중입니다.
구글 ‘제미나이 1.5’
지난주에 공개된 제미나이 1.5 프로는 많은 양의 영상과 음성, 텍스트를 이해하고 빠진 정보까지 추론해 채우는 능력을 갖췄습니다. 1시간짜리 영화를 단숨에 분석할 정도라고 합니다.
메타 ‘에뮤’
작년 11월에 나온 에뮤는 텍스트를 영상으로 바꿔주는 AI입니다. “여기는 이렇게 고쳐줘” 하고 텍스트로 입력하면 영상을 알아서 수정해줍니다.
네이버 ‘옴니서치’
작년에 네이버쇼핑에 적용된 멀티모달 AI입니다. 스마트렌즈로 거리에서 본 신발을 사진 찍어서 올리면 똑같거나 비슷한 상품을 찾아줍니다.
카카오 ‘허니비’
이미지와 글자가 섞인 콘텐츠를 이해하고 분석할 수 있습니다. 예를 들어 “이 사진에 있는 사람들이 무슨 대화 할 것 같아?” 하고 물으면 추론해서 답해준다고 합니다.
앞으로 멀티모달 AI 경쟁은 점점 더 치열해질 것입니다. 딥페이크 등 AI 때문에 새로 생기는 다양한 위험을 규제할 법과 제도를 마련해야 한다는 목소리도 커질 수 있습니다.
'이슈, 금융' 카테고리의 다른 글
AI 반도체 경쟁으로 엔비디아 주가 상승의 끝은 어디인가? (0) | 2024.02.26 |
---|---|
패션 브랜드 로고가 새겨진 달 착륙선을 본 적 있나요? (0) | 2024.02.26 |
제22대 총선 공천 현황과 전망 알아보기 (0) | 2024.02.20 |
이재용회장 삼성그룹 승계 과정, 한 번에 이해하기 (0) | 2024.02.13 |
Arm, 주가 급등의 이유가 스마트폰 시장 회복과 AI 열풍때문이다? (0) | 2024.02.13 |