**이 글은 오늘 하루만 무료입니다~
어제에 이어 2024년 생성AI트랜드 이야기예요, 어제는 GPTs Store가 오픈했지요? 커스텀 트렌드와 함께 주목해야 할 변화는 #멀티모달화 예요. 이제 ChatGPT는 음성에 이어 시각인지를 시작했어요.
-이커머스 제품 사진만 올렸는데 제품설명을 생성한다면 어떨까요?
-기존의 데이터분석기능에 OCR 기능이 더해진다면 어떻게 될까요?
-나만의 음성 챗봇도 한번 만들어 보셔요~
안냐세요~ 상쾌한 아침입니다!
오늘은 어제에 이어 2024년 생성AI 트렌드를 정리해 보겠심다. 어제는 생성AI를 내가 원하는 분야에만 포커스해 맞춤 봇으로 만들 수 있는 ‘커스터마이즈’ 트렌드를 소개했지요?
오늘은 또 하나의 중요한 트렌드로 ‘멀티모달화’를 설명할게요. 데이터 분석을 업으로 하시는 분들은 오늘 눈 똥그랗게 뜨셨으면요. 데이터 분석하는 삶의 질 자체가 달라진답니다… 하핫.
‘멀티모달화’ 기능은 다양한 형태의 데이터(예: 텍스트, 이미지, 소리 등)를 처리하고 이해할 수 있는 능력을 말해요.
그동안은 생성AI가 ‘챗봇’이란 생각에 주로 텍스트로 질문을 넣고, 텍스트로 회신 받았잖아요? 하지만 이젠 음성으로 질문해 음성으로 대답을 들을 수도 있구요. 텍스트로 문구를 넣어 이미지를 생성할 수도 있구요. 내가 올린 이미지를 생성AI가 OCR1‘OCR은 ‘Optical Character Recognition’의 약자로, 광학 문자 인식을 의미합니다. 이 기술은 사진, 스캔된 문서, PDF 파일 등의 이미지 속에서 텍스트를 자동으로 인식하고 디지털 형식으로 변환하는 데 사용됩니다. OCR을 사용하면 종이 문서나 이미지 파일에 있는 글자를 편집 가능한 텍스트 형태로 추출할 수 있어, 자동 데이터 입력, 아카이빙, 문서 검색 및 관리 등에 유용합니다. 예를 들어, OCR은 스캔된 문서를 텍스트 파일로 변환하거나, 도로 표지판에서 글자를 읽는 데 사용될 수 있습니다’라고 생성AI님께서 말씀하셨습니당..ㅋㅋㅋ 로 분석할 수도 있어요.
요것도 제가 어떻게 쓰고 있는지 사례를 통해 말씀 드릴게요. 생성AI 트렌드를 이해할 때 중요한 건, 첫째는 기술이 어떻게 작동하는지를 아는 거고, 둘째는 그 쓸모를 인지하는 거예요. 제 사례를 말씀 드리는 이유는 그 쓸모를 인지하셨으면 해서예요. 사실 쓸모를 인지하지 못하면 얘가 말을 하건 노래를 하건 그림을 그리건 먼 의미가 있겠심미까…
좌, 그면 달라진 생성AI의 멀티모달화 이야기 속으로 얼렁 들어가 보자구요. 다 같이 고고씽!
이커머스 운영의 판도가 달라집니다
저는 7월과 9월에 있었던 워크숍에서 이 ChatGPT를 활용해 온라인 제품 설명을 양적으로 생성하는 방식을 소개한 바 있어요.
우리 모두 ChatGPT가 블로그를 쓰거나 광고 카피를 쓸 수 있단 사실을 알고 있지만, 이 기능이 쓸모 있는지에 대해선 사실 의문이 많아요.
왜냐면 ChatGPT에게 광고 카피를 쓰도록 설명할 시간이면 내가 쓰는 게 낫구요. 솔직히 걔가 쓴 걸 광고 카피 같은 중요한 것에 그대로 접목해도 되는지 의문스럽기도 하니까요. 블로그 같은 장문은 더 위험하지요.. 얘가 쓸 수야 있겠지만, 더 중요한 건.. ChatGPT가 쓴 글을 읽고 싶어할 사람이 있을까요? ㅋㅋㅋㅋ 읽는 사람 입장에서 생각하면 그닥 매력적인 옵션이 아닌 거예요.
그런데 말이죠. 온라인 쇼핑몰에 올라갈 제품 설명은 얘기가 좀 달라요. ChatGPT는 수십 개 제품의 소재, 특징들을 기록한 스프레드시트를 올리면 한꺼번에 제품 설명을 생성하고, 다시 스프레드시트로 다운 받을 수 있게 해줘요. ‘양적으로’ ‘무난한 말’들을 한 번에 생성할 수 있다는 게 파워를 발휘할 수 있는 영역이죠.
제가 작년 워크숍에서 작업했던 파일을 직접 보여드릴게요.
아래 두 파일이 제품 설명이 없는 원본과 생성AI가 제품 설명을 채워넣은 완성한 완성본이에요. 원본 엑셀에는 품번, 제품명, 특징밖에 없는데요. 생성AI에게 이 제품에 대한 설명을 알아서 작문하고, 한글로 번역한 다음 엑셀로 다운 받게 해달라고 요청하면, 완성본과 같은 파일을 다운 받게 해준답니다. 두 파일을 다운 받아 비교해보시겠어요?
그런데 여기 또 한번의 진화가 있었으니.. 그게 바로 멀티모달화죠. 이제 생성AI에게 제품 사진만 보여준 뒤, 이 제품 설명을 쓰라고 할 수 있어요. 딱히 제품 특징을 별도로 적어주지 않아도, 이 친구가 사진을 들여다보고 시각적 AI로 파악을 합니다. 사람처럼 사진을 들여다보고 이게 무얼 의미하는지 쓸 수 있게 된 거예요.
아래는 제가 찜해뒀던 파카 중 하나인데요. ChatGPT에 올리고 이 제품 설명을 200자로 써보라고 했어요. 아무런 제품 특징도, 소재도 말해주지 않았지만 얜 사진을 들여다보고 아래와 같은 설명을 써냈답니다.
이건 무슨 소리일까요..? 그럼 이제 여러 사진을 한번에 올리고, 그 설명들을 한번에 작성하게 해서 다운 받을 수 있단 소리지요? 보통 양이 많고 조건이 복잡한 요청은 공개된 GPT4에선 잘 처리할 수 없지만 기업용 GPT로 시스템을 구축하면 가능해요. 이제 제품 설명은 정말 사람이 작성하지 않아도 되는 시대가 됐어요. 물론 최종 점검은 사람이 해야 되지만, 훨씬 더 적은 에너지만 들겠죠.
통계 분석의 판도가 달라집니다
멀티모달화 기능은 통계 분석에도 놀라운 변화를 가져와요.
제가 7월과 9월에 워크숍을 할 때만 해도, 통계표를 올리고 탐색적 데이터 분석을 수행하려면 Noteable 같은 플러그인을 설치하고, Noteable 사이트도 연 다음, 서 Noteable과 ChatGPT를 동시에 켜놓고 작업을 해야 했어요.
그런데 곧 ChatGPT 자체에 데이터 분석 기능이 생겼답니다. 그땐 초기라 아직 Noteable에 비해 부족한 느낌이 있었지만, 미래엔 Noteable 필요 없이 ChatGPT만 델고도 통계 분석을 할 수 있을 거란 감이 느껴졌죠.
그리고 몇 달 지나지 않아 실제로 그리 되었어요.
저는 요즘 분석할 통계가 있으면 일단 GPT4에 통계표부터 던져놓고 시작해요. 제가 좋아하는 방식은, 통계표를 ChatGPT가 한번에 분석하게 하는 방식보다는(영겁의 시간이 걸리고 뭐가 어디서 틀렸는지 찾기 듭니다…), 원래 제가 하던 대로 통계를 분석하면서 보조 수단으로 ChatGPT에게 이것저것 묻기도 하고 도표도 그리게 하는 거예요.
저는 얼마 전 통계청에서 발표한 ‘2023년 3/4분기 가계동향조사 결과 보도자료’랑 ‘2023년 가계금융복지조사 결과‘를 ChatGPT랑 함께 분석했어요. 두 통계는 통계청에서 통계표를 별도로 제공해줘서, 그대로 ChatGPT에 올려 분석하기 좋은 조건이었죠.
제가 궁금한 건 우리나라 상위 20%라는 5분위 소비자들의 동향을 좀 더 자세히 알아보고 싶은 거였답니다. 대부분의 패션 기업이나 백화점 기업들이 고객으로 삼는 게 4-5분위 소비자들이라서요.
저는 우선 2012년부터 2023년까지 1-5분위 소비자들의 소득이 어떻게 증가해 왔는지에 대한 통계표를 들여다보았어요. 그리고 이 추이를 시각적 그래프로 직관적으로 확인하고 싶었어요. 그래서 ChatGPT에게 그래프를 그리라고 요청했답니다. 그랬더니 아래와 같은 그래프를 만들어주었어요. (라벨은 한글 라벨을 잘 못 따서 영문으로 따라고 해야 표가 잘 나옵니다)
이 그래프를 보면 모든 분위가 10년 전보다 소득이 늘긴했지만, 5분위가 제일 많이 늘었어요. 또한 4,5 분위 소비자는 1-3분위 소비자보다 눈에 띄게 지그재그를 그리며 성장하고 있는데요. 이건 연말 보너스와 같은 정기적 수혜가 4-5분위 소비자에겐 뚜렷이 돌아가는 걸 암시해요. 상대적으로 1-3분위 소비자에겐 보너스 소득이 거의 나타나지 않지요.
그 다음 저는 ChatGPT에게 1-5분위 소비자의 소득 점유율을 그려달라고 했답니다. 과연 20%의 소비자가 전체 소득의 몇 퍼센트를 차지하고 있는지 궁금해서요. 그랬더니 이런 도표를 주었어요.
훔.. 근데 이건 뭔가 이상하지요? 옆의 %도 ‘백분율’임에도 불구하고 1250%? 모 이런 수치가 나오구요… 젤 이상한 건 전체적으로 5분위 소비자가 독점적으로 모든 소득을 점유하고 있고, 1-4분위 소비자는 거의 0%, 즉 아무것도 가져가지 못하는 걸로 그려져 있어요. 아니, 대한민국이 아무리 헬조선이라고 해도 이렇게 개막장인가? ㅋㅋㅋ
다시 통계를 들여다보니 그렇지 않더군요. 잘못 그린 거예요. 아직도 ChatGPT는 잘못 그리기도 해요. 그래서 조목조목 혼낸 다음 다시 그리라 요청했어요. 그랬더니 요로코롬 다시 그려놓았죠. 이건 통계표랑 일치하는 제대로 된 그래프였어요. 한국은 5분위 소비자가 40여%를 점유하고, 4분위 소비자가 그 반절인 20여%를, 3분위 소비자가 또 그 반절인 10여%를 점유하는 형태로 소득 분포가 이뤄지고 있어요.
이 이미지를 다운 받겠다고 하면, 얘가 이 표를 이미지로 다운 받도록 링크를 줘요. 근데.. 아놔.. 다운 받고 나니까 저걸 고대로 이미지화 하는 바람에 2023년 부분, 즉 가장 최근 시점의 5분위 그래프가 안 보이는 거예요.
좌, 지금 여기서 “2023년 부분, 즉 가장 최근 시점의 5분위 그래프가 안 보이는 거예요”란 말이 이해가 되시는 분, 손..?
아마 먼 소린지 이해 안되시는 분들 많을 듯요. 때로 어느 위치에 문제가 발생했다는 걸 텍스트로 표현하기란 어려워요. 하지만 그림에 빨간 똥그라미 쳐서 지적하면 이해가 빠르지요? 지금 문제가 된 건 바로 요 라벨표가 핵심 수치를 가리고 있단 거였어요.
옛날엔 이 문제점을 지적하려면, ChatGPT한테 구구절절 설명해야 됐었답니다. “너가 1st outline, 2nd outline, 3rd outline이라고 해놓은 라벨 박스가 그래프를 가리고 있거든?” 모 이런 식으로요. ㅋㅋㅋ 그럼 다행히 얘가 알아듣기도 하고.. 허엉.. 때론 못 알아듣기도 하고 그랬어요.
그런데 지금은 멀티모달화가 되어 있어서 이렇게 지적질이 가능해졌답니다. 이미지에 걍 빨간 박스 쳐서, 그 이미지를 올리면 돼요. “요기 통계가 안 보이니 옮겨줘 “하면서요.
그러자 ChatGPT가 알아듣고 박스를 옮겼죠. 최종적으로 받은 그래프는 요러했어요. 그래.. 대한민국이 이 정도지..
생성AI에 OCR 기능이 붙게 된 건 2023년 초라고 해요. 아마 기업형에선 쓸 수 있었던 모양인데, 공개 모델 GPT4에는 파일을 업로드할 수 있는 기능 자체가 지난해 하반기에 생긴 거라서, 일반인도 접근할 수 있게 된 지는 얼마 안되어요. 아직 구글에 비하면 좀 딸리는 듯요.
지금 20불짜리 공개 플랫폼에선 OCR이 잘 안돼요. 예를 들면 이미지로 된 표를 던져주고 이걸 스프레드시트로 만들라고 하는 게 원칙적으로 가능하지만 공개 플랫폼에선 에러가 나요. 이건 기업용 GPT에선 된다는 소리예요. 물론 쓴 만큼 돈은 내야하겠지만.. 하핫.
그럼에도 불구하고, 공개 플랫폼에서도 OCR은 굉장히 인상적인 능력을 발휘하는데요.
제가 2012년부터 소비자들의 ‘경상소득’과 ‘비경상소득’ 추이가 어떻게 변해왔는지 그래프를 그리라고 했거든요? 그랬더니 얘가 그래프가 복잡해서 경상소득과 비경상소득이 어느 열에 있는지를 모르겠단 거예요. 그래서 제가 표를 캡쳐해서 빨간색으로 표시해 주었죠. ‘여기 있잖아!’
그랬더니 얘가 몇번씩 재구동되며 하는 말이 기가 막힌데요. 처음엔 “OCR 기능에 문제가 있어 한글 텍스트를 추출하지 못했습니다” 하더니 자기가 다른 방법을 찾아 다시 해보겠다고 하더라구요? 그러더니 “표시하신 부분의 ‘위치’를 파악하여 표에서 해당 위치에 있는 있는 데이터를 찾아” 그리겠다고 하는 거예요.. 오오…!
그러더니 이렇게 그려놓더군요.
그런데.. 잘못 그렸습니다.. 하핫. 저 그래프에는 비경상소득(비일상적 소득, 점선)이 최근 미쳐 날뛰고 있는데 대한민국은 그런 적이 없숴.. ㅠㅠㅠ
이렇게 틀리는 때가 많냐구요? 한국 통계표는 행과 열의 계층이 복잡해서 질문을 잘 주지 않으면 좀 틀리는데요. 해외 통계는 계층이 단순해서 잘 안 틀려요. 한국 꺼는.. 한 20% 틀리는 거 같아요.ㅋㅋㅋ 그래서 확인을 해가며 써야 돼요.
하지만 80%가 가능하다는 건 또 굉장한 일이에요. 그간 도표 정리나 그래프 정리는 막내 사원 시키시는 분들 많이 계셨지요? ㅋㅋ 이젠 ChatGPT에게 시키셔도 됩니다. 어차피 애들이 해온 것도 다시 봐야 되잖아유? 얘는 웬만한 친구들만큼은 그리고, 더러 틀리기도 하지만 사람보다는 실수가 적어요. 모든 결과를 사람이 점검해야 한다는 것만 잊지 않으면 굉장히 유용해요.
멀티모달화는 이 밖에도 여러 면에서 도움을 줄 수 있어요. 음성도 때로 강력한 도구가 될 수 있어요.
저는 어제 또 하나의 GPTs를 만들었어요. 이 챗봇은 텍스트로 문답하는 게 아니예요. 음성을 인지해 출력되도록 짠 건데요. 오늘 뉴욕으로 떠나는데 왠즤 이런 게 하나 만들어보고 싶었지 말입니다?
이건 제가 한국말 음성을 입력하면, 이를 영어로 바꿔주고요. 영어로 입력하면 한국말로 바꿔주는 통역기예요. 영알못이 뉴욕에서 혼자 여행할 때, 구글 번역기(번번이 설정어 변환, 음성 변환)보다 좀 편하게 쓸 수 있지 않을까 만들어 보았어요.
외국인을 붙잡고,이 통역기를 켜고 그냥 한국말로 말하는 거죠. “이 호텔에서 컨벤션 센터까지 걸어갈 수 있나요?” 그럼 스피커폰에서 외국인에게 통역된 영어를 말해줘요. 그리고 외국인이 친절하게 “Too far to walk. You’d better take the bus”라고 영어로 말하면, 이 통역기가 캐치해 한국말로 스피커폰 해즌답니다. 요래요래!
쓸 만하냐구요? 움.. 아닐 것 같아요.. ㅋㅋㅋ 좀 복잡한 거 물어보니까 일을 안 해버림요.. ㅋㅋㅋㅋ 그리고 처리 시간이 너무 길어지면 길 가던 바쁜 외국인이 도와줄까 모르겠어요.
하지만 내년쯤엔 슝슝 돌아가는 번역기가 나올 것 같은데요? 이건 순차 통역이지만, 먼 미래엔 이어폰을 한 쪽씩 나눠 끼고 동시통역 하는 수준에까지 도달할 수 있을지도요.
어제 GPTs Store가 오픈했지요? 이 스토어는 제가 만든 퉁역사GPT 같은 걸 공개해서 올려두는 곳이에요. 유저들이 많이 사용한다면 오픈AI가 유툽처럼 구독료를 셰어해 줄 거라는 전설이 전해지는데요.
제 생각엔..ㅋㅋㅋ.. 큰 기대는 안하시는 게 좋을 듯요. 이 스토어는 남의 걸 쓰느니 자기가 그 아이디어랑 똑같은 거 또 얼렁 만들어 올리는 애들 엄청날 거 같아요. 이게 워낙 만들기가 쉬워서요. 저의 GPTs는 다 only with me 옵션이랍니다.
뭐든지 더 매력적인 콘텐츠를 만드는 데서 생성AI의 쓸모를 인지하셨으면요. ‘만들 수 있다’에 많은 방점을 두면 세상 시시한 쉬레기들을 만들 수 있는 게 또 이 생성AI예요.
오늘, 그리고 주말에 멀티모달화 체험을 한번 해보세요. 저처럼 통역 봇을 하나 만들어보시든지, 아니면 제품 이미지 사진을 몇 개 던져놓고 얘랑 대화를 해보는 거지요. GPT 공개 플랫폼에선 얘가 어디까지 할 수 있는지, 만약 기업형이면 뭐가 가능할지를 감잡을 수 있어요.
주말에 함 해보시와요~ 전 다음 주에 또 새로운 이야기로 찾아올게요~ 휘리릭!
교정: 하지영