여러분도 혹시 프사 바꾸셨나요? 저도 카톡 친구 리스트를 보니 평소 IT 쪽에 관심이 있던 분들은 다들 지브리 스타일로 프사를 변경하셨더군요. 물론 이런 식으로 활용하는 것도 AI와 가까워지는데 좋은 방법이 될 수 있을 것 같습니다. (저는 안 바꿨습니다. 원래 프사가 일러스트라..)
하지만 브런치 사용자들처럼 콘텐츠를 만드는데 관심이 있는 분들이라면 이 기능을 좀 더 유용한 방식으로 사용해 보면 어떨까 싶습니다. 사실 이번에 업그레이드된 기능의 핵심은 ‘지브리 스타일’은 아니라고 보거든요.
챗GPT의 이미지 생성 기능, 뭐가 달라졌나?
이번 성능 개선의 핵심은 챗GPT의 4o의 기능과 이미지 생성 기능의 통합입니다. 기존에 챗GPT 내에서 이미지를 생성할 수 있는 ‘DALL-E 3’의 경우 다른 이미지생성 AI(미드저니, 스테이블디퓨전, 레오나르도 AI 등)과 달리 맥락을 이해한다는 점이 큰 차별점이었죠. 챗GPT 내에서 대화를 하다가 바로 이미지 생성을 할 수 있으니까요.
하지만 그간 DALL-E는 저작권 및 초상권 관련해서 다소 까다로운 편이었는데요. 다른 AI의 경우 일론 머스크가 화성에 간 모습을 그리거나, 앤디 워홀 화풍으로 이미지를 만드는 것이 가능했지만 DALL-E는 이런 류의 이미지 생성을 거부했죠. 하지만 이번에 샘 알트먼(오픈AI CEO)이 자신의 사진을 지브리 스타일로 바꾼 이미지를 X에 올리면서 열풍이 시작된 겁니다.
샘 알트먼이 자신의 X에 올린 이미지
따라서 ‘OOO’ 스타일로 이미지를 생성하는 것은 새로운 기능이라기보다는 오픈AI가 (마케팅을 위해) 규제를 푼 것에 가깝다고 할 수 있습니다. 정작 새로운, 그리고 혁신적인 기능은 따로 있습니다. 앞서 말씀드린 대로 4o와의 통합인데요.
대표적인 변화로는 이미지에 문구를 넣을 수 있게 됐다는 점입니다 아래는 제가 AI에서 이미지를 만드는 것에 대한 유용함을 표현하는 4컷의 웹툰을 그려 달라고 한 결과입니다. 텍스트는 한글로 작성해 달라고 했고요.

어떤가요? 챗GPT가 제 지시의 맥락을 이해하고 기본적인 내용을 작성한 뒤 이를 4컷 웹툰으로 만들어 주는 겁니다. 어찌 보면 간단한 기능 같지만 이를 수행하려면 꽤 여러 단계를 거쳐야 하는데, 4o의 경우 추론에 강점이 있기 때문에 이를 단계적으로 수행하는 거죠 (실제로 작업을 시켜 보면 시간이 좀 걸림)
사실 기존에는 이미지 내에 한글은커녕 영문을 넣기도 어려웠는데요. 얼마 전에 AI 강의를 하면서도 이미지 생성할 때 텍스트 넣을 생각은 하지 마시고 꼭 넣고 싶으시면 포토샵 등으로 나중에 편집을 하시라고 했는데 그에 비하면 획기적인 진전인 거죠.
그리고 오픈AI는 이를 더 이상 DALL-E라고 칭하지 않고, 4o 이미지 생성이라고 칭하고 있습니다. 이제 챗GPT에 완전히 통합되는 거죠.
4o 이미지 생성, 어떻게 활용할까?
오픈AI가 굳이 DALL-E 3.5나 4 등으로 표현하지 않고 4o 이미지 생성이라 표현하는 것은 나름 이유가 있다고 봅니다. 핵심은 이미지의 개선이 아니라 맥락의 이해에 있으니까요. 쉽게 말해 그림을 좀 더 잘 그리는 것이 아니라 이해도가 더 높아졌다고 볼 수 있는 거죠.
그럼 이런 기능을 어떻게 쓸 수 있을까요? 기본적으로 식당에서의 메뉴 만들기 같은 것에 쓸 수도 있고, 상품 소개서를 만드는 데에도 활용할 수 있을 겁니다. 제품이나 서비스에 대한 이해를 높이기 위한 콘텐츠를 만드는 데에도 활용할 수 있겠죠.
아래 이미지를 보시죠. 이 역시 4o 이미지 생성으로 만든 겁니다. 화이트보드에는 텍스트가 가득 쓰여 있고, 사실적인 이미지가 그려져 있죠. 화이트보드에는 이 사진을 찍고 있는 사람도 보입니다.
오픈AI 공식 사이트 중.
위 이미지를 보고 뭔가 떠올리는 분이 계실 수도 있는데요. 바로 오픈AI가 공개했던 비디오생성 AI인 sora입니다. 바로 아래 영상의 8분 30초부터 보시면 지하철을 지나는 장면이 있는데요. 지하철이 어두운 곳을 지나면서 창에 사람들의 모습이 비치게 되죠. 이 장면과 묘하게 비슷한 느낌이 들지 않나요?
오픈AI는 새로운 이미지생성기능에 sora의 기술이 많이 쓰였다고 밝히고 있는데요. 아마 runway (대표적인 영상생성 AI)를 써보신 분이라면 이게 어떤 의미인지 대략 이해하실 수 있을 듯합니다. 단순히 멋진 이미지를 만들어 내는 것과 맥락을 이해해서 만들어야 하는 영상은 상당히 다른 메커니즘을 사용해야 하거든요.
* 그런 의미에서 sora로 만든 영상 중 가장 유명한, 도쿄를 걷고 있는 여성의 모습을 지브리 스타일로 바꿔 봤습니다. (이 글의 커버 이미지)
정리하면… 지브리 스타일로 프사를 만드는 것도 물론 재미있는 일이지만 AI를 좀 더 가치 있게 활용하는데 관심이 있는 분이라면 이번 기능 개선이 어떤 의미를 갖고 있는지, 또 어떻게 활용할 수 있는지 좀 더 세심히 살펴보는 것이 어떨까요?
4o 이미지 생성 기능에 대해 좀 더 자세히 알고 싶은 분들은 아래의 링크를 참조 바랍니다.
AI를 활용해 생산성 및 수익성을 창출하기 위한 오픈채팅을 운영 중입니다.
관심 있는 분들은 아래 링크로 방문해 주세요.
https://open.kakao.com/o/gvfBALwg (입장코드 : 4633)
sora의 기술이 많이 쓰였다는 새로운 정보를 알았습니다! 역시.. 앞으로 AI 이미지 생성 기술이 어디까지 갈지 너무 기대됩니다.