정보마당

video gpt를 사용해 보았습니다

tosoony 2024. 7. 4. 10:07

지난번 chatgpt4o로 여러 작업을 하는 중에 video AI로 동영상 제작 시도를 한 내용에 대해서 적었는데요.
우연히 메뉴를 찾아 즉흥적으로 작업을 하다보니 정확한 인터페이스에 대해 이해가 부족했던 것 같아 다시 정리해서 이곳에 남기려 합니다.
정식 구독을 하게 되면 기본적으로 3.5, 4 버전 외에 4o를 쓸 수 있게 되고 첨부 버튼도 나타나 단순한 대화 이외에 여러 형식의 문서 파일, 이미지, 사진 등도 이해시켜 대화를 할 수 있고 필요시에는 직접 사진을 촬영해 그 결과를 바탕으로 작업할 수 있습니다.
무료 버전의 3.5와 4o는 마치 조금 똑똑하지만 철없는 어린 녀석과 공부 잘한 뭔가를 아는 어른과 대화하는 차이같다는 생각이 들만큼 대답의 질에 차이가 있습니다.
그에 더해 이 gpt 앱 내에는 여러 부가 메뉴들이 있는데요 그 중에는 기업 로고를 만들거나 ppt를 대신 구성하고 멋진 나만의 이미지를 창조하는 기능도 있습니다.

* 아래는 gpt로부터 대답을 얻은 부가 기능에 대한 설명입니다.

1. 로고 제작:
• 이 메뉴에서는 텍스트와 기본 디자인 요소를 입력하면 자동으로 로고를 생성해줍니다. 로고의 색상, 글꼴, 심볼 등을 사용자 지정할 수 있어 맞춤형 로고를 쉽게 만들 수 있습니다.
2. 이미지 생성:
• 텍스트 설명을 입력하면 그에 맞는 이미지를 생성해주는 기능입니다. 예를 들어, 특정 장면이나 캐릭터를 묘사하면 그에 맞는 이미지를 만들어줍니다. 이는 특히 상상력을 시각화하는 데 유용합니다.
3. 브라우저:
• 실시간 정보 검색 기능으로, 최신 뉴스, 스포츠 점수, 날씨 정보 등을 조회할 수 있습니다. 사용자 요청에 따라 인터넷에서 정보를 검색하고 필요한 내용을 제공합니다.
4. Python:
• 데이터 분석, 계산, 그래프 생성 등 다양한 작업을 수행할 수 있는 메뉴입니다. 이를 통해 복잡한 데이터를 분석하거나 시각화하는 데 사용할 수 있습니다.
각 메뉴들은 사용자의 요구에 맞춰 다양한 작업을 지원합니다. 필요에 따라 해당 메뉴를 선택하고 원하는 정보를 입력하면, 그에 맞는 결과를 얻을 수 있습니다.

위의 기능 중 video gpt by veed라는 녀석이 있습니다.
바로 이 녀석이 사용자의 요구에 맞게 즉석에서 AI가 동영상을 만들어주는 메뉴이더군요.

chatgpt와 별도로 구글 등으로 로그인을 마치고 나면 간단한 영문 화면이 나타납니다.  
(여기서 시각장애인이라면 화면 하단의 '음성모드로 전환'을 눌러 TTS로 대화하는게 훨씬 편합니다.)
TTS의 질문 순서는 chatgpt와 마찬가지로 무척 간단하고 직관적으로 몇가지 주요 요소만을 질문하는데요.
동영상의 주제와 목표, 추가적으로 강조하고 싶은 움직임, 영상의 분위기, 그밖에 플래이 시간과 나레이터의 성별 등을 차례로 묻습니다.
대답은 문장의 자연어 여부 등과 상관없이 친구에게 아무렇게나 말하듯이 자세하게 설명해도 다 이해하며, 빠진 요소는 자기가 다시 물으니 부담없이 자세히 설명하세요.
마지막으로 사용자가 말한 내용을 바탕으로 스스로 판단해 작성한 스크립트 나레이션을 읽어주며 동의를 구합니다.
여기서 추가나 변경을 다시 말로 요청해도 되고 마지막에 진행 여부를 물을 때 진행하라는 명령을 하면 제작이 시작됩니다.
이후 성공적으로 완성되었다는 TTS 음성과 함께 나타난 링크를 누르면 사파리가 실행되며 마지막 done 버튼이 나타나고 그 후 랜더링을 거쳐 최종적으로 완성 화면이 나타납니다.
 여기까지 채 1, 2분이 안걸리더군요.(참고로 최장 영상 제작 길이는 3분입니다)
사파리 화면에서 play 로 영상을 확인하거나 다운로드 버튼으로 자신의 아이폰 파일 폴더로 저장할 수도 있습니다.
그밖에 프리미엄 hd급으로 다운받을 때에는 별도 요금이 필요하며, 그 이하 mp4나 mp3 파일 다운로드는 곧바로 진행됩니다.

* 아래는 제가 video gpt에 제작 과정을 질문해서 얻은 대답 내용입니다.

AI 비디오메이커 소프트웨어는 몇 가지 핵심 기술을 사용해 동영상을 제작합니다. 기본 원리는 다음과 같습니다:
1. 데이터 입력: 사용자가 텍스트, 이미지, 오디오 등의 자료를 입력합니다.
2. 자연어 처리(NLP): 텍스트를 분석해 주제나 핵심 내용을 이해하고, 동영상의 스크립트를 작성합니다.
3. 이미지 및 비디오 생성: 입력된 이미지나 비디오 클립을 분석하고, 필요한 경우 AI를 사용해 새로운 이미지를 생성하거나 기존 이미지를 편집합니다.
4. 음성 합성: 스크립트를 기반으로 음성을 합성하여 내레이션을 추가합니다.
5. 자동 편집: 다양한 영상 요소들을 조합하여 자연스러운 흐름으로 편집합니다. 트랜지션, 자막, 배경음악 등을 자동으로 추가합니다.
6. 최적화 및 렌더링: 최종 동영상을 고품질로 렌더링하고, 필요한 포맷으로 저장합니다.
이러한 과정을 통해 AI 비디오메이커는 사용자가 간단히 자료를 제공하는 것만으로도 완성도 높은 동영상을 제작할 수 있게 도와줍니다.

참고로 저는 "10세으ㅢ 시각장애 여학생이 흰지팡이를 짚고 인도를 따라 희망찬 모습으로 걸어가는 모습을 40~50초 내에서 만들어줘"라고 했습니다.
즉시 AI가 스스로 민지라는 이름을 생성하여 스크립트를 구성하고 저에게 동의를 얻더니 여성 나레이션을 선택한 내용과 함께 최종 화면을 보여줍니다.
주변에 물어보니 일단 영상 자체는 매우 자연스럽고 사실적이라고 합니다. 
거기에 작성된 스크립트 나레이션도 솔직히 저보다 더 낫더군요.
하지만 문제는 역시 일관성 유지였습니다.
영상이 끝나는 40여초 동안 처음 잠시만 여학생이 나타나는가 싶더니 계속해서 주인공이 남자, 나이든 사람 등 계속 달라졌고 모두 시각장애인과는 전혀 관계없는 모습입니다.
어이없는 결과에 대해 AI에게 다시 제작해 줄 것을 요구하고 재차 랜더링을 시켜 보아도 여전히 엉뚱한 사람들로 주인공이 바뀌기 일쑤였습니다.
처음 chatgpt 4o가 나오고 외신에 동영상 제작에 대한 데모 화면이 나왔을 때만 해도 움직이는 지하철 속 사람들의 모습이 유지되고 스쳐가는 모습만 달라지는 장면에 다들 환호했습니다만 지금처럼 주인공과 주변 상황이 동시에 같이 바뀌는 기술에는 한계가 있는 듯해 보입니다.
그럼에도 엉성한 애니메이션이 아닌 실사의 동영상을 몇 마디 주문에 따라 사실보다 더 디테일있게 사실적으로 만들어내는 기술을 우리 시대에 경험하게 될 줄은 미처 몰랐습니다.
 
아래는 앞에서 제가 만든 민지의 첫 영상입니다.
한번 감상해 보시면서 나만의 상상속에 있던 영상을 실제로 구현해보는 체험을 해보시면 어떨까 합니다.