[시리즈 연재] Gemini Omni 동영상 편집 실험기






생성형 AI로 무언가를 만드는 시각 창작자들이 쓰는 도구는 크게 둘로 나뉜다. 로컬과 비로컬이다.

로컬 쪽의 대표는 ComfyUI다. 자세한 설명은 이 글의 주제가 아니니 간단히 설명하겠음. 노드 기반 시스템인데, 미세하게 컨트롤하거나 본인만의 워크플로우를 짜는 데는 좋다. 대신 기본 성능 자체는 대기업이 굴리는 비로컬 서비스 쪽이 낫다. 모델 사이즈가 크기 때문이다. 그래서 특별한 목적이 없다면 대부분의 사람에게는 비로컬 서비스가 현실적인 선택이다. (그런데 요즘 codex나 claude code한테 comfy도 그냥 시키면 생각보다 잘 해주긴 함..)
비로컬 생성형 AI를 시각 분야 위주로 좀 더 쪼개 보겠다.

이미지: 나노바나나, GPT Image 2, 미드저니 등
3D: Meshy AI, Tripo AI 등
영상: Seedance, Kling AI, Sora 2(서비스 종료), Veo 등
이 글에서는 영상에 집중한다.

상업적으로 쓸 만한 수준에서, 현재 영상 생성은 Seedance와 Kling AI가 압도적이다. 그냥 체감이 아니라 리더보드로도 그렇다.
블라인드 투표 기반인 Artificial Analysis 영상 아레나(2026년 5월 기준)를 보면, 오디오 포함 text-to-video에서 Seedance 2.0이 Elo 1213로 1위다. image-to-video에서도 선두를 잡고 있고, Kling 3.0 계열이 그 뒤 3~5위권을 채운다. 이유는 한 번에 뽑아내는 화질, 모션의 자연스러움, 물리, 그리고 오디오까지 한 패스에 같이 만들어내는 완성도가 높다.
참고로 한때 화제였던 Sora 2는 2026년 4월에 웹·앱 서비스가 종료됐다. 추론 비용이 하루 1,500만 달러 규모로 GPU를 녹이는 수준이었다고 하니...
![[시리즈 연재] 두뇌 트레이닝 프로그램 만들기](https://post-image.valley.town/JKrieEl1aAvXc8pKzmFQ8.png)
![[시리즈 연재] Codex를 활용한 학습만화 제작](https://post-image.valley.town/UZQuBham9ykklqnWgF2x2.png)
![[시리즈 연재]시각 이미지 제작을 위한 프롬프트 작성에 관하여](https://post-image.valley.town/jp1OpEtfHCDUM_qAW7Ehf.png)

오리아나의 팟캐스트 ㄷㄷㄷ

당신의 적을 죽이겠어요..

비디오 편집에 더 효과적인 AI, 텍스트를 비디오로 더 잘 바꾸는 AI가 나눠져잇는 현상태가 신기하네요

구글의 월드모델 덕분에 기본적으로 맥락 이해를 잘하는 것 아닌가 추측합니다

와우! 신기하네요!
AI를 통한 동영상 제작의 범용성과 한계를 알게 되었네요.✨
감사합니다!!~

아직 비용 때문에 쉽게 쓰기는 어려운데 그것도 아마 곧 해결되지 않을까 생각합니다

어
...
제이님, 진실의 시간이 왔습니다.
진실을 밝혀주세요.
ㅋㅋㅋ

다행이도 아직 삭제요청을 받지 않았습니다..ㅎ

제이님의 비밀이 ㄷㄷ

발성이 너무 좋으십니다..