안녕하세요. 슈크림빵입니다!
저번 글에서 Story Generation 연구를 진행했다고 언급했더니, 이에 대해 더 이야기해달라는 분이 계셔서 간단히 풀어보려 합니다.
석사 시절 인턴으로 참여했던 연구인데, 벌써 2년 전 이야기라 내용이 많이 낡기도 했고 대외비에 걸쳐 있는 부분도 있어서, 제 연구 자체를 공개하기보다는 소설 생성이 어떤 방향으로 연구되고 있는지를 소개하는 방식으로 써보려 해요.
원래 저는 석사 때 멀티모달(Multi-modal) 쪽을 주로 연구했고, 여기에 Prompt Learning이 섞여 있었습니다. 그래서 인턴에서 받은 주제도 자연스럽게 LLM과 Prompt Engineering을 활용해 생성의 질을 최대한 높이는 것이었어요.
자연어 처리 경험이 거의 없었음에도, 제가 ‘문예창작’ 출신이라는 이유로 인문학적 감각을 가진 엔지니어라는 포지션으로 운 좋게 참여할 수 있었습니다.
약 6개월간 진행한 연구에서 제 목표는 영어로 2,000단어 이상의 장편 스토리를 생성하되, 최대한 창의적이고 흥미로운 서사를 만들어내는 것이었습니다.
지금은 LLM이 긴 글도 제법 잘 쓰지만, 당시는 GPT-4o가 막 나왔을 시기였고, 장편 스토리를 맡기면 결말까지 쓰지 않고 ...으로 흐지부지 끝내는 경우가 꽤 많았습니다.
아마 학습 데이터 특성상 영화나 책의 줄거리가 결말 없이 짧게 요약된 형태로 많이 포함되어 있다 보니, 그 패턴을 따라가는 경향이 있었던 것 같아요.
그리고 생성 연구에는 항상 따라오는 숙제가 있습니다. 바로 “어떻게 평가할 것인가?” 입니다.
이미지든, 텍스트든, 오디오든, 비디오든 생성 결과물이 나왔을 때 무엇이 더 잘 만들어진 건지 판단할 기준 자체가 명확하지 않습니다.
예를 들어 제가 “슈크림빵을 먹는 햄스터” 이미지를 만들어달라고 했을 때, 두 모델이 모두 그럴듯한 결과를 내놓았다고 해봅시다. 여러분은 어느 쪽에 더 높은 점수를 주시겠어요?

이처럼 정답이 없는 창작물의 품질을 어떻게 수치화할 것인가? 이것이 생성 연구의 난제 중 하나입니다. 소설 생성도 마찬가지고요.
그럼 본론으로 들어가서, 현재 소설 생성 연구가 어떤 방향으로 흘러가고 있는지 살펴보겠습니다.
그래서, AI는 소설을 어떻게 쓰나요?
여러분도 한 번쯤 ChatGPT한테 “소설 써줘”라고 해보신 적 있으신가요?
처음엔 꽤 그럴듯하게 시작하다가, 어느 순간 갑자기 “그렇게 둘은 행복하게 살았습니다” 하고 마무리되거나, 아니면 흐지부지 끝나버리는 경험. 저도 연구하면서 이 문제를 정말 많이 마주쳤어요.
A...











