В онлайн-кинотеатре Кинопоиска вышло три коротких эпизода проекта «Ева. Связь сквозь время», вдохновленного нетфликсовским «Любовь. Смерть. Роботы». Их общий хронометраж — 15 минут, а произведены они были меньше чем за четыре месяца, что для индустрии анимации уникально. Проект сделан студией It’s Alive вместе с режиссерами Натой Покровской и Антоном Уткиным, который регулярно выступает на Кинопоиске с колонкой, посвященной технологиям в кино. В этом тексте Антон и Ната рассказывают, какие горизонты открывают нейросети для производства контента небольшими и бойкими командами.
Антон Уткин
Сценарист и режиссер, сооснователь студии Lateral Summer, которая занимается интерактивным кино и VR-технологиями
Ната Покровская
Соосновательница студии Lateral Summer, режиссер, нарративный дизайнер
В мультфильме девушка-андроид Ева прибывает из далекого будущего в наше время, к моменту своего изобретения, чтобы помочь инженеру Диме и другим известным изобретателям, живущим в разных эпохах, спасти Землю от техногенной аномалии. Эта аномалия умеет путешествовать во времени и грозит разрушить планету, и то, что мы сделали «Еву» за такой короткий срок, — тоже своего рода аномалия.
Альберто Мьельго, о гении которого Антон писал на Кинопоиске в прошлом году, от года до двух лет в одиночку создавал сценарий и раскадровку эпизода из первого сезона «Любовь. Смерть. Роботы», а над его «Джибаро» 171 человек работал год и семь месяцев. Мы писали сценарий одной серии около недели, а 25 человек производственной команды «Евы» делали 6 минут анимации за все тот же месяц. Примерно столько же времени занимает у немаленького «Союзмультфильма» создание сравнимой по хронометражу серии «Ну, погоди!». Для анимации такого качества, сделанной с применением передовых технологий небольшой командой со сжатыми бюджетами и сроками, «Ева» — это результат, по которому многое можно понять о состоянии производственных мощностей и ближайшем будущем контента.
Прийти к нему помог в первую очередь Unreal Engine 5 — игровой движок, который мы разбирали в колонке про систему The Volume. Вторым ключевым фактором стали нейросети, и про них в конце прошлого года выходил текст на Кинопоиске. После той публикации буквально за несколько месяцев они из игрушки начали превращаться в серьезный инструмент. Конечно, далеко не все в «Еве» сделано нейросетями, на проекте было много ручного труда, но ряд технологий с машинным обучением мы обкатывали на ходу.
Сценарий писали авторы этой колонки, а за фактурой мы обращались не только к историкам и лингвистам, но и к моделям GPT. Порядок действий был примерно таким:
- Придумываем сценарные гипотезы. Больше всего сил отняла третья серия про Архимеда, основанная на реальных событиях, потому что Древняя Греция, с одной стороны, что-то общеизвестное, а с другой — до нашего времени дошли много раз пересказанные обрывочные свидетельства и отдельные предметы быта. По ним пришлось вдумчиво создавать картинку.
- Идем в ChatGPT или Bing и уточняем фактуру: пигменты, используемые в одежде тех времен, морские торговые пути Античности, мода на лицевую растительность древнего мира — в общем, детали и нюансы.
- Сверяемся с экспертами по этим вопросам — не соврала ли нейросеть? Чем точнее и конкретнее запрос, тем меньше у нее галлюцинаций и тем больше у нейросети верных ответов.
- Сверяем гипотезы в нейросетевом поисковике Elicit, который ищет информацию по научным текстам с цитированием. Так, например, мы изучали публикации об антикитерском механизме — реально существующем античном механическом компьютере, который помогал наблюдению за небесными телами.
- Сводим всё в сценарии!
Раскадровка — основа любого кино- и анимационного проекта, это этап, следующий после сценария. В анимации она особенно важна, именно там закладывается темпоритм истории и строятся ключевые кадры, на которые ориентируются аниматоры. Пока что вручную, но нейросети вот-вот научатся предлагать режиссеру выбирать камеру, ее угол и крупность кадра. Тогда и раскадровки станут создаваться быстрее и проще.
По ощущениям нейросети ускорили работу над сценарием раза в два: фактура находилась и проверялась стремительно, эксперты отвечали на конкретные вопросы, что тоже было быстрее. На большом проекте такая оптимизация может ускорить процесс в разы, и нет, ни о какой замене живых людей машинами речи не идет, просто работать становится проще и приятнее.
Как только сценарий был готов, встал вопрос про концепты: изображения, которые помогают показать команде художников и аниматоров, как должен выглядеть тот мир, который мы собираемся создавать. Арт-директор проекта Кирилл Песков, учитывая сжатые сроки, понимал, что препродакшен, то есть подготовку моделей, локаций и персонажей, нужно начинать сразу по готовности сценария. Времени на полноценные концепт-арты критически не хватало, и он решил обратиться к text-to-image-нейросетям.
Повозиться пришлось с заколкой героини, которая служит маячком для машины времени. Были и рисованные концепты, и пробные модели, но все это не клеилось с тем образом, который витал в нашем коллективном воображении. И тогда Кирилл в отчаянии решил закинуть один из эскизов в нейросеть и через режим Mix Mode скрестил его с одним из референсов. Несколько итераций, подбор промптов — и получился концепт, который идеально встроился в стиль главной героини и технологий будущего из мира «Евы».
Точно так же нейросеть помогла с вполне реальным антикитером — от античного механического компьютера осталось несколько заржавевших деталей и научные реконструкции, так что MidJourney подсказала, как мог выглядеть оригинал, и помогла подогнать изображение под комиксный стиль третьей серии.
Нейросети были задействовали и для чернового озвучания. Еще до старта мы приняли решение, что разные эпохи проекта будем передавать на языке самой эпохи, поэтому в кадре много древнегреческого и итальянского, а также звучат английский, французский и китайский языки. С древнегреческим нам помогали эксперты, а вот остальную озвучку до живых актеров делали нейросети — например, Robivox и Zvukogram. Для чернового монтажа важна скорость, потому что без него очень трудно посчитать количество и хронометраж кадров, а собрать такое количество разноязычных актеров непросто.
Этапы производства отдельного шота
Самое технически и творчески сложное — захват движения и дальнейшая работа с записанными движениями. Процесс устроен так: на актера надевается специальный костюм с датчиками, которые привязаны к определенным точкам на теле. Актер двигается, движения передаются в компьютер как скелетная анимация, причем не очень аккуратная; еще недавно каждое записанное движение аниматорам приходилось чистить вручную, а теперь это помогает делать компьютер (см. ниже ролик о технологии MetaHuman).
Дубль захвата движений и мимики из сцены первой серии. На актерах надеты шлемы захвата мимики Faceware и костюмы захвата движений Xsens, на заднем плане виден монитор, в котором в реальном времени идет плейбэк записываемой анимации. По периметру комнаты сидят аниматоры и контролируют процесс. Слева виден смартфон в руках одного из членов команды — на всякий случай пишется видеореференс сцены, чтобы аниматоры могли заметить какие-то детали актерской игры, которую может не уловить машинное зрение, тоже использующее нейросетевые алгоритмы.
Со снятием лицевой мимики еще сложнее: у человека десятки мышц на лице, и даже небольшие ошибки моментально бросаются в глаза, потому что мы с детства учимся различать малейшие перемены в эмоциях окружающих. Еще недавно лица актеров приходилось размечать точками и делать фотограмметрию, то есть фотографировать лицо с разных сторон. Теперь технологии машинного обучения, встроенные в шлемы для захвата мимики Faceware, позволяют в разы облегчить процесс ретаргета анимации, то есть переноса мимики актера на лицо трехмерного персонажа. Нейросеть понемногу учится на мимике конкретного актера и постепенно выдает все более точный результат.
Это заметно ускоряет работу с собственно анимацией лиц и тел: теперь буквально за день можно обработать огромное количество материала. Анжелика Ларина, директор производства студии It’s Alive, считает, что еще несколько лет назад похожий объем работы занял бы примерно в пять раз больше времени. Генпродюсер проекта Саша Шахматова говорит, что, только когда команда начала готовиться к продвижению проекта, она осознала: первый день записи анимации был 24 января, а весь сериал уже был сделан 24 апреля.
Забавно, что еще год назад актеров-мужчин приходилось просить побриться перед записью, потому что растительность на лице мешала точному захвату мимики, но сейчас это не проблема.
Факты о проекте «Ева»
Все серии основаны на реальных исторических событиях.
Проект создан на игровом движке Unreal Engine 5 и использует гибридный просчет вместе с системами Arnold и Houdini.
Три серии состоят из 21 600 кадров, каждый из которых был в рендере минимум три раза. В итоге в проекте просчитано по меньшей мере 65 000 кадров.
- У одного передового компьютера на просчет всех кадров проекта ушло бы 677 дней.
- Сейчас один кадр считается от 3 до 10 минут в зависимости от содержания и сложности сцены.
Благодаря технологиям Unreal Engine на съемочной площадке все участники в реальном времени видят героев фильма в проработанных декорациях и фотореалистичном свете. Работа с актером, мизансценой, камерой и светом максимально приближена к реальному кинопроизводству.
Детальная персонажная анимация, превосходящая Unreal MetaHumans:
- каждый персонаж в сериале создан с нуля;
- для каждого созданы детальные фотореалистичные наряды, соответствующие эпохе;
- гиперреалистичные глаза — в российской анимации редкость.
Все спецэффекты сделаны вручную.
Реалистичная историческая основа, воссозданная с помощью экспертов: Флоренция эпохи Возрождения, дореволюционный Кронштадт и античные Сиракузы.
Каждая локация и ее местоположение созданы на основе реальных топографических данных.
Аутентичные языки в кадре — итальянский и древнегреческий.
Над проектом работали художники из России, Беларуси, Ирана, Черногории, Украины, Казахстана, США, Греции.
Хорошая иллюстрация того, как еще больше упростится захват движений и мимики в ближайшем будущем, была в недавнем анонсе следующей версии Unreal Engine 5, которая выходит в ближайшие месяцы.
В MetaHuman Animator используются более простые модели персонажей, чем те, которые студия разрабатывала для «Евы», но для современных игр такого качества вполне хватает (и модели всегда можно доработать). На видео хорошо заметно, что больше не нужны специальные датчики: актриса просто встает перед обычной видеокамерой и играет дубль, который превращается в чистую анимацию практически в реальном времени.
Аватары «Евы»
Наконец, модель GPT помогала аниматорам и программистам с производственными скриптами для Unreal Engine просто потому, что она знает устройство игрового движка и язык программирования C++. Так, например, один из скриптов, написанных с помощью ChatGPT, позволял присваивать фотореалистичные материалы для тысячи объектов в реальном времени. Еще пример: настройки камеры из Unreal Engine при помощи другого скрипта, написанного ChatGPT, передавались в автоматическом режиме к аниматорам.
Окей, что все это значит для индустрии? Давайте попробуем немного пофантазировать, а для этого вспомним недавнее завирусившееся видео студии Corridor. В нем рассказывается, как небольшая команда делает стилизованную, но очень убедительную анимацию при помощи смартфонов, без участия сторонних актеров (все сцены разыгрывают сами аниматоры) и нейросетей. Для любителей подробностей в описании к ролику есть даже ссылка на обучалку, как это повторить у себя дома.
Да, прямо сейчас управляемые нейросети на основе Stable Diffusion, результат работы которых можно постепенно направлять и уточнять, позволяют реализовывать довольно ограниченную по стилистике анимацию. Но важно то, что проекты в ближайшем будущем больше не потребуют многих лет работы и сотен человек, теперь небольшой мультик можно будет сделать командой опытных друзей за несколько выходных.
Разумеется, от авторов все еще потребуется развитое визуальное мышление, чувство ритма, такта, меры и вкуса и хорошие навыки сторителлинга, так что аниматорами будущего смогут становиться дизайнеры и арт-директора, актеры и режиссеры, сценаристы и архитекторы. Все они смогут превращаться в сорежиссеров и художественных руководителей проектов, на которых нейросети помогут быстро и максимально безболезненно пройти все этапы: сценарий, работу с раскадровкой (привет Мьельго и его годам затворнической работы!), режиссуру и так далее вплоть до финального изображения.
Кино — отдельный большой разговор, но игры и сделанная на условных игровых движках и в 3D анимация — первый кандидат на многочисленные оптимизации. Кажется, нас ждет удивительное время: с одной стороны, поток бесконечных проектов от крупных студий, которые станут фабриками контента, а с другой — очаровательные, наивные и изобретальные арт-проекты от маленьких объединений, ведь то, что раньше было неподъемным по бюджету или просто непосильным для небольшой команды, станет работой месяца-двух. В общем, «Любовь. Смерть. Роботы», мы смотрим на тебя!
Однако люди из этого уравнения никуда не исчезнут. Уже в период производства «Евы» вышли еще более мощные решения по типу ControlNet для Stable Diffusion, и сейчас мы активно изучаем их и внедряем в производственный пайплайн. Text-to-image-нейросети — это потрясающий инструмент, но он едва ли заменит реальных художников. Создатели концепт-арта будущего будут работать плечом к плечу с нейросетью, позволяя ей делать основную черновую работу. Когда технологиями захвата лицевой мимики и анимации, которые сейчас доступны профессионалам, сможет пользоваться любой желающий, тогда мы, как аниматоры, сможем заняться чистым творчеством — придумывать то, чего нет в жизни.
Здесь действительно уместен технооптимизм, ведь осмысленный опыт мы получаем вместе с другими людьми. Мы рассказываем друг другу истории наших жизней: как мы любили и дружили, ссорились и разводились, теряли близких и находили новую близость. Нейросети могут помочь этот опыт раскрыть и донести до другого, но едва ли могут каким-то существенным образом заменить, как фотоаппарат не заменил инструменты художников, а стал одним из них. Прямо сейчас же хочется отметить этот уникальный момент в истории кино и анимации: сложные проекты становятся по силам небольшим замотивированным командам, не имеющим голливудского бюджета.
Вариант сцены боя из третьей серии, не вошедший в финальный монтаж
Концепт-арты: Студия It’s Alive