Оскільки все більше компаній використовують штучний інтелект, стає звичайним явищем бачити в онлайн-сервісах закадровий голос на базі штучного інтелекту. У цій статті ми дослідимо, коли ШІ войсовер добре працює для бренду, а коли він можє зробити ваш бренд складним для сприйняття. Для читачів, які планують використовувати штучний інтелект для озвучки, ми поділимося нашими чесними та збалансованими результатами дослідження найкращих генераторів голосу на основі ШІ.
Від синтетичного до автентичного: огляд технології ШІ войсовер
Сьогодні багато компаній використовують технологію ШІ. Наприклад, використання чат-ботів штучного інтелекту для обслуговування клієнтів змінило те, як компанії зв’язуються зі своїми клієнтами, і рівень їхніх відповідей різко зріс. Однак, чи вплине закадровий голос на базі ШІ на розвиток бізнесу?
Хоча штучний інтелект більш ефективний і може заощадити час, він також може бути холодним і беземоційним, що зрештою створює неприємні враження від перегляду. Багато голосів штучного інтелекту навчаються на великих наборах даних записів професійних голосових акторів і вчаться проектувати інтонацію, темп і акцент. Після вивчення відповідних шаблонів мовлення штучний інтелект використовуватиме перетворення тексту в мовлення (TTS), щоб створити потрібний голос – від енергійної жінки-коментатора зі США до чоловіка з Великобританії з глибоким, заспокійливим голосом. Чому одні голоси штучного інтелекту звучать чудово, а інші звучать беземоційно? TTS може зробити голоси монотонними та роботизованими. Ось чому обробка природної мови (NLP) корисна. NLP збільшує здатність штучного інтелекту імітувати людський тон, ритм і тембр, а також коливання голосу, щоб зробити його звучання дуже людським.
ШІ войсовер: вивчення можливостей
Генератори голосу. ШІ голоси. Синтетичні голоси. Як би ви їх не називали, велика ймовірність, що ви чуєте їх часто – наприклад, у рекламних роликах і корпоративних маркетингових відео, або в навчальних та інших відео, якими зараз користується все більше компаній.
Незважаючи на свою ефективність, ШІ голоси можуть стати проблемою для бренду. Якщо глядачі відчують роботизований тон, вони можуть рефлекторно відкинути озвучений контент як не важливий або ненадійний. Але чи є на ринку ШІ голоси, які є достатньо витонченими, щоб уникнути цих проблем? Ми провели всебічне дослідження понад 100 голосів із понад 20 інструментів озвучування штучного інтелекту. Наш процес передбачав групування цих інструментів у три категорії залежно від того, наскільки людським звучав отриманий голос.
Інструменти ШІ, які забезпечують найвищу якість голосу
Ми вирішили, що нашим завданням буде перегляд голосів штучного інтелекту для маркетингу або пояснювальних відео, і ми обмежилися інструментами, які дозволяють комерційне використання. Ми не розглядали інструменти перетворення тексту в мовлення для особистого користування, як-от читання веб-контенту чи книг вголос, а також не розглядали голоси штучного інтелекту, призначені для телевізійних трансляцій, аудіокниг, тощо.
Щоб зробити наш аналіз більш керованим, ми зосередилися на чоловіках, які розмовляють британською англійською, зі списку з близько 100 варіантів.
Ось усі голоси штучного інтелекту, які ми протестували, розділені на категорії залежно від якості:
Базові ШІ Голоси | Стандартні ШІ Голоси | ШІ Голоси преміум-класу |
Aidocmaker.com Good Normal Audiate Davis Chat, Guy Default, Ryan, Tony Friendly Cohesive Adam Descript Malcolm Lovo Marcus, Shawn Murf Finn, Freddie Music Radio Creative Echo, Mike Speechify Evan, Guy Friendly, Liam, Nate Revoicer Andrew, Caleb, Grayson Synthesys Ian Synthesia Newscaster, Professional Voicebooking David |
ElevenLabs Brian, Jeremy, Liam, Paul, Tyler Kyrk (Commercial version) Arnold, Jeremy, Jon William |
Ми поставили голоси ElevenLabs на перше місце в нашому списку, і це з поважної причини. Голоси Джеремі та Ліама є найбільш надійними: безкоштовна та платна версії мають однакову якість, яка зберігалася на одному рівні протягом більше ніж шести місяців.
Ми очікували, що всі ці інструменти забезпечать такий рівень надійності, але ми були страшенно розчаровані іншим інструментом, який ми спробували, який також пропонує голос Джеремі. Прев’ю звучало чудово, але платна версія не відповідала якості ElevenLabs.
ШІ голос VS. Справжній актор озвучування
Голоси штучного інтелекту дедалі важче відрізнити від голосів людей, що є гарною новиною для творців відео. Незважаючи на те, що якість значно покращилася, а голоси штучного інтелекту перестали бути беземоційними та монотонними, але вони все-одно часто звучать “другосортно” порівняно з людськими аналогами. Людський голос за кадром дозволяє відчути мову тіла мовця – підняті брови, жести рук, енергію. Не маючи тіла, ШІ голоси не можуть конкурувати. Існує також фактор характерної “штучної доброзичливості” ШІ голосу. Справа не стільки в тому, що він звучить беземоційно або нудно, скільки в тому, що його ріний тон робить його звучання трохи неприродним. Поетичною аналогією може бути те, що людський голос схожий на річку з її природними меандрами, мілководдям і течією, що постійно змінюється, а закадровий голос ШІ більше схожий на штучний канал: незмінний і прямий. Ця відмінність дуже незначна і потребує уважного прослуховування, але вона все одно є. Отже, якщо вас це хвилює, ось кілька думок про те, коли і чому варто довіряти саме людському голосу.
Оцінюємо високоякісну ШІ озвучку
Синтетичне мовлення зараз достатньо добре розвинуто, і багато хто з нас інстинктивно відчуває, що баланс безповоротно схилився на користь ШІ. Людські голоси переконливіші, але вони коштують дуже дорого, часто невиправдано дорого, в порівнянні з ШІ.
Наприклад, якщо ви хочете розпочати кар’єру актора озвучування за допомогою електронного навчання, GVAA (Global Voice Acting Academy) пропонує стягувати близько $0,2–0,35 за слово (це приблизно $35–50 за хвилину). Закадровий голос від Fiverr обійдеться приблизно в $15 за хвилину, або ви можете опублікувати запит на озвучення на Upwork із бюджетом $2–3 за хвилину для постійної роботи та отримати гідних кандидатів.
У свою чергу, закадровий голос, згенерований штучним інтелектом, коштуватиме $0,2–3,5 за хвилину. Вартість буде відрізнятися залежно від інструменту, який ви використовуєте, і обраної вами місячної підписки, що залежатиме від кількості хвилин запису, які вам потрібні.
Нижче наведено тарифи на три інструменти озвучення штучного інтелекту, які ми відмітили яу найбільш адекватні (дані наведені, відповідно, від вищої до нижчої якості):
Назва інструменту |
Безкоштовна версія (помісячно) |
Платна версія (помісячно) |
ElevenLabs |
10 тисяч символів (приблизно 10 хвилин) |
$5 – 30 000 символів (приблизно 30 хвилин) $22 – 100 000 символі (приблизно 120 хвилин) $99 – 500 000 символів (приблизно 600 хвилин) $330 – 2 000 000 символів (приблизно 2400 хвилин) |
NaturalReader |
5 тисяч символів на день (приблизно 5 хвилин) |
$99 – 300 000 символів (приблизно 360 хвилин) |
Play.ht |
12,5 тисяч символів (приблизно 12,5 хвилин) |
$39 – 250 000 символів (приблизно 330 хвилин) $99 – без обмежень |
Скільки часу економить ШІ войсовер?
Припустімо, що ви знайшли та успішно найняли актора озвучування. Тепер настає проблема: час. Як скоро вони зможуть почати озвучувати сценарій? Скільки часу пройде, перш ніж ви отримаєте перший результат? Скільки часу займе редактура? А як щодо постпродакшну фінальної версії?
Ґрунтуючись на нашому власному досвіді та досвіді колег по галузі, ми припускаємо, що кожен із цих етапів – перший результат, редактура, і пост-продакшн – займає від 24 до 48 годин. Таким чином, запис 5-хвилинного голосу за кадром, як правило, займає близько 72 робочих годин (або трохи більше трьох робочих днів).
А як щодо ШІ озвучки?
Базові та стандартні ШІ голоси
Зазвичай потрібні значні зусилля, щоб поставити наголос саме там, де він має бути.
ШІ голоси преміум-класу
Наразі, такі голоси вже в 95% випадків підбирають тембр і роблять акценти в потрібних місцях самостійно. Хороший штучний інтелект, наприклад, міг би прочитати: “Ви, мабуть, уже знаєте, що люди та штучний інтелект — це ДУЖЕ різні речі”, без будь-яких особливих проблем з наголосом. Можливо, ви захочете змінити не більше ніж 1-2 речення з 10 – скажімо, використовуючи лапки або ВЕРХНІЙ РЕГІСТР, щоб трохи змістити акцент. Якісну 5-хвилинну ШІ версію цього сценарію можна створити приблизно за 40-60 хвилин часу, але тільки якщо вам не потрібно нічого редагувати.
Порівняння ШІ войсоверу та людського голосу: переваги та недоліки
Зважаючи на те, що ШІ тули можуть створити голос за кадром за лічені хвилини, часто безкоштовно, чи є у них мінус?
Що стосується створення аудіозапису, ми вже досліджували, як і чому питання якості та вартості можуть бути надзвичайно важливими. Однак, як показує наш досвід, інші чинники можуть виявитися вирішальними у виборі між людиною чи штучним інтелектом.
Фактор | ШІ войсовер | Людський голос |
Бюджет |
Загалом дешевше Пристойна озвучка AI коштуватиме $0,2–3,5 за хвилину |
Значно дорожче Незважаючи на те, що певні актори голосу можуть працювати за $2–5 за хвилину, більшість експертів бере $15 або більше за хвилину |
Час | Майже миттєво | Досить затратно |
Редагування | Дуже легко | Важко |
Стабільність | Висока | Середня |
Ефект | Від низького до середнього | Високий |
Унікальність | Від низького до середнього | Висока |
Основні висновки
Багато рішень штучного інтелекту забезпечують озвучення різної якості. Загалом, коли проекти потребують швидкого результату, ШІ є хорошим рішенням. Закадровий голос ШІ швидкий, точний і надійний. Незважаючи на це, людські голоси все ще мають перевагу над голосами ШІ. Люди можуть додати сценарію більше глибини та емоцій, що допоможе зв’язати їх із аудиторією. Все залежить від ваших вимог, бюджету та духу бренду, а також надсилання правильного меседжу вашим потенційним і поточним клієнтам. Найефективнішою відповіддю на бурхливий світ генеративного ШІ може бути рішення, засноване на конкретному контексті та ваших детальних і добре продуманих вимогах.