Önemli Bilgiler
- Şirketler, bilgisayar tarafından oluşturulan konuşma sesini daha gerçekçi hale getirmenin yollarını bulmak için yarışıyor.
- NVIDIA kısa süre önce kendi sesinizle bir yapay zeka eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları tanıttı.
- Bir uzman, Tonlama, duygu ve müzikalitenin bilgisayar seslerinde hâlâ eksik olan özellikler olduğunu söylüyor.
Bilgisayar tarafından oluşturulan konuşma yakında çok daha insani gelebilir.
Bilgisayar parçaları üreticisi NVIDIA, sesinizle bir yapay zeka eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları kısa süre önce tanıttı. Yazılım ayrıca bir konuşmacının sözlerini başka bir kişinin sesini kullanarak iletebilir. Bilgisayar konuşmasını daha gerçekçi hale getirme çabasının bir parçası.
SoundHound'un CEO'su Michael Zagorsek, "Gelişmiş yapay zeka teknolojisi, kullanıcıların doğal bir şekilde konuşmasına, birçok soruyu tek bir cümlede birleştirmesine ve orijinal sorgudaki ayrıntıları sürekli olarak tekrar etme ihtiyacını ortadan kaldırmasına olanak tanıyor.", Lifewire'a bir e-posta röportajında söyledi.
"Artık çoğu sesli AI platformunda mevcut olan birden çok dilin eklenmesi, dijital sesli asistanların daha fazla coğrafyada ve daha fazla nüfus için erişilebilir olmasını sağlıyor" diye ekledi.
Robospeech Rising
Amazon'un Alexa'sı ve Apple'ın Siri'si, on yıl önceki bilgisayar konuşmalarından bile çok daha iyi ses veriyor, ancak yakın zamanda gerçek insan sesleriyle karıştırılmayacaklar.
Yapay konuşma sesini daha doğal hale getirmek için NVIDIA'nın metinden konuşmaya araştırma ekibi bir RAD-TTS modeli geliştirdi. Sistem, bireylerin ilerleme hızı, tonalite, tını ve diğer faktörler dahil olmak üzere sesleriyle bir metinden konuşmaya (TTS) modelini öğretmelerine olanak tanır.
Şirket, yeni modelini, I Am AI video serisi için kulağa daha çok konuşma niteliğinde sesli anlatım oluşturmak için kullandı.
"Bu arayüzle, video yapımcımız video senaryosunu okurken kendini kaydedebilir ve ardından konuşmasını kadın anlatıcının sesine dönüştürmek için AI modelini kullanabilir. Yapımcı bu temel anlatımı kullanarak AI'yı bir seslendirme sanatçısı, belirli kelimeleri vurgulamak için sentezlenmiş konuşmada ince ayar yapıyor ve videonun tonunu daha iyi ifade etmek için anlatımın hızını değiştiriyor, " diye yazdı NVIDIA web sitesinde.
Göründüğünden Daha Zor
Uzmanlar, bilgisayar tarafından oluşturulan konuşma sesini doğal hale getirmenin zor bir sorun olduğunu söylüyor.
Metinden konuşmaya yazılım şirketi Kukarella'nın CEO'su Nazım Ragimov, Lifewire'a verdiği bir e-posta röportajında, "Birinin sesini bilgisayar versiyonunu oluşturmak için yüzlerce saat kaydetmeniz gerekiyor" dedi. "Ve kayıt, profesyonel bir stüdyoda kaydedilen yüksek kalitede olmalıdır. Ne kadar çok saat kaliteli konuşma yüklenir ve işlenirse sonuç o kadar iyi olur."
Metin-konuşma, oyunlarda, ses engeli olan bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmasına yardımcı olmak için kullanılabilir.
Ragimov, Tonlama, duygu ve müzikalitenin bilgisayar seslerinde hala eksik olan özellikler olduğunu söyledi.
Yapay zeka bu eksik bağlantıları ekleyebilirse, bilgisayar tarafından oluşturulan konuşma "gerçek aktörlerin seslerinden ayırt edilemez" olacaktır. "Bu devam eden bir çalışma. Diğer sesler radyo sunucularıyla rekabet edebilecek. Yakında şarkı söyleyebilen ve sesli kitap okuyabilen sesler göreceksiniz."
Konuşma teknolojisi çok çeşitli işletmelerde daha popüler hale geliyor.
"Otomobil endüstrisi, daha güvenli ve daha bağlantılı sürüş deneyimleri yaratmanın bir yolu olarak son zamanlarda sesli yapay zekayı benimsedi," dedi Zagorsek.
"O zamandan beri, markalar müşteri deneyimlerini iyileştirmenin ve ürün ve hizmetleriyle etkileşime geçmek için daha kolay, daha güvenli, daha kullanışlı, verimli ve hijyenik yöntemlere yönelik talebi karşılamanın yollarını aradıkça sesli asistanlar giderek daha yaygın hale geldi."
Tipik olarak, sesli yapay zeka, otomatik konuşma tanıma (ASR) kullanarak konuşmayı metne dönüştürerek ve ardından bu metni bir doğal dil anlama (NLU) modeline besleyerek başlayan iki aşamalı bir süreçte sorguları yanıtlara dönüştürür.
SoundHound'un yaklaşımı, konuşmayı gerçek zamanlı olarak izlemek için bu iki adımı tek bir işlemde birleştirir. Şirket, bu tekniğin sesli asistanların, kişi konuşmayı bitirmeden önce bile kullanıcı sorgularının anlamını anlamasını sağladığını iddia ediyor.
Yalnızca yerleşikten (bulut bağlantısı gerekmez) hibrit (gömülü artı bulut) ve yalnızca buluta kadar çeşitli bağlantı seçeneklerinin mevcudiyeti de dahil olmak üzere, bilgisayar konuşmasında gelecekteki gelişmeler, "sektörlerdeki şirketlere daha fazla seçenek sunacak" maliyet, gizlilik ve işlem gücünün kullanılabilirliği açısından, " dedi Zagoresk.
NVIDIA, haber AI modellerinin seslendirme çalışmasının ötesine geçtiğini söyledi.
"Metin-konuşma, oyun oynamak, ses engelli bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmalarına yardımcı olmak için kullanılabilir" diye yazdı. "Yalnızca bir şarkının melodisini değil, aynı zamanda vokallerin ardındaki duygusal ifadeyi de eşleştirerek ikonik şarkıcıların performanslarını bile canlandırabilir."