Yapay Zeka Bilgisayarın Konuşmasını Nasıl Daha Doğal Hale Getirebilir?

👤 Yazar Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:04.
🖍 Son düzenleme 2025-01-24 12:27.

Önemli Bilgiler

Şirketler, bilgisayar tarafından oluşturulan konuşma sesini daha gerçekçi hale getirmenin yollarını bulmak için yarışıyor.
NVIDIA kısa süre önce kendi sesinizle bir yapay zeka eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları tanıttı.
Bir uzman, Tonlama, duygu ve müzikalitenin bilgisayar seslerinde hâlâ eksik olan özellikler olduğunu söylüyor.

Bilgisayar tarafından oluşturulan konuşma yakında çok daha insani gelebilir.

Bilgisayar parçaları üreticisi NVIDIA, sesinizle bir yapay zeka eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları kısa süre önce tanıttı. Yazılım ayrıca bir konuşmacının sözlerini başka bir kişinin sesini kullanarak iletebilir. Bilgisayar konuşmasını daha gerçekçi hale getirme çabasının bir parçası.

SoundHound'un CEO'su Michael Zagorsek, "Gelişmiş yapay zeka teknolojisi, kullanıcıların doğal bir şekilde konuşmasına, birçok soruyu tek bir cümlede birleştirmesine ve orijinal sorgudaki ayrıntıları sürekli olarak tekrar etme ihtiyacını ortadan kaldırmasına olanak tanıyor.", Lifewire'a bir e-posta röportajında söyledi.

"Artık çoğu sesli AI platformunda mevcut olan birden çok dilin eklenmesi, dijital sesli asistanların daha fazla coğrafyada ve daha fazla nüfus için erişilebilir olmasını sağlıyor" diye ekledi.

Robospeech Rising

Amazon'un Alexa'sı ve Apple'ın Siri'si, on yıl önceki bilgisayar konuşmalarından bile çok daha iyi ses veriyor, ancak yakın zamanda gerçek insan sesleriyle karıştırılmayacaklar.

Yapay konuşma sesini daha doğal hale getirmek için NVIDIA'nın metinden konuşmaya araştırma ekibi bir RAD-TTS modeli geliştirdi. Sistem, bireylerin ilerleme hızı, tonalite, tını ve diğer faktörler dahil olmak üzere sesleriyle bir metinden konuşmaya (TTS) modelini öğretmelerine olanak tanır.

Şirket, yeni modelini, I Am AI video serisi için kulağa daha çok konuşma niteliğinde sesli anlatım oluşturmak için kullandı.

"Bu arayüzle, video yapımcımız video senaryosunu okurken kendini kaydedebilir ve ardından konuşmasını kadın anlatıcının sesine dönüştürmek için AI modelini kullanabilir. Yapımcı bu temel anlatımı kullanarak AI'yı bir seslendirme sanatçısı, belirli kelimeleri vurgulamak için sentezlenmiş konuşmada ince ayar yapıyor ve videonun tonunu daha iyi ifade etmek için anlatımın hızını değiştiriyor, " diye yazdı NVIDIA web sitesinde.

Göründüğünden Daha Zor

Uzmanlar, bilgisayar tarafından oluşturulan konuşma sesini doğal hale getirmenin zor bir sorun olduğunu söylüyor.

Metinden konuşmaya yazılım şirketi Kukarella'nın CEO'su Nazım Ragimov, Lifewire'a verdiği bir e-posta röportajında, "Birinin sesini bilgisayar versiyonunu oluşturmak için yüzlerce saat kaydetmeniz gerekiyor" dedi. "Ve kayıt, profesyonel bir stüdyoda kaydedilen yüksek kalitede olmalıdır. Ne kadar çok saat kaliteli konuşma yüklenir ve işlenirse sonuç o kadar iyi olur."

Metin-konuşma, oyunlarda, ses engeli olan bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmasına yardımcı olmak için kullanılabilir.

Ragimov, Tonlama, duygu ve müzikalitenin bilgisayar seslerinde hala eksik olan özellikler olduğunu söyledi.

Yapay zeka bu eksik bağlantıları ekleyebilirse, bilgisayar tarafından oluşturulan konuşma "gerçek aktörlerin seslerinden ayırt edilemez" olacaktır. "Bu devam eden bir çalışma. Diğer sesler radyo sunucularıyla rekabet edebilecek. Yakında şarkı söyleyebilen ve sesli kitap okuyabilen sesler göreceksiniz."

Konuşma teknolojisi çok çeşitli işletmelerde daha popüler hale geliyor.

"Otomobil endüstrisi, daha güvenli ve daha bağlantılı sürüş deneyimleri yaratmanın bir yolu olarak son zamanlarda sesli yapay zekayı benimsedi," dedi Zagorsek.

"O zamandan beri, markalar müşteri deneyimlerini iyileştirmenin ve ürün ve hizmetleriyle etkileşime geçmek için daha kolay, daha güvenli, daha kullanışlı, verimli ve hijyenik yöntemlere yönelik talebi karşılamanın yollarını aradıkça sesli asistanlar giderek daha yaygın hale geldi."

Tipik olarak, sesli yapay zeka, otomatik konuşma tanıma (ASR) kullanarak konuşmayı metne dönüştürerek ve ardından bu metni bir doğal dil anlama (NLU) modeline besleyerek başlayan iki aşamalı bir süreçte sorguları yanıtlara dönüştürür.

SoundHound'un yaklaşımı, konuşmayı gerçek zamanlı olarak izlemek için bu iki adımı tek bir işlemde birleştirir. Şirket, bu tekniğin sesli asistanların, kişi konuşmayı bitirmeden önce bile kullanıcı sorgularının anlamını anlamasını sağladığını iddia ediyor.

Yalnızca yerleşikten (bulut bağlantısı gerekmez) hibrit (gömülü artı bulut) ve yalnızca buluta kadar çeşitli bağlantı seçeneklerinin mevcudiyeti de dahil olmak üzere, bilgisayar konuşmasında gelecekteki gelişmeler, "sektörlerdeki şirketlere daha fazla seçenek sunacak" maliyet, gizlilik ve işlem gücünün kullanılabilirliği açısından, " dedi Zagoresk.

NVIDIA, haber AI modellerinin seslendirme çalışmasının ötesine geçtiğini söyledi.

"Metin-konuşma, oyun oynamak, ses engelli bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmalarına yardımcı olmak için kullanılabilir" diye yazdı. "Yalnızca bir şarkının melodisini değil, aynı zamanda vokallerin ardındaki duygusal ifadeyi de eşleştirerek ikonik şarkıcıların performanslarını bile canlandırabilir."

Önerilen:

Yapay Zeka Bilgisayarın Konuşmasını Nasıl Daha Doğal Hale Getirebilir?

İçindekiler:

Önemli Bilgiler

Robospeech Rising

Göründüğünden Daha Zor

Önerilen:

AR Evde Onarımları Daha Kolay ve Daha Az Stresli Hale Getirebilir

Yapay Zeka İnsanları Eve Nasıl Daha Güvenli Bir Şekilde Getirebilir?

Android 12 Go, Süper Ucuz Telefonunuzu Nasıl Daha İyi Hale Getirebilir?

Daha Hafif, Daha Küçük Kulaklıklar VR'yi Daha Sürükleyici Hale Getirebilir

Mac'inizde Kaydırmayı Seçin: Doğal mı Doğal mı?

Fix-a-Flat Lastik Basıncı Monitör Sensörlerine Hasar Verebilir mi?

İki Kişi Aynı Anda Spotify Dinleyebilir mi?

Microsoft Windows'un Kısa Tarihi

Fabrika Direksiyon Kontrollerini Satış Sonrası Ana Ünitelerle Kullanabilir misiniz?

Çevrimiçi Arkadaşlarla Film İzlemenin En İyi 10 Yolu

WhatsApp Yedeği Nasıl Oluşturulur

Facebook İzleme Partisi Nasıl Düzenlenir

CD'deki Vinil Kayıtları Nasıl Korunur

Outlook'ta Mesajlardan Ekler Nasıl Kaldırılır

Sanal Gerçeklik Nedir? (VR Tanımı)

IPad veya iPad Mini'nizi Telefon Olarak Kullanma

Paket Sniffers Nedir ve Nasıl Çalışırlar?

GoCycle G4i Beni Katlanır E-Bisiklete İnandırdı

Bugünün Okullarında Bilgisayar Ağlarını İncelemek

Uzmanlar, Wear OS'nin Geleceğinin Parlak Olduğunu Söylüyor