Yakında Bilgisayarla Konuştuğunu Bilemeyeceksin

İçindekiler:

Yakında Bilgisayarla Konuştuğunu Bilemeyeceksin
Yakında Bilgisayarla Konuştuğunu Bilemeyeceksin
Anonim

Önemli Bilgiler

  • Bilgisayar tarafından oluşturulan konuşmayı gerçek şeyden ayırt edemeyeceğiniz gün hızla yaklaşıyor.
  • Google kısa süre önce daha doğal sohbetlere olanak sağlayabilecek bir model olan LaMDA'yı tanıttı.
  • İnsan benzeri konuşma üretmek aynı zamanda büyük miktarda işlem gücü gerektirir.
Image
Image

Şu anda, bir bilgisayarla ne zaman konuştuğunuzu söylemek kolay, ancak AI'daki son gelişmeler sayesinde bu yakında değişebilir.

Google kısa süre önce, şirketin yapay zeka asistanlarının yeteneklerini artırabileceğini ve daha doğal konuşmalara izin verebileceğini iddia ettiği deneysel bir model olan LaMDA'yı tanıttı. LaMDA, herhangi bir ön eğitim almadan neredeyse her şey hakkında sonunda normal bir şekilde konuşmayı hedefliyor.

Bir insanla konuşup konuşmadığınızı merak etmenize neden olabilecek, sayıları giderek artan yapay zeka projelerinden biri.

"Tahminim, önümüzdeki 12 ay içinde kullanıcıların bu yeni, daha duygusal seslere maruz kalmaya ve bunlara alışmaya başlayacakları." motor, bir e-posta röportajında söyledi.

"Bu gerçekleştiğinde, bugünün sentezlenmiş konuşması, kullanıcılara 2000'lerin başındaki konuşmanın bugün bize geldiği gibi gelecek."

Karakterli Sesli Asistanlar

Google'ın LaMDA'sı, Google Research tarafından icat edilen bir sinir ağı mimarisi olan Transformer üzerine kurulmuştur. Diğer dil modellerinden farklı olarak, Google'ın LaMDA'sı gerçek diyalog üzerine eğitildi.

Google'dan Eli Collins bir blog gönderisinde, kulağa doğal gelen yapay zeka konuşması yapma zorluğunun bir kısmının da konuşmaların açık uçlu doğası olduğunu yazdı.

Image
Image

"Bir TV şovu hakkında bir arkadaşla sohbet etmek, o ülkenin en iyi bölgesel mutfağı hakkında bir tartışmaya girmeden önce şovun çekildiği ülke hakkında bir tartışmaya dönüşebilir" diye ekledi.

Robot konuşmasıyla işler hızla ilerliyor. Konuşmalı yapay zekaya yatırım yapan Tsingyuan Ventures'ın yönetici ortağı Eric Rosenblum, bilgisayar destekli konuşmadaki en temel sorunlardan bazılarının neredeyse çözüldüğünü söyledi.

Örneğin, Otter.ai yazılımı tarafından yapılan transkripsiyonlar veya DeepScribe tarafından alınan tıbbi notlar gibi hizmetlerde konuşmayı anlamadaki doğruluk oranı zaten son derece yüksektir.

"Bir sonraki sınır çok daha zor" diye ekledi.

"Doğal dil işlemenin çok ötesine geçen bir sorun olan bağlam anlayışını korumak ve insanlarla etkileşime giren bilgisayarlar gibi empati, hayal kırıklığı, öfke, sabırsızlık vb. Bu sorunların her ikisi de üzerinde çalışılıyor, ancak ikisi de tatmin edici olmaktan oldukça uzak."

Sinir Ağları Anahtardır

Gerçekten benzer sesler üretmek için şirketler, verileri katmanlar aracılığıyla sınıflandıran bir makine öğrenimi biçimi olan derin sinir ağları gibi teknolojiler kullanıyor, metinden konuşmaya yazılım geliştiren bir şirket olan ReadSpeaker'ın Kuzey Amerika başkanı Matt Muldoon, bir e-posta röportajında söyledi.

"Bu katmanlar, sinyali daha karmaşık sınıflandırmalara ayırarak rafine eder" diye ekledi. "Sonuç, kulağa esrarengiz bir şekilde insan gibi gelen sentetik konuşmadır."

Geliştirilmekte olan başka bir teknoloji, bir metinden konuşmaya sesin sesini diğerinin konuşma stiliyle birleştirmeyi içeren Prosody Transfer'dir, dedi Muldoon. Ayrıca yeni bir sinirsel metin-konuşma sesi üretmek için gereken eğitim verisi miktarını az altan transfer öğrenimi de vardır.

Kaplan, insan benzeri konuşma üretmenin de çok büyük miktarda işlem gücü gerektirdiğini söyledi. Şirketler, normal işlemcilerle birlikte çalışan özel modüller olan sinir hızlandırıcı çipler geliştiriyor.

"Bundaki bir sonraki aşama, bu çipleri daha küçük donanımlara yerleştirmek olacak, çünkü şu anda görme için AI gerektiğinde kameralar için zaten yapılıyor" diye ekledi. "Bu tür bir bilgi işlem özelliğinin kulaklıkların kendisinde mevcut olması çok uzun sürmeyecektir."

Yapay zeka güdümlü konuşma geliştirmenin zorluklarından biri, herkesin farklı konuşmasıdır, bu nedenle bilgisayarlar bizi anlamakta zorlanırlar.

MDinc'te sesli arama analitiği üzerinde çalışan Monica Dema bir e-postada, "Gürcistan'a karşı Boston'a karşı Kuzey Dakota aksanlarını ve İngilizce'nin ana diliniz olup olmadığını düşünün" dedi. "Küresel olarak düşünürsek, bunu Almanya, Çin ve Hindistan'ın tüm bölgeleri için yapmak maliyetli, ancak bu yapılamayacağı veya yapılamayacağı anlamına gelmiyor."

Önerilen: