AI Artık Videolarınızı İzleyerek Anlayabilir

İçindekiler:

AI Artık Videolarınızı İzleyerek Anlayabilir
AI Artık Videolarınızı İzleyerek Anlayabilir
Anonim

Önemli Bilgiler

  • Araştırmacılar, yapay zekaya videoları izleyerek ve dinleyerek etiketlemeyi öğretebileceklerini söylüyorlar.
  • Yapay zeka sistemi, görsel ve işitsel veriler arasında paylaşılan kavramları yakalamak için verileri temsil etmeyi öğrenir.
  • Yapay zekaya, insanların öğrenmekte zorlanmadığı ancak bilgisayarların kavramakta güçlük çektiği kavramları anlamayı öğretme çabasının bir parçası.

Image
Image

Yeni bir yapay zeka sistemi (AI), videolarınızı izleyip dinleyebilir ve olup bitenleri etiketleyebilir.

MIT araştırmacıları, yapay zekaya video ve ses arasında paylaşılan eylemleri yakalamayı öğreten bir teknik geliştirdi. Örneğin, yöntemleri, bir videoda ağlayan bir bebeğin hareketinin, bir ses klibinde konuşulan "ağlama" kelimesiyle ilişkili olduğunu anlayabilir. İnsanların öğrenmekte zorluk çekmediği, ancak bilgisayarların kavramakta güçlük çektiği kavramları yapay zekaya nasıl anlayacaklarını öğretme çabasının bir parçası.

Yapay zeka uzmanı Phil Winder Lifewire'a bir e-posta röportajında "Yaygın öğrenme paradigması, denetimli öğrenme, iyi tanımlanmış ve eksiksiz veri kümeleriniz olduğunda iyi çalışır" dedi. "Ne yazık ki, gerçek dünyanın yeni durumlar sunma konusunda kötü bir alışkanlığı olduğu için veri kümeleri nadiren tamamlanır."

Daha Akıllı Yapay Zeka

Bilgisayarlar, insanlar gibi ses ve görüntüler yerine verileri sıkıştırmaları gerektiğinden günlük senaryoları anlamakta zorluk çekerler. Bir makine bir fotoğrafı "gördüğünde", o fotoğrafı bir görüntü sınıflandırması gibi bir görevi gerçekleştirmek için kullanabileceği verilere kodlaması gerekir. Girişler videolar, ses klipleri ve resimler gibi birden çok biçimde geldiğinde yapay zeka çıkmaza girebilir.

"Buradaki asıl zorluk, bir makine bu farklı yöntemleri nasıl hizalayabilir? İnsanlar olarak bu bizim için kolay," diyor MIT araştırmacısı ve konuyla ilgili bir makalenin ilk yazarı olan Alexander Liu. haber bülteni. "Bir araba görüyoruz ve ardından geçen bir arabanın sesini duyuyoruz ve bunların aynı şey olduğunu biliyoruz. Ancak makine öğrenimi için bu o kadar basit değil."

Liu'nun ekibi, görsel ve işitsel veriler arasında paylaşılan kavramları yakalamak için verileri temsil etmeyi öğrendiğini söyledikleri bir yapay zeka tekniği geliştirdi. Bu bilgiyi kullanarak, makine öğrenimi modelleri bir videoda belirli bir eylemin nerede gerçekleştiğini belirleyebilir ve etiketleyebilir.

Yeni model, videolar ve bunlara karşılık gelen metin başlıkları gibi ham verileri alır ve bunları videodaki nesneler ve eylemlerle ilgili özellikler veya gözlemler çıkararak kodlar. Daha sonra bu veri noktalarını, gömme alanı olarak bilinen bir ızgarada eşler. Model, benzer verileri ızgarada tek noktalar olarak kümeler; bu veri noktalarının veya vektörlerin her biri ayrı bir kelime ile temsil edilir.

Örneğin, hokkabazlık yapan bir kişinin video klibi "hokkabazlık" etiketli bir vektörle eşlenebilir.

Araştırmacılar, modeli vektörleri etiketlemek için yalnızca 1.000 kelime kullanabilecek şekilde tasarladı. Model, hangi eylemleri veya kavramları tek bir vektöre kodlamak istediğine karar verebilir, ancak yalnızca 1.000 vektör kullanabilir. Model, verileri en iyi temsil ettiğini düşündüğü kelimeleri seçer.

"Domuzlarla ilgili bir video varsa, model 1.000 vektörden birine 'domuz' kelimesini atayabilir. Ardından, model bir ses klibinde birinin 'domuz' kelimesini söylediğini duyarsa, bunu kodlamak için hala aynı vektörü kullanmalı, " diye açıkladı Liu.

Videolarınız, Kodu Çözülmüş

Biyometri firması Innovatrics'in araştırma ve geliştirme başkanı Marian Beszedes, Lifewire'a bir e-posta röportajında MIT tarafından geliştirilene benzer daha iyi etiketleme sistemlerinin yapay zekadaki yanlılığı az altmaya yardımcı olabileceğini söyledi. Beszedes, veri endüstrisinin yapay zeka sistemlerini üretim süreci perspektifinden görebileceğini öne sürdü.

Beszedes, "Sistemler ham verileri girdi (hammadde) olarak kabul eder, önceden işler, alır, kararlar veya tahminler yapar ve çıktı analitiği (mamul mallar)" dedi. "Bu süreç akışına "veri fabrikası" diyoruz ve diğer üretim süreçleri gibi bunun da kalite kontrollerine tabi olması gerekiyor. Veri endüstrisinin AI önyargısını bir kalite sorunu olarak ele alması gerekiyor.

Beszedes, "Tüketici açısından bakıldığında, yanlış etiketlenmiş veriler, örneğin belirli görseller/videolar için çevrimiçi aramayı daha zor hale getiriyor," diye ekledi. "Doğru geliştirilmiş yapay zeka ile etiketlemeyi otomatik olarak, manuel etiketlemeye göre çok daha hızlı ve daha tarafsız yapabilirsiniz."

Image
Image

Ancak MIT modelinin hala bazı sınırlamaları var. Birincisi, araştırmaları aynı anda iki kaynaktan gelen verilere odaklandı, ancak gerçek dünyada insanlar aynı anda birçok bilgi türüyle karşılaşıyorlar, dedi Liu

"Ve bu tür bir veri kümesi üzerinde 1.000 kelimenin çalıştığını biliyoruz, ancak bunun gerçek dünyadaki bir soruna genellenip genelleştirilemeyeceğini bilmiyoruz," diye ekledi Liu.

MIT araştırmacıları, yeni tekniklerinin benzer birçok modelden daha iyi performans gösterdiğini söylüyor. Yapay zeka videoları anlamak için eğitilebiliyorsa, sonunda arkadaşınızın tatil videolarını izlemeyi atlayabilir ve bunun yerine bilgisayar tarafından oluşturulan bir rapor alabilirsiniz.

Önerilen: