Google'ın Pixel Buds kulaklıkları dilleri nasıl tercüme eder?

0 Üye ve 1 Ziyaretçi konuyu incelemekte.

Çevrimdışı Uyanan Gençlik

  • ******
  • Join Date: Kas 2010
  • Yer: HATAY
  • 7462
  • +547/-0
  • Cinsiyet: Bay
The Galaxy için Otostopçu Kılavuzu'nda, Douglas Adams'ın 1978'deki sembolik BBC yayını (daha sonra kitap, özellikli film ve şimdi kültür simgesi), bir çok teknoloji tahmininden biri olan Babel Fish'ti.

İnsan kulağına sokulan ve beyin enerjisi ile beslenen bu küçük sarı yaşam formu, herhangi bir dile tercüme yapabiliyordu.

Web devi Google, görünüşte Babel Fish'in kendi versiyonunu Pixel Buds olarak geliştirdi.
Bu kablosuz kulaklıklar, kullanıcıyla konuşabilen, anlayacak ve yardımcı olabilecek akıllı bir uygulama olan Google Assistant'ı kullanıyor.
Başlık özelliklerinden biri, 40 farklı dile tercüme edebileceği söylenen Google Çeviri desteğidir.

Peki nasıl işliyor?

Gerçek zamanlı konuşma çevirisi, birkaç farklı teknolojiden oluşan bir zincirden oluşur - her biri son yıllarda hızlı bir gelişme derecesine sahiptir. Girişten çıkışa kadar zincir şu şekilde gidiyor:

Giriş koşullandırması:
kulakiçi kulaklıklar, kullanıcıların sesi ve diğer seslerinin bir karışımını etkili bir şekilde kaydeden arka plan sesleri ve parazitleri alıyor. "Denoising", arka plan seslerini kaldırırken, yalnızca doğru kişi konuştuğunda sistemi tetiklemek için bir sesli aktivite detektörü (VAD) kullanıyor (arkasında kimse arkasında duran ve "Tamam Google" diyerek çok yüksek sesle ses çıkarmayan biri değil). Dokunmatik kontrol, VAD doğruluğunu iyileştirmek için kullanılır.

Dil tanımlama (LID):
Bu sistem birkaç saniye içinde hangi dilde konuşulduğunu belirlemek için makine öğrenimi kullanmaktadır. Bu önemlidir çünkü takip eden her şey dile özgüdür. Dil tanımlaması için yalnızca fonetik karakterler dilleri ayırmada yetersizdir (Ukraynaca ve Rusça, Urduca ve Hintçe gibi dil çiftleri, ses birimlerinde neredeyse aynıdır veya "fonemler"), bu nedenle tamamen yeni akustik temsiller geliştirilmelidir.

Otomatik konuşma tanıma (ASR):
ASR, kaydedilen konuşmayı bir sesli diziye dönüştürmek için bir akustik model kullanır ve daha sonra, fonetik bilgileri kelimelere dönüştürmek için dil modellemesi kullanılır. Konuşma dilbilgisi, bağlam, olasılık ve bir telaffuz sözlükinin kurallarını kullanarak, ASR sistemleri, eksik bilgilerin boşluklarını doldurur ve yanlışlıkla tanınan fonemleri doğru düzelterek konuşmacının söylediği metni temsil eder.

Doğal dil işleme:
NLP, bir dilden diğerine makine çevirisi gerçekleştirir. Bu isimler ve fiillerin yerine koyulması kadar basit değildir, fakat girdi konuşmasının anlamını çözmekte ve daha sonra bu anlamı başka bir dilde çıktı konuşması olarak yeniden kodlamaktadır - bizim için ikinci dilleri zorlaştıran tüm nüanslar ve karmaşıklıklar ile öğrenmek.

Konuşma sentezi ya da konuşma metni (TTS):
ASR'nin neredeyse tam tersi, bu bir dizi kelime (ya da fonetik bilgi) tarafından doğal sondaj konuşmasını sentezler. Daha eski sistemler, farklı fonemlere konuşan bir kişinin kısa kayıtlarının çoğunu doğru sırada birleştirmek anlamına gelen katkı sentezi yöntemini kullandılar. Daha modern sistemler karmaşık istatistiksel konuşma modellerini doğal bir sondaj sesi yaratmak için kullanır.

Hepsini bir araya koy


Şimdi, zincirdeki beş blok teknolojiye sahibiz, sistemin pratikte Çin ve İngilizce gibi diller arasında nasıl tercüme yapacağını görelim.

Çevirmeye hazır olduğunda, kulakiçi kulaklıklar öncelikle konuşmanın başladığı ve bittiği zamanları belirlemek için bir VAD kullanarak bir konuşma kaydediyor. Arka plan gürültüsü, kulaklıklı mikrofon setlerinin içinde kısmen çıkartılabilir veya kayıt Bluetooth'tan akıllı telefona aktarıldığında olabilir. Daha sonra, daha az miktarda veri işlemek üzere sıkıştırılır, ardından WiFi, 3G veya 4G üzerinden Google'ın konuşma sunucularına iletilir.

Bulut olarak çalışan Google'ın sunucuları, kaydı kabul eder, sıkıştırmayı açar ve konuşmanın Çince mi yoksa ingilizce mi olduğunu belirlemek için LID teknolojisi kullanacaktır.

Konuşma daha sonra Çince için ASR sistemine, daha sonra Çince'den İngilizce'ye eşlemek için bir NLP makine çevirmen kurulumuna geçirilecektir. Bunun çıktısı nihayet İngilizce için TTS yazılımına gönderilecek ve çıktıların sıkıştırılmış bir kaydı üretilecek. Bu, kulakiçi kulaklıklar aracılığıyla tekrar çalınması için ters yönde gönderilir.

Bu, bir çok iletişim aşaması gibi görünebilir, ancak gerçekleşmesi birkaç saniye alır. İlk olarak, kulaklıklı mikrofon setindeki işlemci kendiliğinden çevirme yapacak kadar güçlü değildir ve ikincisi, bellek depolama alanı dil ve akustik modellerini içermek için yetersiz olduğu için gereklidir. Yeterince hafızalı, yeterince güçlü bir işlemci kulakiçi kulaklıklara sıkışsa bile, karmaşık bilgisayar işlemleri, kulaklık pillerini birkaç saniye içinde tüketir.

Ayrıca, bu tür ürünlere sahip şirketler (Google, iFlytek ve IBM), çeviri modellerini düzeltmek, hassaslaştırmak ve iyileştirmek için sürekli geliştirmeye güveniyorlar. Kendi cloud sunucularında bir modeli güncellemek kolaydır. Bir kulakiçi kulaklık taktığınızda yapmak çok daha zordur.

Geç Douglas Adams kesinlikle bu gerçek hayat çevirme makinelerinin arkasındaki teknolojiyi şaşırtıcı bulmuştu - ki öyle.
Ancak bilgisayar bilimcileri ve mühendisleri burada durmayacak.

Konuşma özellikli bilgi işlemin bir sonraki dalgası, Iron Man'ın akıllı bilgisayarı J.A.R.V.I.S (Biraz Oldukça Oldukça Zekice Bir Akıllı Sistem) gibi Marvel serisindeki bir kurgusal aygıttan esinlenmiş olabilir.

Bu sistem, çevirinin ötesine geçecek, bizimle sohbet edebilecek, ne hissettiğimizi ve düşüncelerimizi anlayabilecek
ve ihtiyaçlarımızı ön plana çıkaracaktır.

Ne dersiniz? Sizce bu mümkün olacak mı?