Xiaomi OmniVoice Ses Klonlama Modeli Açık Kaynaklı Hale Getirildi

Xiaomi, yapay zeka laboratuvarının yeni nesil Kaldi ekibinin OmniVoice adlı yeni bir metinden sese (TTS) modelini açık kaynaklı hale getirdiğini duyurdu. Şirkete göre, model yüzlerce dilde yüksek kaliteli konuşma sentezi sağlamak, ses klonlamayı desteklemek ve özelleştirilebilir konuşma üretimi yapmak üzere tasarlandı.

Xiaomi'nin resmi WeChat hesabı üzerinden yapılan açıklamada, OmniVoice'ın hem Çince hem de İngilizce senaryolarda güçlü performans gösterdiği, mevcut ticari sistemlerle rekabet ettiği ve bazı çok dilli görevlerde onları geride bıraktığı belirtildi.

Xiaomi OmniVoice, çok dilli konuşma sentezine odaklanmaktadır

OmniVoice'ın en büyük özelliklerinden biri, düşük kaynaklı dilleri desteklemesidir. Xiaomi, modelin çok sınırlı çevrimiçi eğitim verisine sahip diller de dahil olmak üzere "akla gelebilecek hemen her dilde" konuşma üretebildiğini söylüyor. Şirket, OmniVoice'ı yüzlerce dili kapsayan sektörün ilk ses klonlama metinden metne dönüştürme modeli olarak tanımlıyor.

Çok dilli testlerde, OmniVoice, yalnızca açık kaynaklı veri kümeleri üzerinde eğitilmiş olsa bile, konuşma benzerliği ve anlaşılabilirliği açısından 24 dilde birçok ticari sistemden daha iyi performans gösterdi. Şirket ayrıca, 102 dilde yapılan testlerde OmniVoice'ın konuşma anlaşılabilirliğinin gerçek insan konuşmasına yakın, hatta bazı durumlarda daha iyi olduğunu iddia ediyor.

Model, sınırlı eğitim verisiyle de çalışacak şekilde tasarlanmıştır. Markaya göre, 10 saatten az eğitim materyali içeren dillerde bile yüksek kaliteli konuşma sentezi elde edilebiliyor; bu da daha küçük bölgesel ve niş diller için konuşma teknolojisi desteğinin genişletilmesine yardımcı olabilir.

Daha hızlı performans sağlayan daha basit mimari

Xiaomi ayrıca OmniVoice'ın birçok güncel konuşma sentezleme sistemine kıyasla çok daha basit bir mimari kullandığını belirtiyor. Model, çeşitli farklı modüllere ve tahmin aşamalarına dayanmak yerine, metni doğrudan konuşmaya dönüştürmek için tek bir çift yönlü Transformer ağı kullanıyor. Bu, modern TTS modellerinde yaygın olarak bulunan ayrı metin modelleme, karmaşık hibrit yapılar ve çok seviyeli belirteç tahmin sistemlerine olan ihtiyacı ortadan kaldırıyor.

Basitleştirilmiş tasarım aynı zamanda hızı da artırıyor; OmniVoice'ın tek bir günde 100.000 saatlik veri üzerinde eğitimini tamamladığı iddia ediliyor. Çıkarım aşamasında, model PyTorch kullanarak gerçek zamanlı hızın 40 katına kadar hızda çalışabiliyor, bu da tüketici uygulamalarına ve hizmetlerine dağıtımını kolaylaştırabilir.

Xiaomi'ye göre, modelin performansını iyileştirmeye yardımcı olan iki önemli tasarım tercihi var. Bunlardan ilki, eğitim verimliliğini ve genel model yeteneğini artırdığı belirtilen "tam kod kitabı rastgele maskeleme stratejisi".

İkincisi, ön eğitim sırasında büyük bir dil modelinin kullanılmasıdır. Xiaomi, telaffuz doğruluğunu ve konuşma anlaşılabilirliğini artırmak için büyük bir dil modelinin otoregresif olmayan bir metinden sese dönüştürme (TTS) modeline etkili bir şekilde entegre edildiği ilk örnek olduğunu belirtiyor.

Gerçek dünya kullanım özellikleri

OmniVoice, çok dilli konuşma üretimine ek olarak birçok pratik özellik de içeriyor. Kullanıcılar, yaş, cinsiyet, ses tonu, aksan, lehçe veya konuşma stili gibi özellikleri tanımlayarak kolayca özel sesler oluşturabilirler. Model, referans ses örneğine ihtiyaç duymadan fısıltılı sesler ve diğer özel konuşma stilleri bile üretebilir.

Bir diğer özellik ise gürültülü ses ortamlarına odaklanıyor. Xiaomi, OmniVoice'ın referans kayıtlarından arka plan gürültüsünü otomatik olarak kaldırabildiğini ve daha net ses özelliklerini çıkarabildiğini, böylece orijinal ses ideal olmayan koşullarda kaydedilmiş olsa bile daha kaliteli ses klonlama imkanı sağladığını belirtiyor.

Model ayrıca, kahkaha ve iç çekme efektleri de dahil olmak üzere tonlama kontrolleri aracılığıyla ifade edici konuşma sentezini destekleyerek, üretilen seslerin daha doğal ve konuşma diline yakın duyulmasını sağlar.

Telaffuz doğruluğunu artırmak için OmniVoice, kullanıcıların çok sesli Çince karakterler ve İngilizce özel isimler de dahil olmak üzere zor telaffuzları manuel olarak düzeltmelerine olanak tanıyan araçlar içeriyor. Xiaomi, bunun gerçek dünya uygulamalarında sentezlenmiş konuşmanın güvenilirliğini artırabileceğini söylüyor.

#Xiaomi

#Omnivoice