
Çinli teknoloji devi Alibaba, Qwen3-Omni adlı tamamen çok modlu yapay zekâ modelini tanıttı. Model, metin, resim, ses ve videoyu tek bir çatı altında işleyebiliyor. OpenAI’nin GPT-4o’su veya Google’ın Gemini 2.5 Pro’sundan farklı olarak, Apache 2.0 lisansı altında açık kaynaklı sunuluyor ve ticari kullanımda da ücretsiz değişiklik imkânı tanıyor. Hugging Face üzerinden erişilebilen Qwen3-Omni, milyon API token başına 0,25 dolar fiyatlandırmaya sahip. Alibaba ayrıca modelin birçok performans testinde son teknoloji (SOTA) seviyesinde olduğunu iddia ediyor.
Performans ve Özellikler
Qwen3-Omni, 22’si ses ve AV olmak üzere 36 kıyaslamada SOTA (state-of-the-art) sonuçlara ulaştı.
- Çok Dilli Güç: 119 dilde metin, 19 dilde konuşma girişi ve 10 dilde konuşma çıkışı desteği
- Hızlı Tepki: 211 ms gecikme ile gerçek zamanlı kullanım için optimize edildi
- Uzun Bağlam: 30 dakikalık ses anlama kapasitesi
- Yaratıcılık Desteği: Sistem komutları aracılığıyla içerik üretiminde özelleştirilebilir deneyim
Açık Kaynak Katkısı
Qwen, geliştiricilere daha geniş kullanım imkânı sunmak için üç farklı modeli açık kaynaklı hale getirdi:
- Qwen3-Omni-30B-A3B-Instruct: Talimat takibi için optimize
- Qwen3-Omni-30B-A3B-Thinking: Gelişmiş akıl yürütme için
- Qwen3-Omni-30B-A3B-Captioner: Altyazı üretiminde düşük halüsinasyon oranı
Bu sayede araştırmacılar ve geliştiriciler, hem yaratıcı hem de üretkenlik odaklı uygulamalarda Qwen3-Omni’yi temel alabilecek.
Neden Önemli?
Qwen3-Omni, yalnızca çok modlu bir yapay zekâ modeli değil; aynı zamanda açık kaynaklı erişim ve düşük gecikme süresi ile geliştirici topluluğunu güçlendiren bir altyapı sunuyor. Bu, yapay zekânın eğitimden medya üretimine, müşteri hizmetlerinden sağlık teknolojilerine kadar pek çok alanda daha hızlı ve güvenilir çözümler sunmasının önünü açıyor.
Kaynak: Alibaba
