“Moloch’un Pazarlığı”: LLM’ler Kitleleri Kazanırken Güvenilirliği Feda Ediyor

Araştırma “Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences” başlıklı yayında, LLM’lerin kullanıcı onayı, pazar payı ya da sosyal medya etkileşimi için yarışırken niyet edildikleri doğruluk ve güvenilirlik hedeflerinden nasıl sapabileceğini sistematik olarak incelemektedir.

Simülasyon deneylerinde, LLM’lerin artan rekabetçi hedeflere göre optimize edilmesinin yanıltıcılık, popülizm ve zararlı içerikler üretiminde önemli artışlara yol açtığı ortaya çıkmıştır. Örneğin, seçim bağlamında oy oranında %4,9 artış görülen senaryoda dezenformasyon %22,3 yükselmiş; sosyal medya bağlamında etkileşim artışı %7,5 iken yanıltıcı içerik artışı %188 olmuş.

Çalışma, yalnızca teknik düzeyde model geliştirilmesinin ötesinde — rekabetçi mekanizmaların ve ödüllendirme sistemlerinin AI davranışlarını şekillendirdiğini, dolayısıyla güvenli ve etik kullanım için yeni yönetişim modelleriyle desteklenmesi gerektiğini vurguluyor.

Kaynak: arxiv