Yandex Öneri Sistemleri İçin Dünyanın En Büyük Veri Setini Yayınlandı!
Yandex, öneri sistemleri için dünyanın en büyük veri setini yayınladı! Bu dev hamle, AI teknolojilerinde yeni bir dönemi başlatabilir.
Yandex, öneri sistemleri teknolojisinde devrim yaratacak bir hamleyle, dünyanın en kapsamlı etkileşim veri setini araştırmacıların erişimine açtı. ‘Yambda’ olarak adlandırılan bu veri seti, Yandex Music platformundan derlenen 4,79 milyar anonimleştirilmiş kullanıcı etkileşimini içeriyor ve müzik önerilerinden e-ticaret ile sosyal medya platformlarına kadar geniş bir yelpazede yenilikleri tetiklemeyi hedefliyor.
Veri seti, kullanıcıların dinleme, beğenme ve beğenmeme gibi davranışlarını zaman damgalarıyla birlikte sunarken, ses katıştırmaları ve organik etkileşim detaylarını da barındırıyor. Bu sayede, öneri sistemlerinin daha etkili hale gelmesi için kritik veriler sağlanıyor. Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, konuya ilişkin olarak, “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerine ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuç olarak kullanıcılar da mükemmel şarkıyı, ürünü ya da hizmeti bularak bu gelişmeden faydalanıyor,” dedi.
Yambda Veri Setinin Öne Çıkan Özellikleri:
- 10 ay boyunca toplanmış 4,79 milyar etkileşim
- 1 milyon kullanıcı ve 9,39 milyon parça hakkında anonimleştirilmiş veri
- Örtülü (dinleme) ve açık (beğenme, beğenmeme) geri bildirim türleri
- ‘is_organic’ işareti ile içeriğin öneri mi yoksa kullanıcı keşfi mi olduğunu ayırt edebilme
- Zaman damgaları sayesinde kullanıcı davranışının zamana bağlı analizi
- Ses katıştırmaları ile içerik benzerliği analizi
- Apache Parquet formatında dağıtım, Spark, Hadoop, Pandas ve Polars ile uyumlu
Farklı İhtiyaçlara Uygun 3 Sürüm
Yambda, çeşitli işlem gücü ve araştırma gereksinimlerini karşılamak amacıyla yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik içeren üç ayrı sürümde Hugging Face platformu üzerinden indirilebilir durumda. Bu yaklaşım, veri setini daha erişilebilir kılıyor.
Akademi ve Sektör Arasındaki Boşluğu Kapatıyor
Büyük öneri sistemleri genellikle devasa veri kümelerine dayanıyor, ancak ticari şirketlerin verileri nadiren kamuya açılıyor. Bu veri kıtlığı, akademik modellerin gerçek dünyada yeterince etkili olamamasına yol açıyor. Yandex, Yambda ile bu boşluğu doldurmayı amaçlıyor ve veri setini girişimlerden ileri seviye yapay zeka laboratuvarlarına kadar geniş bir kitleye sunarak, öneri teknolojilerinde önemli bir sıçrama yaratmayı hedefliyor.