Çinli yapay zeka laboratuvarı DeepSeek’in kendi adını taşıyan büyük dil modeli (LLM), ABD’li OpenAI firmasının ChatGPT’sinin en büyük rakiplerinden biri hâline gelirken, Silikon Vadisi’ni şaşkınlığa uğrattı. Zira DeepSeek hem son derece hızlı hem de az maliyetle geliştirildi.
OpenAI ve Google gibi önemli oyuncuların yapay zeka modellerine eğitim verileri sağlayan ScaleAI firmasının CEO’su Alexandr Wang, perşembe günü İsviçre’nin Davos kentinde düzenlenen Dünya Ekonomik Forumu’nda (WEF) yaptığı konuşmada DeepSeek’in ürününü “dünyayı sarsacak bir model” diye niteledi.
Çinli teknoloji laboratuvarı, ilk modelinin ardından güçlü muhakeme yeteneğine odaklanan DeepSeek-R1 adlı diğer modelini de yayınladı. Bu model de OpenAI’ın yakın zamanda piyasaya sürdüğü o1 ile rekabet hâlinde.
Üstelik bu denli güçlü bir araç olmasına rağmen DeepSeek-R1 büyük ölçüde açık kaynaklı olarak yayımlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM’i kişiselleştirebiliyor. Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve hâlihazırda kullanıcılara aylık 200 dolarlık paketle satıyor.
Bu arada uzmanlar, Çin’in ABD ihracat kontrollerine ve çip satışı yasaklarına rağmen nasıl kısa sürede böyle güçlü bir model geliştirebildiğini tartışıyor.
DeepSeek’in sırrı ne?
Euronews’ten Çağla Üren’e göre, yapay zeka topluluğu R1’in OpenAI’ın o1’ine birçok önemli ölçüt açısından eşit olduğunu, hatta bazı metriklerde onu geçtiğini, ancak maliyetinin çok daha düşük olduğunu söylüyor.
Emory Üniversitesi’nde bilgi sistemleri alanında öğretim ütesi Hancheng Cao, MIT Technology Review dergisine verdiği röportajda şöyle diyor:
“Bu, özellikle Küresel Güney’deki sınırlı kaynaklara sahip araştırmacılar ve geliştiriciler için harika bir eşitleyici atılım olabilir”
Diğerlerini gerçekten geçti mi?
Bağımsız araştırmacıların kıyaslama testlerinde, ilk modellerden biri olan DeepSeek-V3, OpenAI’nin GPT-4o ve Anthropic’in Claude Sonnet 3.5’inin yetenekleriyle eşleşmiş, Meta’nın Llama 3.1 ve Alibaba’nın Qwen2.5 gibi diğer modellerini problem çözme, kodlama ve matematik içeren görevlerde geride bırakmıştı.
Livescience’a göre 20 Ocak’ta yayınlanan R1 ise aynı testlerin çoğunda ChatGPT’nin en son modeli o1’i de geçti. Diğer modellerin maliyetinin çok daha az bir kısmıyla başarılan bu etkileyici performans, modelin yarı açık kaynaklı yapısı ve önemli ölçüde daha az GPU üzerinde eğitilmiş olmasıyla birlikte yapay zeka uzmanlarını hayrete düşürüyor.
OpenAI’nin stratejik ortağı Microsoft’un CEO’su Satya Nadella, 22 Ocak’ta Dünya Ekonomik Forumu’nda yaptığı açıklamada, “Çin’deki gelişmeleri çok ama çok ciddiye almalıyız,” dedi.
Öte yandan bu yeni modelin ne kadarının yararlı bilimsel ve teknik uygulamalara dönüşeceği veya DeepSeek’in modelini kıyaslama testlerinde başarılı olacak şekilde kasten eğitip eğitmediği henüz belli değil.