Google Gemini Kuasai Puncak Klasemen LLM di ChatLMArena.ai

pada tanggal 14 November 2024, Google DeepMind memperkenalkan model Gemini terbaru mereka yang diberi nama Gemini 1114. Nama ini diambil dari tanggal peluncurannya. Hebatnya, Gemini 1114 langsung berhasil menduduki peringkat ketiga di ChatLMArena.ai.

Seminggu kemudian, tepatnya tanggal 21 November 2024, Google kembali meluncurkan model baru, yaitu Gemini 1121. Dan hasilnya Gemini 1121 langsung merebut posisi puncak, mengalahkan semua pesaingnya.

Rank (UB) Rank (StyleCtrl) Model Arena Score 95% CI Votes Organization License
1 2 Gemini-Exp-1121 1365 +8/-6 5625 Google Proprietary
1 1 ChatGPT-4.0-latest (2024-11-20) 1361 +4/-5 10658 OpenAI Proprietary
3 5 Gemini-Exp-1114 1344 +4/-5 12778 Google Proprietary
4 2 G1-preview 1334 +4/-4 27835 OpenAI Proprietary
5 7 G1-mini 1308 +3/-4 31992 OpenAI Proprietary
5 5 Gemini-1.5-Pro-002 1301 +5/-3 27336 Google Proprietary
7 10 Grok-2-08-13 1289 +4/-3 52102 xAI Proprietary
7 12 Yi-Lightning 1287 +4/-3 29336 01 AI Proprietary
7 5 GPT-4o-2024-05-13 1285 +2/-2 111745 OpenAI Proprietary
8 3 Claude 3.5 Sonnet (20241022) 1282 +4/-3 29454 Anthropic Proprietary
10 17 Athene-v2-Chat-72B 1274 +8/-6 4354 NexusFlow NexusFlow
11 18 GLM-4-Plus 1274 +5/-4 28133 Zhipu AI Proprietary

Source: Chiang, W. L., Zheng, L., Sheng, Y., Angelopoulos, A. N., Li, T., Li, D., Zhang, H., Zhu, B., Jordan, M., Gonzalez, J. E., & Stoica, I. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv preprint arXiv:2403.04132.

Fokus peningkatan pembaruan

Logan Kilpatrick, Lead product Google AI Studio, menjelaskan bahwa ada beberapa peningkatan signifikan yang dilakukan pada model Gemini terbaru ini.

  1. Pertama, kemampuan coding-nya jauh lebih baik. Sekarang, Gemini lebih jago dalam memahami dan menulis kode.
  2. Kedua, kemampuan penalarannya juga makin kuat. Gemini jadi lebih pintar dalam memecahkan masalah yang rumit dan memberikan jawaban yang lebih logis.
  3. Terakhir, Gemini juga semakin pintar dalam memahami konten visual, seperti foto, video, dan dokumen.

Cara Menggunakan

buat kamu yang ingin mencoba langsung Gemini 1114 dan 1121, kamu bisa langsung coba di Google AI Studio. Di sana, kamu bisa bereksperimen dan mencoba langsung kemampuan model-model Gemini terbaru ini.

Update Google Ai studio

Selain pembaruan model, Google AI Studio memperbarui UI nya. Ada beberapa fitur baru, seperti informasi tentang biaya penggunaan model AI, saran penggunaan model AI untuk bidang tertentu, saran AI untuk kasus tertentu, dan informasi batas pengetahuan model.

Kesimpulan

Google telah menunjukkan kemajuan pesat dalam pengembangan model Gemini mereka. Dalam waktu singkat, dua model terbaru, Gemini 1114 dan Gemini 1121, berhasil mendominasi peringkat di ChatLMArena.ai. Peningkatan signifikan pada kemampuan coding, penalaran, dan pemahaman konten visual menunjukkan komitmen Google untuk terus menyempurnakan model AI mereka.

Dengan kemampuan yang terus ditingkatkan, Gemini 1121 memberi gambaran untuk model Gemini 2 yang belum dirilis, Gemini 2 diharapkan melampaui pencapaian model sebelumnya.