ru

Free

Егор Толстой,Стас Цыганов,Евгений Кателла, Екатерина Петрова

Podlodka #433 – Как оцениваются LLM

Listen in app

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.

Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka

Ведущие в выпуске:
Евгений Кателла, Егор Толстой

Полезные ссылки:

Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.co/datasets/allenai/winogrande https://huggingface.co/datasets/Idavidrein/gpqa https://lastexam.ai/ https://www.swebench.com/ https://arcprize.org/arc-agi https://github.com/t3dotgg/SnitchBench

Арена https://lmarena.ai/

Фреймворк для эвалов https://github.com/EleutherAI/lm-evaluation-harness

Бумаги https://arxiv.org/abs/2504.07825 https://arxiv.org/abs/2311.12022 https://arxiv.org/abs/2406.12045

Тех репорты с таблицами https://www.anthropic.com/news/claude-4 https://ai.meta.com/blog/llama-4-multimodal-intelligence/ https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro https://openai.com/index/introducing-o3-and-o4-mini/

Бесплатно Подкасты

1:27:43

Publisher: Podlodka
Series: Podlodka
Publication year: 2025

fb2epub

Drag & drop your files (not more than 5 at once)