21. 2. 2026

DARIO AMADE के 3 चौंकाने वाले खुलासे: AI BENCHMARKS अब बेमानी क्यों?

◈Tunehill

क्या आप भी सोचते हैं कि कौन सा AI model सबसे अच्छा है? Gemini 3.1 Pro जैसे नए AI models के आने से ये confusion और बढ़ गई है। असल में, X, YouTube या TikTok पर आपको हर नया hot take पुराने वाले से बिल्कुल अलग लगेगा। ऐसा क्यों हो रहा है? इसका एक technical वजह है, जो benchmarks को लेकर है।

Benchmarks क्यों बदल रहे हैं?

पहले, AI models को internet-scale data पर train किया जाता था, जिसे pre-training कहते हैं। लेकिन अब LLMs की training में सिर्फ 20% compute इसी पर खर्च होता है। बाकी 80% post-training stage पर लगता है। इसका मतलब है कि models को खास domains के लिए hone किया जाता है। जैसे, अगर किसी lab के पास आपके domain से जुड़ा data है, तो वो अपने model को उसी domain में high scores के लिए optimize कर सकते हैं। इससे आपका अनुभव दूसरे benchmarks से काफी अलग हो सकता है।

पहले, अगर कोई model किसी एक domain में अच्छा था, तो वो ज़्यादातर domains में अच्छा होता था। लेकिन अब ऐसा नहीं है। Anthropic के CEO, Dario Amade का कहना है: "दूसरे stage, RL stage पर खर्च होने वाली राशि सभी players के लिए कम है।" ये बात बहुत अहम है। इसका नतीजा ये है कि अब model की performance उस domain पर निर्भर करेगी जिसमें आप उसे इस्तेमाल कर रहे हैं। उदाहरण के लिए, Epoch AI के chess puzzle benchmark में, 5 महीने पहले Claude Sonnet 4.5 ने 12% score किया था। लेकिन Claude Opus 4.6 ने, 5 महीने बाद, सिर्फ 10% score किया। ऐसा नहीं है कि Claude Opus 4.6 खराब है; ये coding में एक ज़बरदस्त model है। लेकिन ये दिखाता है कि domain specialization कितनी ज़रूरी हो गई है।

Gemini 3.1 Pro की कहानी: क्या ये सच में इतना अच्छा है?

Gemini 3.1 Pro एक incredible model है। ज़्यादातर domains में ये Claude Opus 4.6 या GPT 5.3 जैसे models के साथ competitive रहेगा। लेकिन आपको परेशानी हो सकती है अगर आप इसे coding benchmarks, scientific reasoning या academic reasoning में बेहतर देखें, और फिर GDP vow जैसे expert tasks के broad measure में ये Claude Opus 4.6 और GPT 5.2 से पीछे रह जाए। इसकी बड़ी वजह वही domain specialization है जिसकी बात हमने पहले की।

लेकिन कुछ और बातें भी हैं। ARC AGI 2 में Gemini 3.1 Pro ने 77.1% score किया, जो Claude Opus 4.6 (69%) से काफी आगे है। Google DeepMind के CEO, Demis Hassabis ने भी इसे अपने Twitter post में highlight किया था। लेकिन famous AI researcher Melanie Mitchell ने बताया कि अगर encoding को numbers से symbols में बदला जाए, तो accuracy कम हो जाती है। दरअसल, models input में colors को represent करने वाले numbers का इस्तेमाल करके unintended arithmetic patterns ढूंढ लेते हैं, जिससे उन्हें accidental correct हल मिल जाते हैं। इसे cheating नहीं कह सकते, क्योंकि models सही हल ढूंढने के लिए हर shortcut का इस्तेमाल करते हैं। लेकिन ये दिखाता है कि benchmark में सवाल कैसे set किया जाता है, ये बहुत मायने रखता है।

ARC AGI test के creator, Francois Chalet का कहना है कि advanced agentic coding असल में machine सीखते हुए है। एक goal दिया जाता है, और coding agents तब तक iterate करते हैं जब तक goal पूरा न हो जाए। इसका नतीजा एक blackbox model होता है। आपके पास codebase तो होता है जो task करता है, लेकिन आप उसकी internal logic को ज़रूरी नहीं कि inspect करें। जैसे Gemini 3.1 Arc AGI में specious patterns ढूंढ सकता है, वैसे ही आपके codebase में Claude या CodeX spec पर overfit कर सकता है। Gemini 3.1 Pro ने live codebench pro में record ELO hit किया है, जो competitive coding समस्या से जुड़ा है। ये अच्छी बात है, लेकिन optimization dial को ज़्यादा घुमाने से दिक्कत भी हो सकती है।

इंसान के बराबर AI? Simple Bench का बड़ा खुलासा!

अगर आपको Gemini 3.1 Pro पर शक हो रहा है, तो मैं आपको इसकी तारीफ भी करूँगा। मेरे private Simple Bench test में, जो trick सवाल और common sense reasoning का test है, इसने Gemini 3 Pro का अपना ही record तोड़कर 79.6% score किया। ये score इंसानी average baseline के margin of error के अंदर है। ये एक बहुत अहम threshold है। अब आप ऐसा कोई text-based test नहीं बना सकते जिसमें एक average इंसान, एक frontier model से साफ तौर पर बेहतर perform करे। मैं tokenization bugs की बात नहीं कर रहा, बल्कि एक fair text-based test की बात कर रहा हूँ।

हालांकि, Simple Bench में भी models shortcuts लेते हैं। मैंने देखा है कि multiple choice सवाल में, अगर एक answer 'zero' होता है, तो model को लगता है कि ये एक trick सवाल हो सकती है। अगर आप multiple choice सवाल हटा दें और models को open-ended answers देने को कहें, तो scores अभी भी impressive होते हैं, लेकिन 15 से 20 प्रतिशत कम हो जाते हैं। ये दिखाता है कि models shortcuts लेते हैं, और सवाल पूछने का तरीका performance को बदल सकता है। लेकिन, performance ज़ीरो नहीं होती। Frontier models वाकई बेहतर हो रहे हैं, उन domains में भी जिन पर उन्हें सीधे train नहीं किया गया था।

लेकिन एक और बड़ी दिक्कत है: hallucinations या factual accuracy। Model providers अब hallucinations के बारे में ज़्यादा बात नहीं करते, क्योंकि उन्हें लगता था कि ये समस्या solve हो चुकी है। Google की release chart में भी hallucinations का सीधा measure नहीं था। हालांकि, Artificial Analysis के omniscience benchmark में, Gemini 3.1 Pro दूसरे models को पीछे छोड़ता हुआ दिखता है। Gemini का top score positive 30 है, जबकि Claude Opus 4.6 का positive 11 और Claude Sonnet 4.6 का -4 है। लेकिन, अगर हम सिर्फ incorrect answers देखें और models ने गलत answer या explanation hallucinate किया या answer देने से मना कर दिया, तो Gemini 3.1 के 50% incorrect answers hallucinations होते हैं। Claude Sonic 4.6 का 38% बेहतर है, और चीनी model GLM 5 का 34% और भी बेहतर है। तो, hallucinations अभी भी एक unsolved समस्या है।

क्या AI खुद सीखेगा या डेटा पर निर्भर रहेगा?

Anthropic के CEO, Dario Amade ने एक ज़रूरी बात कही। उनसे पूछा गया कि Slack या browser इस्तेमाल करना जैसे RL environments की क्या ज़रूरत है, अगर models वैसे भी smarter होते रहेंगे? Amade का कहना है: "हम बहुत सारा data इसलिए इकट्ठा कर रहे हैं, ताकि हम generalize कर सकें, न कि किसी खास document या skill को cover करें।" उनके मुताबिक, अगर आप काफी सारे specialisms में specialize करते हैं, तो आप सभी specialisms में generalize कर लेंगे। इसका मतलब है कि आप AGI या super intelligence तक पहुंच सकते हैं, बिना continual सीखते हुए के, बिना आपको model को अपने domain के बारे में सिखाए।

Amade का मानना है कि मानव training data से निकालने के लिए patterns की एक limit है। अगर ऐसा है, तो Anthropic को आपके domain के data की ज़रूरत नहीं होगी। या शायद models लगभग वहां तक पहुंच जाएंगे, लेकिन उन्हें context window में आपके domain के बारे में थोड़ी और जानकारी की ज़रूरत होगी। इसलिए, वो context को और लंबा करने पर काम कर रहे हैं। Claude 4.6 अब अपने context window में 750,000 words absorb कर सकता है, और जल्द ही ये कुछ मिलियन words हो सकते हैं। शायद ये model को बाकी काम करने के लिए पर्याप्त specific context देगा, चाहे वो marketing हो, software engineering हो, या data analysis।

Amade ने coding की बात पर वापस आकर कहा कि coding agents end-to-end सब कुछ करने से continual सीखते हुए उन्हें नहीं रोक रही है। वे लगातार बेहतर हो रहे हैं। उन्होंने आपके codebase पर train नहीं किया, फिर भी वे इसे सुधारने में आपसे बेहतर थे। ये सवाल कि आपको कितने अलग-अलग domains और subdomains पर train करने की ज़रूरत है, बनाम generalized patterns पर, 2026 और 2027 के central सवाल में से एक होगा।

एक सच्चे benchmark की तलाश में, labs खुद ऐसे benchmarks बनाने के लिए सबसे ज़्यादा incentivize होते हैं। क्योंकि तब वे verifiable rewards के साथ reinforcement सीखते हुए कर सकते हैं। लेकिन छोटे teams के लिए ऐसे benchmarks बनाना मुश्किल है जो real-world performance को objectively capture कर सकें। इसलिए, ज़्यादातर benchmarks अब labs खुद बनाते हैं, जिससे उनमें पूर्वाग्रह आ सकता है। वैसे, एक truly objective benchmark भविष्य की forecasting है। Metaculus ने देखा है कि models की predictive performance काफी बढ़ रही है, और ये एक average इंसानी forecaster के level के करीब है। लेकिन यहां भी gaming की समस्या आ सकती है, जब open claw agents prediction market में पैसे कमाने के लिए system को game कर सकते हैं।

और आखिर में, speed भी एक benchmark है। कुछ models इतनी तेज़ी से जवाब देते हैं कि पूरा app एक millisecond में बन सकता है। फिर realism भी है। China के ByteDance का Seed Dance 2.0 video generation में एक बड़ा step up है, जो VO 3.1 या Sora 2 से बेहतर है।

आप क्या सोचते हो? टिप्पणी में बताओ! 🎧 full interview सुनने के लिए ऊपर Play button दबाओ! अगर ये जानकारी अच्छी लगी तो साझा करो ज़रूर करो।