"Дүйнөдөгү эң акылдуу" Grok3 сыноо

AIPU WATON GROUP (1)

Introduction

Сиз Grok3 алдын ала даярдалган моделдердин "акыркы чекити" болот деп ойлойсузбу?

Илон Маск жана xAI командасы түз эфир учурунда Grok, Grok3 акыркы версиясын расмий түрдө ишке киргизишти. Бул иш-чарага чейин, Масктын 24/7 жарнамалык хайпы менен коштолгон олуттуу көлөмдөгү маалымат Grok3 үчүн глобалдык күтүүлөрдү болуп көрбөгөндөй деңгээлге көтөрдү. Бир жума мурун Маск түз эфирде DeepSeek R1ге комментарий берип жатып: "xAI жакшыраак AI моделин чыгарганы жатат" деп ишенимдүү түрдө айткан. Түз эфирде берилген маалыматтарга караганда, Grok3 математика, илим жана программалоо боюнча эталондор боюнча учурдагы бардык негизги моделдерден ашып түштү, ал эми Маск Grok3 SpaceX'тин Марстагы миссияларына байланыштуу эсептөө иштери үчүн колдонулат деп ырастап, "үч жылдын ичинде Нобель сыйлыгынын деңгээлинде жетишкендиктерди" алдын ала айткан. Бирок булар азыр Масктын ырастоолору гана. Ишке киргизгенден кийин мен Grok3тун эң акыркы бета версиясын сынап көрдүм жана чоң моделдер үчүн классикалык трюк суроосун бердим: "Кайсысы чоңураак, 9.11 же 9.9?" Тилекке каршы, эч кандай квалификациясы же белгилерсиз, эң акылдуу делген Grok3 дагы эле бул суроого туура жооп бере алган жок. Grok3 суроонун маанисин так аныктай алган жок.

 

Бул тест тез эле көптөгөн досторунун көңүлүн бурган жана кокусунан чет өлкөлөрдө өткөн окшош тесттер Grok3тун физика/математика боюнча негизги суроолор менен күрөшүп жатканын көрсөттү: "Кайсы топ Пиза мунарасынан биринчи түшөт?" Ошентип, «жөнөкөй суроолорго жооп бергиси келбеген гений» деп күлкүлүү атка конгон.

640

Grok3 жакшы, бирок ал R1 же o1-Pro караганда жакшы эмес.

Grok3 практикада көптөгөн жалпы билим сынагында "ийгиликтерге" учурады. xAI ишке киргизүү иш-чарасынын жүрүшүндө Маск Grok3 программасын колдонуп, Path of Exile 2 оюнундагы каармандардын класстарын жана эффекттерин талдоо үчүн көрсөткөн, ал көп ойнойт деп ырастаган, бирок Grok3 берген жооптордун көбү туура эмес болгон. Түз эфир учурунда Маск бул ачык маселени байкаган эмес.

 

Бул жаңылыштык чет өлкөлүк интернет колдонуучулар үчүн Маскты оюнда "алмаштыруучуну тапканы" үчүн шылдыңдоо үчүн кошумча далилдерди гана бербестен, Grok3тун практикалык колдонмолордо ишенимдүүлүгүнө байланыштуу олуттуу тынчсызданууларды жаратты. Мындай "гений" үчүн, анын чыныгы мүмкүнчүлүктөрүнө карабастан, анын Марсты изилдөө тапшырмалары сыяктуу өтө татаал колдонуу сценарийлериндеги ишенимдүүлүгү күмөн бойдон калууда.

 

Учурда, Grok3 жума мурун кирүү мүмкүнчүлүгүн алган көптөгөн сыноочулар жана кечээ бир нече саат бою моделдин мүмкүнчүлүктөрүн сынап көргөндөрдүн бардыгы жалпы жыйынтыкка келишет: "Grok3 жакшы, бирок R1 же o1-Pro караганда жакшы эмес."

640 (1)

"Nvidia-ны бузууга" критикалык көз караш

Чыгуу учурунда расмий түрдө берилген PPTде Grok3 Chatbot Аренада "алда алдыда" экени көрсөтүлдү, бирок бул акылдуу түрдө колдонулган графикалык ыкмалар: лидер тактасындагы вертикалдык огу 1400-1300 упай диапазонундагы жыйынтыктарды гана келтирип, тесттин жыйынтыгында баштапкы 1% айырманы бул презентацияда өзгөчө мааниге ээ кылат.

640

Моделдердин иш жүзүндөгү упайларынын жыйынтыгында Grok3 DeepSeek R1 жана GPT-4.0 дан 1-2% гана алдыда, бул көптөгөн колдонуучулардын практикалык сыноолордогу тажрыйбасына туура келет, алар "эч кандай байкаларлык айырмачылыктарды" тапкан. Grok3 өзүнүн мураскорлорунан 1%-2% гана ашат.

640

Grok3 азыркы учурда жалпыга ачык сыналган бардык моделдерден жогору балл алганы менен, көпчүлүк муну олуттуу кабыл алышпайт: баары бир, xAI мурда Grok2 доорунда "упайларды манипуляциялоо" үчүн сынга алынган. Лидер тактасы жооптордун узундугу стилин жазалагандыктан, упайлар бир топ азайып, тармактын инсайдерлери "жогорку балл топтоо, бирок жөндөмү төмөн" деген феноменди көп сынга алышты.

 

Лидер тактасынын "манипуляциясы" же иллюстрациялардагы дизайн трюктары аркылуу болобу, алар xAI менен Масктын моделдик мүмкүнчүлүктөрдөгү "топтомду жетектөө" түшүнүгүнө болгон ышкысын ачып берет. Маск бул маржалар үчүн чоң бааны төлөдү: ишке киргизүү учурунда ал 200 000 H100 GPU (түз обо агымында "100 000ден ашык" деп ырастоодо) колдонгону менен мактанган жана жалпы машыгуу убактысы 200 миллион саатка жеткен. Бул кээ бирлерди бул GPU индустриясы үчүн дагы бир олуттуу жакшылык деп эсептеп, DeepSeekтин секторго тийгизген таасирин "акылсыздык" деп эсептешине алып келди. Белгилей кетчү нерсе, кээ бирлери так эсептөө күчү моделдик окутуунун келечеги болот деп ишенишет.

 

Бирок, кээ бир нетизендер DeepSeek V3 чыгаруу үчүн эки айдын ичинде 2000 H800 GPU керектөөсүн салыштырып, Grok3'тун иш жүзүндө машыгуу кубаттуулугун керектөө V3 караганда 263 эсе көп экенин эсептеп чыгышты. 1402 упай топтогон DeepSeek V3 менен Grok3 ортосундагы ажырым 100 упайдан азыраак. Бул маалыматтар жарыялангандан кийин, көптөр Grok3тин "дүйнөдөгү эң күчтүү" наамынын артында айкын маргиналдык пайдалуу эффект турганын тез түшүнүштү — күчтүүрөөк өндүрүмдүүлүктү жаратуучу чоңураак моделдердин логикасы азайып бараткан кирешелерди көрсөтө баштады.

640 (2)

"Жогорку упай топтогон, бирок жөндөмү төмөн" болсо да, Grok2 колдонууну колдоо үчүн X (Twitter) платформасынан жогорку сапаттагы биринчи тараптын кеңири көлөмдөгү маалыматтарына ээ болгон. Бирок, Grok3 тренингинде, xAI табигый түрдө OpenAI туш болгон "шыпка" туш болду — премиум окутуу маалыматтарынын жоктугу моделдин мүмкүнчүлүктөрүнүн чектүү пайдалуулугун тез ачып берет.

 

Grok3 менен Масктын иштеп чыгуучулары биринчилерден болуп бул фактыларды терең түшүнүп, аныкташса керек, ошондуктан Маск социалдык медиада колдонуучулар башынан өткөрүп жаткан версия "дагы эле бета" экенин жана "толук версиясы жакынкы айларда чыгат" деп дайыма айтып келет. Маск Grok3 өнүмүнүн менеджеринин ролун аткарып, колдонуучуларга комментарийлер бөлүмүндө кездешкен ар кандай маселелер боюнча пикир билдирүүнү сунуштады. Ал жер жүзүндөгү эң көп ээрчиген продукт менеджери болушу мүмкүн.

 

Ошентсе да, бир күндүн ичинде Grok3тин иштеши күчтүү чоң моделдерди үйрөтүү үчүн "массалык эсептөө булчуңдарына" ишенүүнү каалагандар үчүн коңгуроолорду жаратты: жалпыга жеткиликтүү Microsoft маалыматынын негизинде, OpenAIдин GPT-4 параметринин өлчөмү 1,8 триллион параметрге ээ, GPT-3 көрсөткүчүнөн он эсе көп. Ушактарга караганда, GPT-4.5 параметринин өлчөмү андан да чоң болушу мүмкүн.

 

Модель параметринин өлчөмдөрү өсүп жаткандыктан, окутуу чыгымдары да асмандап баратат. Grok3 катышуусу менен, GPT-4.5 жана башкалар параметр өлчөмү аркылуу моделдин жакшыраак иштешине жетүү үчүн "акчаны күйгүзүүнү" улантууну каалагандар азыр ачык көрүнүп турган шыпты карап чыгып, аны кантип жеңүү керектигин ойлонушу керек. Ушул тапта OpenAIдин мурдагы башкы окумуштуусу Илья Суцкевер өткөн жылдын декабрь айында "Бизге тааныш болгон алдын ала машыгуу аяктайт" деп айткан эле, бул талкууларда кайрадан жанданып, чоң моделдерди окутуунун чыныгы жолун табуу аракеттерине түрткү болду.

640 (3)

Ильянын көз карашы тармакта коңгуроо кагды. Ал жеткиликтүү жаңы маалыматтардын жакын арада түгөнүп калышын так алдын ала байкаган, бул маалыматтарды алуу аркылуу натыйжалуулукту мындан ары жогорулатууга мүмкүн болбогон кырдаалга алып келип, аны казылып алынган отундардын түгөнүшүнө салыштырган. Ал "мунай сыяктуу эле, интернетте адам тарабынан түзүлгөн мазмун чектелген ресурс" экенин белгиледи. Суцкевердин болжолунда, кийинки муун, машыгуудан кийин, "чыныгы автономияга" жана "адамдын мээсине окшош" ой жүгүртүү жөндөмүнө ээ болот.

 

Бүгүнкү күндөгү алдын ала даярдалган моделдерден айырмаланып, негизинен мазмунду дал келүүгө (мурда үйрөнүлгөн моделдин мазмунуна негизделген) келечектеги AI системалары адамдын мээсинин "ой жүгүртүүсүнө" окшош маселелерди чечүү үчүн методологияларды үйрөнүп, түзө алат. Адам негизги профессионалдык адабияттар менен предмет боюнча фундаменталдык чеберчиликке жете алат, ал эми AI чоң модели эң негизги баштапкы деңгээлдеги эффективдүүлүккө жетүү үчүн миллиондогон маалымат пункттарын талап кылат. Сөз бир аз өзгөртүлгөндө да, бул фундаменталдуу суроолор туура түшүнүлбөй калышы мүмкүн, бул моделдин чалгындоо жагынан чындап жакшырбаганын көрсөтүп турат: макаланын башында айтылган негизги, бирок чечилгис суроолор бул көрүнүштүн ачык мисалы болуп саналат.

微信图片_20240614024031.jpg1

Корутунду

Бирок, катаал күчтөн тышкары, Grok3 чындап эле тармакка "алдын ала даярдалган моделдер аягына жакындап калганын" ачып бере алса, бул талаа үчүн олуттуу кесепеттерге алып келет.

Мүмкүн, Grok3тин тегерегиндеги жинденүү акырындык менен басылгандан кийин, биз Фей-Фей Линин мисалы "белгилүү бир маалымат топтомундагы жогорку натыйжалуу моделдерди жөн гана $ 50 үчүн жөндөө" сыяктуу окуяларга күбө болобуз, акыры AGIге чыныгы жолду ачабыз.

ELV кабелдик чечим табуу

Башкаруу кабелдери

BMS, BUS, өнөр жай, прибордук кабель үчүн.

Структураланган кабель системасы

Тармак жана берилиштер, була-оптикалык кабель, патч-корд, модулдар, фасеплейт

2024 Көргөзмөлөр жана Окуяларга сереп салуу

Apr.16th-18th, 2024 Дубайда Жакынкы Чыгыш-Энергия

16-18-апрель, 2024-жыл, Москвада Секурика

9-май, 2024-жыл Шанхайда ЖАҢЫ ПРОДУКЦИЯЛАР ЖАНА ТЕХНОЛОГИЯЛАРДЫ БЕРҮҮ ОКУЯСЫ

Oct.22nd-25th, 2024 SECURITY CHINA Пекинде

19-20-ноябрь, 2024 БАЙЛАНЫШКАН ДҮЙНӨ KSA


Посттун убактысы: 2025-жылдын 19-февралына чейин