| به نقل از اکوایران، نزدیک به یک سال پیش، Deepseek که یک استارت آپ ناشناخته چینی بود مثل یک شوک ناگهانی وارد صحنه رقابت مدل های هوش مصنوعی شد و بازار سهام آمریکا را تکان داد؛ نه فقط به خاطر یک مدل جدید، بلکه به خاطر اینکه یک باور ریشه دار را هدف گرفت؛ این ایده که برای ساخت مدل های پیشرو قدرتمند، ناچارید مدام توان محاسباتی بیشتر فراهم کنید، از تراشه های گران قیمت بیشتر استفاده کنید و هزینه ها را تا بی نهایت بالا ببرید. تهدیدی عمیق اما مقطعی آن روزها کافی بود نام یک استارت آپ نسبتاً ناشناخته چینی در کنار واژه هایی مثل کارایی بالا با توان محاسباتی کمتر دیده شود تا بازارها به حالت اضطراب بروند. نتیجه هم خیلی فوری مشخص شد بطوریکه سهام Nvidia حدود 17 درصد سقوط کرد و نزدیک به 600 میلیارد دلار از ارزش بازارش دود شد و از دست رفت؛ Broadcom نزدیک 17 درصد پایین آمد و ASML در همان یک روز 7 درصد ریزش کرد. به تعبیر یکی از تحلیل گران ارشد Gartner، اصل ماجرا قیمت گذاری مجدد دارایی ها و سهام بود چون Deepseek با مدل R1، باورهای جهانی درباره منحنی هزینه مدل های پیشرو و توان رقابتی چین را کلا تغییر دارد و مستقیما به روایت محبوب صنعت نیمه هادی ها و ابرپلتفرم ها ضربه زد. اما داستان همین جا تمام نشد و شاید نکته دقیقاً همین باشد. 11 ماه بعد، همان شرکت های آمریکایی که روزی زیر فشار موج خبری و ترس سرمایه گذاران از ارائه مدل جدید چینی لرزیده بودند، نه تنها دوباره سر پا ایستادند، بلکه رشد کردند. انویدیا در اکتبر به نخستین شرکت 5 تریلیون دلاری تبدیل شد؛ سهام Broadcom در 2025 حدود 49 درصد بالا رفت و ASML هم 36 درصد رشد کرد. چرا بازار بعد از شوک اولیه واکنش مشابهی نشان نداد؟ اگرچه Deepseek در ژانویه 2025 بازار را به هم ریخت، اما با ارائه 7 ورژن جدید در ماه های بعدی مشخص شد که بازار لزوماً قرار نیست با هر حرکت Deepseek دوباره منفجر شود. اینجا یک پرسش جدی مطرح می شود که چرا پس از آن شوک اولیه، بازار دیگر همان واکنش را تکرار نکرد. بخشی از پاسخ به ماهیت انتشارهای Deepseek برمی گردد. پس از ژانویه، این شرکت چندین به روزرسانی برای مدل های V3 و R1 عرضه کرد، اما مدل کاملاً جدیدی معرفی نشد. همین موضوع باعث شد بازار این تحولات را بیشتر ادامه و تثبیت مسیر قبلی تلقی کند، نه آغاز یک موج تازه. به بیان ساده، این پیشرفت ها قابل اعتنا بودند، اما عنصر غافلگیری شوک ژانویه را نداشتند. از سوی دیگر، ترسی که آن روزها بازار را لرزاند این بود که اگر Deepseek بتواند با توان محاسباتی کمتر به نتایجی نزدیک به بهترین ها برسد، تقاضا برای زیرساخت هوش مصنوعی کاهش پیدا می کند و در نتیجه درآمد شرکت هایی مانند انویدیا تحت فشار قرار می گیرد. اما در عمل چنین سناریویی رخ نداد. به گفته تحلیل گران، در سال 2025 نه تنها نشانه ای از کاهش هزینه کرد دیده نشد، بلکه برای سال 2026 و سال های پس از آن حتی انتظار می رود سرمایه گذاری ها شتاب بگیرد. این یعنی صنعت با وجود روایت های مربوط به کارایی، همچنان به دنبال گسترش مقیاس و تقویت زیرساخت است. در این میان، یک محدودیت مهم نیز وجود دارد که سایه اش را احساس می کنیم و آن توان محاسباتی است. کارشناسان می گویند چین در دو سال اخیر به دلیل محدودیت های آمریکا در فروش تراشه ها، از نظر دسترسی به محاسبات پیشرفته تحت فشار قرار گرفته است. این مسئله می تواند توضیح دهد چرا Deepseek هنوز مدل پرچمدار بعدی خود را معرفی نکرده است؛ چرا که هرچقدر هم پژوهش های الگوریتمی و خلاقیت در معماری داشته باشید، در نهایت برای آموزش مدل های پیشرفته به توان محاسباتی واقعی نیاز دارید. گزارش هایی هم از تأخیر در انتشار مدل R2 منتشر شده که از دشواری های آموزش روی تراشه های بومی هواوی تا کمبود تراشه های پیشرفته و حتی نارضایتی از عملکرد مدل ها حکایت دارد. خود Deepseek نیز تلویحا پذیرفته است که در مقایسه با برخی مدل های پیشرفته متن بسته آمریکایی مثل Gemini گوگل، از جمله از نظر منابع محاسباتی، با محدودیت هایی روبه رو است. از آن طرف، غرب هم در این بین بیکار ننشست. انتشار مدل های جدید و پیشرفته از سوی شرکت های پیشرو از OpenAI تا Anthropic و گوگل، به بازار این پیام را داد که رقابت همچنان داغ است و رهبری آمریکا دست کم فعلاً حفظ شده است. OpenAI از GPT-5 رونمایی کرد؛ Anthropic مدل Claude Opus 4.5 را منتشر کرد و گوگل نیز در ماه نوامبر Gemini 3 را عرضه کرد. وقتی هر چند ماه یک مدل جدید می آید و توانمندی ها به صورت تدریجی بهتر می شود، نگرانی ها از کاهش ارزش و استانداردسازی ناگهانی فناوری کمتر می شود؛ بازار احساس می کند هنوز فاصله و رقابت معنی دار وجود دارد. بازگشت Deepseek و نگرانی های آینده Deepseek ، پس از آنکه اوضاع کمی آرام تر شد، دوباره توانسته است توجهات زیادی را به خود جلب کند، اما این بار نه با معرفی یک مدل پرچمدار، بلکه با انتشار یک مقاله فنی جدید که فضای صنعت هوش مصنوعی را به تکاپو وادار کرده است. این شرکت در شب سال نو میلادی مقاله ای منتشر کرد که در آن روشی نوین برای آموزش مدل ها که منجر به کاهش هزینه می شود معرفی شده است. در این مقاله که یانگ ون فِنگ، بنیان گذار Deepseek، یکی از نویسندگان آن است روشی به نام Manifold-Constrained Hyper-Connections یا mHC معرفی شده است. هدف این روش این است که مدل ها مقیاس پذیرتر شوند، بدون اینکه در فرآیند بزرگ تر شدن دچار ناپایداری یا کاهش عملکرد شوند. با بزرگ تر شدن مدل های زبانی، معمولاً پژوهشگران تلاش می کنند بخش های مختلف مدل بتوانند اطلاعات بیشتری را با هم به اشتراک بگذارند تا عملکرد بهتری داشته باشند. اما طبق این مقاله، این کار می تواند باعث ناپایداری اطلاعات و مشکلاتی در آموزش مدل شود. Deepseek در پاسخ به این مشکل، با استفاده از mHC، امکان ارتباط داخلی غنی تری را فراهم کرده، اما به شکلی کنترل شده که هم پایداری آموزش حفظ شود و هم کارایی محاسباتی در هنگام مقیاس پذیری مدل ها از دست نرود. لیان سو، تحلیل گر ارشد حوزه هوش مصنوعی، این رویکرد را پیشرفتی چشمگیر دانست. او معتقد است که Deepseek با ترکیب چندین تکنیک مختلف توانسته هزینه های اضافی آموزش مدل ها را به حداقل برساند. سو همچنین اشاره کرد که حتی اگر هزینه ها اندکی افزایش یابد، این روش می تواند عملکرد مدل ها را به طور قابل توجهی بهبود بخشد. این تحلیل گر درباره مقاله جدید گفت: اینکه شرکت حاضر است یافته های مهم خود را با صنعت به اشتراک بگذارد و در عین حال با مدل های جدید همچنان ارزش منحصربه فردی ارائه کند، نشان دهنده اعتمادبه نفس تازه ای در صنعت هوش مصنوعی چین است. او افزود که رویکرد باز بودن و انتشار عمومی، به عنوان یک مزیت راهبردی و عامل تمایز کلیدی تلقی می شود. سو همچنین این مقاله را به عنوان یک بیانیه از توانمندی های داخلی شرکت خواند. او معتقد است که Deepseek با بازطراحی کامل فرآیند آموزشی خود از ابتدا تا انتها، این پیام را منتقل می کند که این شرکت می تواند از روش های سریع برای بررسی مدل ها در کنار ایده های پژوهشی غیرمتعارف برای توسعه و بهبود مدل های خود استفاده کند. سو همچنین پیش بینی کرد که این رویکرد می تواند اثر دومینویی در صنعت ایجاد کند، به این معنا که رقبا نیز از این ایده برای توسعه مدل های خود بهره خواهند برد. حالا پرسش دوباره به نقطه هیجان برمی گردد؛ آیا این مقاله پیش درآمد رونمایی بزرگ بعدی است؟ برخی می گویند با توجه به سابقه Deepseek، چنین معماری هایی معمولاً روی کاغذ نمی مانند و به مدل بعدی راه پیدا می کنند. برخی دیگر محتاط ترند و احتمال می دهند به جای یک R2 مستقل، این فناوری در ستون فقرات نسل بعدی مدل های Deepseek مثل V4 استفاده شود. در عین حال، یک عامل تعیین کننده دیگر نیز وجود دارد: توزیع و دسترسی. حتی اگر Deepseek از نظر فنی پیشرفت کند، هنوز در بازارهای غربی به اندازه بازیگران بزرگ مثل OpenAI و گوگل شبکه توزیع و نفوذ ندارد؛ و همین می تواند شدت موج های رسانه ای و صنعتی را محدود کند. با این همه، یک چیز واضح است، Deepseek دیگر یک خبر گذرا نیست. ژانویه 2025 نشان داد که یک بازیگر تازه نفس می تواند روایت های مسلط را بلرزاند؛ و مقاله جدید mHC هم یادآوری می کند که این شرکت هنوز قصد ندارد آرام بگیرد. شاید بازار این بار مثل آن روزهای پرهیجان واکنش نشان ندهد اما اگر Deepseek واقعاً بتواند گلوگاه های محاسباتی را دور بزند و معماری های تازه را وارد مدل های جدید کند، لحظه بعدی می تواند نزدیک تر از چیزی باشد که خیلی ها فکر می کنند. |