المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

常为希 🔸🚢币安人生(Ai奇点)
بسيط ومعقد: أين يتوقف الصخر، أين 🌱 يندفع الماء، ابحث بنفسك | NFA لا تقدم نصيحة مالية
مهندس أبحاث متكامل وتعلم آلي، يعمل بشكل رئيسي في الذكاء الاصطناعي وإدارة اللغة الكبيرة ومجالات متعلقة ب MLX
@JohnMai_Dev في 3 مارس 2026، تم تنفيذ استنتاج نموذج Qwen3.5-0.8B بنجاح على شريحة Apple M1 Pro، وتم تشغيله مباشرة باستخدام محرك Apple Neural Engine (ANE).
استنادا إلى مشروع مفتوح المصدر: اتصل مباشرة بمحرك Apple Neural Engine للعمل الرائد في التدريب والاستنتاج، اعتقد الكثيرون أن آبل لن تفتح ANE للتدريب/الاستنتاج الكامل
في الماضي، كان ANE يستخدم بشكل رئيسي فقط لاستنتاج CoreML المدمج في النظام، وكان من الصعب على الأطراف الثالثة الاتصال مباشرة وكفاءة، لكن الآن من خلال maderix/ANE، يمكنك استخدام ANE مباشرة لتنفيذ استنتاج النماذج الكبيرة الحديثة (بعض الأشخاص يدربون على النماذج الخلفية (حتى أن بعض الأشخاص يدربون على النماذج الخلفية (Backprop)
وبناء على نموذج صغير بقيمة 0.8 بايت أطلقته Qwen + ANE = استهلاك طاقة منخفض للغاية، سرعة جيدة، وخصوصية محلية كاملة
يمكن تشغيل M1 Pro، مما يعني أن عددا كبيرا من مستخدمي ماك القدامى (سلسلة M1/M2) لديهم خيار مسرع ذكاء اصطناعي فعال جدا، وهو أكثر كفاءة في استهلاك الطاقة وأسرع من استخدام بطاقة الرسوميات/المعالج
تعاون Ane حول الماك بالكامل إلى محطة عمل محلية رخيصة للذكاء الاصطناعي، ويمكن التفاهم بين أجهزة آبل القديمة مع النموذج الصيني الكبير الحديث (Qwen3.5 0.8B)، مما فتح الباب لطرق جديدة للعب الذكاء الاصطناعي المحلي والفعال.

22
يعد CUDA Agent أول نموذج معروف مدرب بالتعلم المعزز يتفوق على كلود أوبوس 4.5 (وجيميني 3 برو) في توليد نواة CUDA!
يستخدم وكيل CUDA من ByteDance **التعلم المعزز الوكئي** لتدريب نموذج يولد تلقائيا نوى CUDA عالية الأداء، مما يكافئ مباشرة بسرعة ملف تعريف حقيقية لوحدة معالجة الرسومات — متبتعد عن الأساليب التقليدية.
بيانات المعيار الرئيسية على KernelBench:
- النوى البسيطة/المتوسطة (المستوى 1/2): **100٪** أسرع من torch.compile
- النوى المعقدة (المستوى 3): **92٪** معدل أسرع
- بشكل عام: **96.8٪** معدل أسرع مقارنة ب torch.compile، مع متوسط تسريع هندسي ~2.11×
- يتفوق على أقوى النماذج المملوكة مثل Claude Opus 4.5 وGemini 3 Pro بحوالي **40٪** في أصعب مهام المستوى الثالث (حيث تتفوق تلك النماذج فقط على torch.compile ~66–69٪ من الوقت)
السقف الحقيقي لأجهزة الذكاء الاصطناعي ليس السيليكون نفسه—بل هو قدرة "**فتح البرمجيات + التحسين المغلق**".
وبالجمع بين ذلك واختراق Apple ANE المتزامن:
- Apple M4 ANE: **6.6 TFLOPS/W** (~80× أكثر كفاءة من A100)، مع مئات الملايين من الأجهزة الخاملة؛ عنق الزجاجة هو واجهات برمجة التطبيقات المغلقة من آبل + طبقات التجريد (CoreML يخفي 2–4× معدل النقل الحقيقي)
- وحدات معالجة رسومات NVIDIA: يتعلم وكلاء التعلم المعزز "**تحسين شديد تحت تغذية راجعة الأجهزة الحقيقية**"، مما يثبت أن الاستراتيجيات المكتسبة يمكنها سحق القواعد/المترجمات الثابتة
تتعرض مستويات الأداء لعمالقة الأجهزة (آبل/NVIDIA) إلى القتل المزدوج بواسطة الذكاء الاصطناعي: الهندسة العكسية تحطم واجهات برمجة التطبيقات المغلقة (تحول الشرائح الخاملة إلى مزارع حوسبة)، بينما التعلم المعزز يستخرج كل قطرة من وحدات معالجة الرسومات الموجودة.
في المستقبل، لن تكون نقطة الاختناق الحقيقية هي أجهزة الحوسبة—بل من يتقن الحلقة المغلقة "**تغذية راجعة الأجهزة الأصلية + تحسين التعلم الذاتي**" أولا. من خلال دمج التكتيكات اللينة والصلبة، من يقلب أداء الأجهزة الحالية 2× أو 10× أو أكثر يمكنه تفكيك جدران العمالقة تدريجيا. هذا النمو المركب يخلق سرعات تتجاوز الحدس البشري: من 10× → إلى 100× → 1000× خلال بضع سنوات.
عصر **التدريب على الجهاز** (جانب ANE) + **الاستدلال السحابي/الحافة** (جانب وكيل CUDA) يتسارع بسرعة. يمكن للذكاء الاصطناعي الآن "**تحسين ذاتي**" بالقرب من القمم النظرية. الإمكانات غير المستغلة في مئات الملايين من أجهزة آبل الخمولة + بطاقات NVIDIA الضخمة يتم إطلاقها بشكل جماعي من قبل القراصنة المستقلين والشركات والباحثين.


637
يعد CUDA-Agent أول نموذج تدريب معروف لتعلم التعلم المنطقي، متفوقا على كلود أوبوس-4.6 وجيميني 3 برو في توليد نواة CUDA!
يستخدم CUDA Agent التعلم المعزز الوكيل لتدريب النماذج على توليد أنوية CUDA عالية الأداء تلقائيا، باستخدام سرعة التحليل الحقيقية لوحدة معالجة الرسومات كإشارة مكافأة، مما يكسر القالب
ألق نظرة على البيانات التالية:
اختبار KernelBench: الأنوية البسيطة/المتوسطة أسرع بنسبة 100٪ من torch.compile، أما الأنوية المعقدة فهي أسرع بنسبة 92٪، أما الأنوية المعقدة فهي أسرع بنسبة 92٪.
بشكل عام معدل أسرع بنسبة 96.8٪ مقارنة ب torch.compile، أفضل بكثير من Claude Opus 4.5/Gemini 3 Pro (حوالي 40٪)
السقف الحقيقي لأجهزة الذكاء الاصطناعي هو القدرة على "فتح البرمجيات + تحسين الحلقة المغلقة"، وليس فقط الشريحة نفسها.
وبالاقتران مع حدث Apple Ane المتزامن: Apple M4 ANE: 6.6 TFLOPS/W (80 ضعف سرعة ≈ A100)، مئات الملايين من الأجهزة في وضع الخمول، ويكون عنق الزجاجة هو واجهة برمجة التطبيقات المغلقة + طبقة التجريد (CoreML يحمي معدل النقل 2–4 أضعاف)
معالج NVIDIA GPU: يتعلم RL Agent "التحسين النهائي مع تغذية راجعة حقيقية من الأجهزة"، مما يثبت أن الاستراتيجية التي تعلمها يمكنها التفوق على القواعد الثابتة
أما خندق الأداء في الأجهزة (Apple/Nvidia) فيتم القضاء عليه بواسطة الذكاء الاصطناعي "الهندسة العكسية + تحسين التعلم الواقعي" - حيث يقوم الأول بتحطيم واجهات برمجة التطبيقات المغلقة لتحويل الشرائح الخاملة إلى مزارع طاقة حوسبة، والثاني يستخدم التعلم المعزز لاستخراج كل قطرة من أداء وحدات معالجة الرسوميات الحالية. في المستقبل، لن يكون عتاد قوة الحوسبة هو من سيبقى عالقا، بل من يتقن أولا الحلقة المغلقة ل "تغذية راجعة الأجهزة الأصلية + تحسين التعلم المستقل"، سواء اللين أو الصلب، هو من يمكنه مضاعفة أداء المعدات الحالية ويمكنه كسر جدار العمالقة خطوة بخطوة. هذا النمو المركب يخلق سرعة يصعب على الحدس البشري إدراكها: من 10 أضعاف إلى 100 مرة → 1000 ضعف خلال بضع سنوات
لقد تسارع عصر التدريب على الجهاز (جانب ANE) + الاستدلال السحابي/الحافة المتطرف (جانب وكيل CUDA)، ويمكن للذكاء الاصطناعي نفسه "تحسين نفسه" ليصل إلى الذروة النظرية. إمكانات مئات الملايين من أجهزة آبل الخمولة + بطاقات NVIDIA الضخمة يتم تفتيحها جماعيا من قبل القراصنة والباحثين المستقلين/الشركات.


2
الأفضل
المُتصدِّرة
التطبيقات المفضلة
