لقد جربت نموذج المعاينة الجديد o1 الخاص بـ ChatGPT، ولكن لا ينبغي عليك التبديل الآن
كالفن وانكيدي / أندرويد أوثوريتي
مع المنافسة من جوجل تَوأَم ومع تزايد أهمية نماذج الذكاء الاصطناعي من شركة Anthropic، وجدت شركة OpenAI نفسها في خضم أزمة هوية. فبعد أن كانت الشركة الرائدة بلا منازع في مجال نماذج اللغات الكبيرة، تكافح الآن للحفاظ على مكانتها في القمة. وهناك نماذج جديدة مثل دردشة GPT-4o لقد نجحت شركة OpenAI في الحد من هجرة الروبوتات إلى روبوتات الدردشة المتنافسة التي تعمل بالذكاء الاصطناعي، ولكن الشركة تواجه ضغوطًا مستمرة للاستمرار في الابتكار. وقد فعلت الشركة ذلك تمامًا مع o1-preview، وهي سلسلة جديدة من نماذج الذكاء الاصطناعي تتميز بالبراعة في التفكير المعقد ومحاكاة الفكر البشري. ما مدى جودتها؟ لقد قمت باختبارها لمعرفة ذلك.
ما هو نموذج ChatGPT الجديد o1-preview؟
تعد طرازات o1-preview وo1-mini من OpenAI أحدث الطرازات المتوفرة في تشات جي بي تيتم تصميم هذه النماذج لمهام التفكير المعقدة وحل المشكلات. وكما تشير أسماؤها، فإن هذه النماذج ليست خليفة لـ GPT-4 أو أي من نماذج اللغة السابقة لـ OpenAI. في الواقع، لن يستمر GPT-4o في الوجود فحسب، بل سيظل أيضًا النموذج الافتراضي لجميع المحادثات.
على عكس النماذج السابقة التي كانت تستجيب لمطالباتك بأسرع ما يمكن، تم تصميم سلسلة o1 لقضاء المزيد من الوقت في التفكير في المشكلات، على غرار عملية التفكير لدى البشر. وهذا يضمن بطبيعة الحال دقة أكبر في المطالبات المتعلقة بالرياضيات والترميز، ولكنه مفيد أيضًا للأسئلة والمواقف الواقعية، كما سأوضح في اختباري أدناه.
سمعنا لأول مرة عن سلسلة طراز o1 في شهر يوليو، عندما رويترز أجرى مقابلات مع باحثين على دراية بمشروع داخلي سري يحمل الاسم الرمزي الفراولةكان هدف المشروع هو تطوير الذكاء الاصطناعي القادر على إجراء “بحث عميق”، بما يتماشى مع مهمة الشركة لتحقيق الذكاء الاصطناعي العام (AGI). يشير الأخير إلى نظام ذكاء اصطناعي ذكي بما يكفي للتفوق على البشر في مواضيع متعددة. كانت هناك شائعات بأن مشروع Strawberry سيصل قبل جي بي تي-5، والتي لا تزال قيد التطوير.
o1 هي أحدث عائلة نماذج من OpenAI التي يمكنها تحليل المشكلات والتفكير مثل الإنسان.
لا تزال سلسلة o1 الجديدة بعيدة كل البعد عن تحقيق الذكاء الاصطناعي العام الحقيقي – اعترف الرئيس التنفيذي لشركة OpenAI سام ألتمان بأن “o1 لا تزال معيبة، ولا تزال محدودة، ولا تزال تبدو أكثر إثارة للإعجاب عند الاستخدام الأول مقارنة بما تبدو عليه بعد قضاء المزيد من الوقت معها”. ومع ذلك، فهي قفزة كبيرة إلى الأمام من الإصدار الأقدم من ChatGPT الذي اعتقد الكثيرون أنه لن ينجح أبدًا في حل المشكلات الرياضية أو التمارين المنطقية.
في حين أن o1-preview هو أحدث طراز رائد، إلا أنه مصحوب أيضًا بـ o1-mini الأكثر رشاقة وسرعة. وجدت OpenAI أن السلسلة تتفوق في الترميز، لذلك أصدرت أيضًا طرازًا ثانيًا يمكنه إنشاء التعليمات البرمجية وتصحيح أخطائها بدقة. يستهدف o1-mini في الغالب المطورين، وهو أرخص بنسبة 80% من o1-preview.
تم اختبار o1-preview مقابل GPT-4o: هل هو أفضل حقًا؟
إذا كنت متشككًا في أن o1-preview متقدم كثيرًا عن النماذج السابقة، فهناك أخبار جيدة – يتوقف برنامج المحادثة الآلي للتفكير، وأحيانًا لمدة تزيد عن دقيقة، قبل الاستجابة. فهو يقسم المشكلات المعقدة إلى أجزاء، مما يساعده في تصحيح الأخطاء
ومع ذلك، هناك أيضًا أخبار سيئة – سلسلة o1 ليست أفضل عالميًا في جميع المجالات. على وجه الخصوص، لا يمكنها البحث في الإنترنت عن معلومات جديدة مثل طراز GPT-4o الأقدم ولا يمكنها إجراء تحليل متقدم للبيانات. لا يمكنك أيضًا تحميل الملفات والصور، مما يعني أنه سيتعين عليك تحميل كل موجه بأكبر قدر ممكن من المعلومات والسياق. حتى أن OpenAI تعترف بأن العديد من مستخدمي ChatGPT سيرغبون في الالتزام بـ GPT-4o في الوقت الحالي.
ولكن بغض النظر عن هذه التحذيرات، كيف يعمل؟ لمعرفة ذلك، طرحت مجموعة من الأسئلة المربكة والمعقدة على أفضل نموذجين من OpenAI. وفيما يلي كيفية أداء o1-preview مقارنة بـ GPT-4o.
السؤال 1: كم عدد الأرجل التي أملكها؟
لقد بدأت بسؤال سهل، حيث سألت ChatGPT عن عدد الأرجل التي سأمتلكها إذا كان لدي 4 أبقار و3 كلاب وقطتان. الإجابة هي اثنتان بكل وضوح، وهو ما طرحه GPT-4o ولكن فقط بعد أن قال إنني سأمتلك 36 ساقًا للحيوانات. وعلى النقيض من ذلك، شاهدت نموذج المعاينة o1 “يفكر” لمدة خمس ثوانٍ قبل أن يقول بشكل صحيح (وبثقة) إنني سأمتلك ساقين. كما اعترف بأن السؤال كان لغزًا.
لقد طرحت نفس السؤال على النموذج الصغير GPT-4o من OpenAI، وقد فشل فشلاً ذريعًا. لقد قال ببساطة إنني سأمتلك 38 ساقًا، وأضيف ساقي إلى عدد الحيوانات.
المطالبة 2: حساب عائد الاستثمار، مع مراعاة انخفاض قيمة العملة
نظرًا لأن الأسئلة البسيطة لا تتطلب سوى بضع ثوانٍ من التفكير، فقد قررت أن أرفع الأمور إلى مستوى أعلى. في هذه الأسئلة، طلبت من ChatGPT إيجاد الاستثمار الأفضل بين أصلين بعوائد ومخاطر مختلفة. استغرق برنامج الدردشة الآلي 11 ثانية للتفكير قبل أن يستجيب هذه المرة. ومرة أخرى، قدم الإجابة الصحيحة مع شرح كل خطوة.
ومن المثير للاهتمام أن GPT-4o توصل أيضًا إلى نفس النتيجة ولكنه لم يحسب الأرقام بمفرده. بل قام بدلاً من ذلك بإنشاء كود Python اللازم لإجراء الحسابات ونفذه عبر ميزة تحليل البيانات المتقدمة في ChatGPT. لذا فبينما كان الناتج هو نفسه، فإن التعقيد أعلى. كما أن الترميز كحل بديل لديه القدرة على الفشل بشكل مذهل، كما اكتشفت قريبًا.
السؤال رقم 3: ما هو الأفضل، شراء منزل أم استئجاره؟
إذا كنت تتجول بين الأشخاص المهتمين بالأمور المالية، فستعرف أن استئجار منزل مقابل شرائه هو موضوع مثير للخلاف بشكل كبير ويتضمن الكثير من المتغيرات، المالية وغير المالية. لحسن الحظ، يمكننا أن نطلب من ChatGPT أن يقوم بالحسابات نيابة عنا – فقد استغرق نموذج o1-preview 37 ثانية من التفكير في هذا السؤال وقسمه إلى 12 خطوة مختلفة.
لقد قدمت عدة أرقام، بما في ذلك مبلغ الدفعة المقدمة، ومعدل الفائدة، والعائد المتوقع على الاستثمار إذا استأجرت بدلاً من ذلك، والمزيد. وهذا جعل السؤال أكثر تعقيدًا – كان على ChatGPT أولاً حساب تكلفة منزل بقيمة 800000 دولار مع دفعة مقدمة بقيمة 200000 دولار. سيتم تمويل المبلغ المتبقي من خلال قرض عقاري لمدة 20 عامًا بفائدة 3.5٪. إذا استأجرت بدلاً من ذلك، فسأكون قادرًا على استثمار مبلغ 200000 دولار بالكامل في صندوق مؤشر وتوفير أي دخل إضافي بعد سداد الإيجار أيضًا.
استجاب نموذج المعاينة o1 بتفصيل للمشكلة مكون من 1000 كلمة، وخلص إلى أن صافي ثروتي سيكون أعلى بحوالي 716,620 دولارًا بعد 20 عامًا إذا استأجرت منزلًا بدلاً من شرائه.
لا يستطيع نموذج GPT-4o السابق من OpenAI مواكبة o1-preview في مهام التفكير المتقدمة.
لقد أدى إدخال نفس الموجه إلى GPT-4o إلى نتيجة مخيبة للآمال إلى حد كبير. حاول النموذج إنشاء وتشغيل كود Python لحل هذه المشكلة، لكنه فشل مرتين قبل أن ينجح في المحاولة الثالثة. وحتى في تلك المحاولة، استجاب بشكل غير صحيح واقترح عليّ توفير المال بشراء منزل بدلاً من ذلك. ولم يعترف بالخطأ إلا عندما أشرت إلى وجود تناقض في حساباته.
نظرًا لوجود العديد من المتغيرات الأخرى التي قد تكون متضمنة، فقد طلبت أيضًا من o1-preview أن يأخذ في الاعتبار عوامل مثل ارتفاع قيمة العقار وتكاليف الصيانة والضرائب إذا اشتريت منزلًا بالإضافة إلى زيادة محتملة بنسبة 3% في الإيجار المستحق كل عام. هذه المرة، استغرق الأمر 142 ثانية للتفكير قبل الرد باستنتاج معقول، وهو ما أعتقد أنه مثير للإعجاب للغاية.
كيفية استخدام نماذج o1-preview وo1-mini الخاصة بـ ChatGPT
كما قد تكون خمنت، تتطلب سلسلة طرازات o1 كميات هائلة من قوة الحوسبة. ونظرًا لأن ChatGPT نفسها كانت تُشاع أنها غير مربحة منذ إصدارها في عام 2022، فليس من المستغرب أن تغلق OpenAI معاينة o1 خلف جدار الدفع. بعبارة أخرى، ستحتاج إلى اشتراك ChatGPT Plus لاختيار أحدث طراز من القائمة المنسدلة الموضحة أعلاه.
في الواقع، هذا النموذج مكلف للغاية لدرجة أن OpenAI فرضت أيضًا حدًا أقصى صارمًا يبلغ 50 رسالة في الأسبوع بالإضافة إلى جدار الدفع الشهري البالغ 20 دولارًا. بمجرد استنفاد هذا الحصة، فإن خيارك الوحيد هو الانتظار أو الدفع مقابل حساب ChatGPT Plus ثانٍ. فرضت OpenAI مثل هذه الحدود السعرية في الماضي، وخاصة في الوقت الذي تم فيه تقديم GPT-4 لأول مرة، لكن هذه الحالة هي الأكثر عدوانية حتى الآن.
لحسن الحظ، لا تستفيد الغالبية العظمى من مطالبات ChatGPT من قدرات التفكير التي يتمتع بها o1. وإذا كنت مبرمجًا، فإن نموذج o1-mini داخل ChatGPT متاح أيضًا للخطة المجانية بسعة محدودة.
لا، يتعين عليك دفع رسوم اشتراك ChatGPT Plus لاستخدام نموذج o1-preview. ومع ذلك، يتوفر نموذج o1-mini في المستوى المجاني بسعة محدودة.
بشكل عام، يعد نموذج o1-preview الجديد من ChatGPT مثيرًا للإعجاب للغاية ويستحق التجربة إذا كانت لديك أسئلة في الرياضيات والبرمجة. قد لا يكون الخيار الأفضل لمعظم المهام، أو حتى الغالبية العظمى من المهام، لكنه أقرب ما لدينا لمحاكاة التفكير والمنطق البشري. ومع ذلك، لن يستفيد الغالبية العظمى من المستخدمين من مهارات التفكير المنطقي المحسنة أو قدرات الرياضيات في o1-preview، لذا لا يمكنني أن أوصي بالتبديل إليه بدوام كامل. كما يعني حد الاستجابة الأسبوعي وغياب دعم تصفح الويب أنني سأستمر في استخدام GPT-4o في المستقبل. وإذا كنت تستخدم ChatGPT بضع مرات فقط كل يوم، فيمكنك بسهولة الاستغناء عن حساب مجاني.
الحيرة كما قامت ميزة Pro Search بتنفيذ التفكير متعدد الخطوات منذ بضعة أشهر وقد قدمت نتائج مبهرة في اختباراتي. إذا كنت ترغب في إلقاء نظرة على التفكير في سلسلة الأفكار باستخدام الذكاء الاصطناعي دون دفع ثمنه، فإنني أوصي بتجربته نظرًا لأنك تحصل على خمس عمليات بحث Perplexity Pro كل بضع ساعات في المستوى المجاني. لم أختبره بعد ضد OpenAI’s o1-preview وجهاً لوجه، ولكن من الواضح أن المنافسة في مجال الذكاء الاصطناعي أجبرت ChatGPT على التطور ولا أطيق الانتظار لمعرفة إلى أين يتجه بعد ذلك.