Depuis son lancement, o1 a un défaut majeur : il est "trop bavard".



Je voulais juste corriger un simple bug, et voilà qu'il me sort trois contextes de fond, deux ensembles de solutions plus la gestion des erreurs, le tout agrémenté de vœux de bonne chance.

J'ai juste cherché une faute de frappe à la ligne 12, et je me suis retrouvé à réviser les conventions de nommage Python en entier.

C'est la faute du RLHF. Les annotateurs ont tendance à donner des scores élevés aux réponses longues, estimant que plus de contenu semble plus professionnel.

Du coup, le modèle s'acharne à accumuler du "charabia qui semble utile", tandis que l'information vraiment pertinente se noie.

Regardez la concurrence : Claude est beaucoup plus judicieux sur ce point, il sait adapter la longueur de la réponse à la question.

Ce qui fait vraiment mal, c'est au portefeuille : o1 facture $60/1M tokens en sortie, alors que 100 tokens suffiraient pour expliquer quelque chose, mais il en balance 500, ce qui multiplie le coût par cinq.

Maintenant, il faut ajouter spécialement "code uniquement" dans chaque question, et même ça ne marche pas toujours.

L'état actuel du modèle : un QI extrêmement élevé, mais l'intelligence émotionnelle en berne, complètement incapable de savoir quand fermer son clapet.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler