Retour à Informations sur l’IA
Évaluation du même sujet de l'ICPC 2025 : score complet d'OpenAI, médaille d'or de DeepMind : qu'est-ce que cela signifie ?

Évaluation du même sujet de l'ICPC 2025 : score complet d'OpenAI, médaille d'or de DeepMind : qu'est-ce que cela signifie ?

Informations sur l’IA Admin 112 vues

Français Le système de raisonnement d'OpenAI a obtenu une note parfaite de 12/12 sur le même problème lors de la finale mondiale de l'ICPC 2025, se classant premier selon le règlement officiel. Gemini 2.5 de DeepMind a également obtenu la médaille d'or. L'ICPC est une compétition algorithmique de haute intensité, et les résultats démontrent que les modèles de raisonnement généraux se rapprochent des meilleures performances humaines dans la recherche complexe et la mise en œuvre d'ingénierie. Pour des sources détaillées, voir les références à la fin de cet article. I. Aperçu et implications de l'événement 1. Résultats et système de compétition : La valeur d'un score ICPC complet La finale mondiale de l'ICPC a duré 300 minutes et comportait 12 problèmes. Seules les réponses entièrement correctes ont été notées, et le classement était basé sur le temps. Le système de raisonnement d'OpenAI a obtenu une solution parfaite sur le même problème, réussissant la plupart d'entre eux du premier coup. DeepMind a obtenu la médaille d'or sur les 12 problèmes, validant une fois de plus les capacités algorithmiques et d'ingénierie intégrées de son modèle à grande échelle.

2. Attention aux limites : il ne s’agit pas d’une « victoire immédiate ».

Il s’agit d’une évaluation hors ligne de la même question, et OpenAI et DeepMind ne figurent pas sur la liste des équipes participantes officielles. La véritable compétition comprend également des dimensions telles que la collaboration en équipe, la récupération des pannes et la gestion du stress, et l’IA doit encore faire l’objet d’une vérification systématique sur ces aspects.

(1) Points clés de la compétition

Le temps total est fixe et les types de questions couvrent la théorie des graphes, la théorie des nombres, la géométrie et la structure des données, avec un taux de tolérance aux erreurs extrêmement faible.

(2) Détails des performances du modèle

OpenAI a répondu au plus grand nombre de questions du premier coup, et les questions les plus difficiles ont été acceptées après plusieurs soumissions. DeepMind a démontré des stratégies uniques pour certaines questions difficiles.

(3) Importance pour l'industrie

De l'agence de code à l'ingénierie de la recherche scientifique, le raisonnement et la recherche au niveau de la concurrence peuvent être transférés à des scénarios à haute valeur ajoutée tels que la localisation des défauts, la résolution de contraintes et la vérification automatisée.


II. Transformer le « raisonnement au niveau de la concurrence » en productivité

1. Méthode d'évaluation : Alignement de l'ensemble d'entreprise Règles ICPC

Construire un ensemble d'évaluation d'entreprise couvrant la limite de temps, la mémoire et la prouvabilité, adopter une forte contrainte et une stratégie de pénalité consistant à « n'accorder que la note maximale » pour mesurer la stabilité et le chemin de secours du modèle sur des problèmes réels difficiles.

2. Ingénierie en boucle fermée : Agent + chaîne d’outils + exécution en sandbox

Introduire des modèles de décomposition de problèmes, des tests différentiels uniques et une réparation minimale des modifications, combinés à un sandbox restreint et à des journaux auditables pour garantir la reproductibilité et la traçabilité.

(1) Décomposition et planification des problèmes

Normaliser l’analyse de la signification des problèmes, la construction d’échantillons et l’énumération des limites.

(2) Génération de code et auto-tests

Compilation intégrée, régression d’échantillons et nouvelle tentative d’échec ; introduire le vote multi-solutions pour améliorer la robustesse.

(3) Ressources et sécurité

Limiter le temps, la mémoire et les appels système pour éviter les accès non autorisés et l’épuisement des ressources.

a. Contrôle des coûts

Mettre en cache les sous-tâches courantes et les résultats de recherche pour réduire la surcharge d’inférence répétée.

b. Indicateurs de fiabilité

Utilisez le taux de réussite, le temps de pénalité et le nombre de nouvelles tentatives comme scores de santé de base.

c. Niveaux de gris et restauration

Commutateurs de modèle prédéfinis et alertes de quota pour réduire les fluctuations imprévisibles.


 Foire aux questions (Q&R)

Q : OpenAI a-t-il « officiellement gagné » ?

R : Non. Il s’agit d’une évaluation hors ligne du même problème ICPC, et non d’un classement officiel sur site ; Cependant, un score de 12/12 est très précieux selon les règles de l'ICPC.

Q : Comment Gemini 2.5 de DeepMind se compare-t-il au système de raisonnement d'OpenAI ?

R : Gemini 2.5 atteint le niveau de la médaille d'or et excelle sur les problèmes individuels, mais son nombre global de problèmes résolus est inférieur au score parfait du système de raisonnement d'OpenAI, démontrant un raisonnement et une exécution technique solides.

Q : Quelles leçons les entreprises peuvent-elles tirer des défis de l'ICPC ?

R : Des contraintes de temps strictes et une notation à tolérance zéro obligent les systèmes à posséder une planification robuste, une vérification rapide et des capacités de correction automatique des erreurs, répondant précisément aux exigences de fiabilité et d'auditabilité des environnements de production.

Q : Comment pouvons-nous vérifier rapidement si un modèle mérite d'être migré ?

R : Nous pouvons d'abord construire un ensemble d'évaluation « ICPC-isé » en utilisant un petit échantillon d'applications métier pour observer la cohérence factuelle, la latence et le taux de reprise manuelle. Si elle surpasse systématiquement la ligne de base existante, nous pouvons alors étendre la couverture progressive.

Système de raisonnement OpenAI Évaluation de la même question de l'ICPC Solutions complètes ICPC12 Performance de la partition complète de l'ICPC Finales mondiales de l'ICPC Évaluation hors ligne non officielle DeepMind Gemini 2.5 Gemini2.5 Niveau Or Modèle de raisonnement général Capacités de recherche complexes Capacités de mise en œuvre d'ingénierie Amélioration de l'inférence des liens longs Robustesse de l'utilisation des outils Capacités de recherche sur le Web Expérience de collaboration en équipe Liaison de la fonction mémoire Agent d'IA de niveau entreprise Transfert de raisonnement au niveau de la compétition Automatisation de la localisation des défauts Applications de résolution de contraintes Processus de vérification automatisé Analyse du système de concurrence de l'ICPC Théorie des graphes, géométrie et théorie des nombres Problèmes de structure de données Stratégies d'utilisation du temps et de pénalité de temps Taux de réussite du premier coup Vote à solutions multiples Régression différenciée à test unique Exécution restreinte du bac à sable Journaux vérifiables Corrections d'édition minimales Construction d'un ensemble d'évaluation d'entreprise Méthode d'évaluation de l'ICPC Alignement des tâches du monde réel Stratégies de coût et de mise en cache Mécanisme de nouvelle tentative et de secours Version et restauration des niveaux de gris Configuration de l'alarme de quota Évaluation de la cohérence factuelle Comparaison de la latence et du débit Développement collaboratif homme-machine Routage et planification des modèles Compétition d'algorithmes de haute intensité Pratique du transfert des questions de concours Liste d'atterrissage d'entreprise L'environnement de production est reproductible Garantie de traçabilité Système d'indice de fiabilité OpenAI contre Gemini Est-ce que ça vaut la peine de migrer ?

Outils Recommandés

Plus