BridgeMind AI twierdzi, że Claude Opus 4.6 od firmy Anthropic został potajemnie pogorszony po ponownym teście benchmarku halucynacji. Wiralowy wpis spotkał się jednak z ostrą krytyką z powodu wadliwej metodologii.
To twierdzenie wywołało szeroką debatę, czy firmy AI po cichu obniżają jakość płatnych modeli, aby zmniejszyć koszty.
BridgeMind twierdzi, że halucynacje wzrosły o 98%
Zespół BridgeMind, twórcy benchmarku BridgeBench dla kodowania, opublikował informację, że Claude Opus 4.6 spadł z drugiego na dziesiąte miejsce na ich liście halucynacji. Zgodnie z ich danymi, dokładność spadła z 83,3% do 68,3%.
„Claude Opus 4.6 został osłabiony. BridgeBench właśnie to udowodnił. W zeszłym tygodniu Claude Opus 4.6 zajął 2. miejsce w benchmarku halucynacji z dokładnością 83,3%. Dziś Claude Opus 4.6 został ponownie przetestowany i spadł na 10. miejsce z dokładnością tylko 68,3%”, napisali.
Wpis przedstawił to jako dowód na „zmniejszenie poziomu rozumowania”. Jednak bliższa analiza danych pokazuje inny obraz.
Krytycy twierdzą, że porównanie jest zasadniczo błędne
Według informatyka Paula Calcrafta, takie twierdzenie to „niezwykle zła nauka”. Podkreśla on istotny problem w metodologii.
„Niezwykle zła nauka. Przetestowaliście Opus dziś na 30 zadaniach, poprzedni wynik pochodził tylko z *6* zadań. Wyniki dla tych 6 wspólnych zadań: dziś 85,4%, wcześniej 87,6%. Różnica wynika głównie z *jednej* fałszywej odpowiedzi bez powtórzeń – to czysty przypadkowy szum statystyczny”, skomentował Calcraft.
Pierwotnie wysoki wynik pochodził tylko z sześciu benchmarkowych zadań. Nowy test rozszerzył to na 30 zadań.
Na sześciu wspólnych zadaniach wydajność była niemal identyczna – spadła tylko z 87,6% do 85,4%.
Ta niewielka różnica wynika głównie z jednej dodatkowej halucynacji w jednym zadaniu. Bez powtórzonych testów to mieści się w standardowym zakresie statystycznej zmienności dla modeli AI.
Duże modele językowe nie są deterministyczne i pojedyncza zła odpowiedź przy małej próbie może wyraźnie zmienić wyniki.
Szersza frustracja napędza tę narrację
Mimo to wpis wywołał silne emocje. Od premiery w lutym 2026 r. Claude Opus 4.6 zmaga się z ciągłymi skargami na pogorszenie jakości.
Programiści zgłaszają krótsze odpowiedzi, słabsze wykonywanie instrukcji i mniejszą głębię rozumowania w godzinach szczytu.
Częściowo wynika to z zamierzonych zmian produktu. Anthropic wprowadził adaptacyjne sterowanie rozumowaniem, które pozwala modelowi samodzielnie zarządzać limitem wysiłku. Domyślnie ustalono poziom średni, co zwiększa efektywność kosztem głębi.
Niezależna analiza ponad 6800 sesji Claude Code wykazała, że głębia rozumowania spadła o około 67% do końca lutego.
Stosunek odczytu plików przed edycją kodu zmniejszył się z 6,6 do 2,0. To sugeruje, że model próbował poprawiać kod, który ledwo przeglądał.
Co to oznacza dla użytkowników AI
To pokazuje rosnące napięcie w branży AI. Firmy optymalizują modele pod kątem kosztów i skali po premierze, a zaawansowani użytkownicy oczekują stałej, wysokiej wydajności. Ten rozdźwięk pogłębia utratę zaufania.
Dostępne dane z BridgeBench nie potwierdzają celowego pogorszenia modelu. Benchmark porównuje nieporównywalne próbki, a wyniki na wspólnych zadaniach są niemal identyczne.
Jednak sama frustracja nie jest całkiem bezpodstawna. Adaptacyjne sterowanie rozumowaniem i optymalizacja na poziomie usługi faktycznie zmieniły zachowanie Claude Opus 4.6 dla użytkowników. Dla deweloperów polegających na stabilnych wynikach te różnice mają znaczenie.
Anthropic nie opublikował oficjalnego stanowiska dotyczącego zarzutów BridgeBench według stanu na 13 kwietnia.





