Udostępnij

Viralny post na BridgeBench twierdzi, że Claude Opus 4,6 został „osłabiony”, krytycy nazywają to złą nauką

Wybierz nas w Google

Napisane i zredagowane przez

Lockridge Okoth

Opublikowano:13 kwiecień 2026, 14:13 CET

Wirusowy post na X twierdził, że halucynacje Claude Opus 4.6 wzrosły o 98%.
Krytycy zauważyli, że porównanie wykorzystywało różne rozmiary testów, a nie równe punkty odniesienia.
Analiza tego samego zadania pokazuje minimalną zmianę, mieszczącą się w normalnej zmienności AI.

#Sekcja AI

#firmy AI

BridgeMind AI twierdzi, że Claude Opus 4.6 od firmy Anthropic został potajemnie pogorszony po ponownym teście benchmarku halucynacji. Wiralowy wpis spotkał się jednak z ostrą krytyką z powodu wadliwej metodologii.

To twierdzenie wywołało szeroką debatę, czy firmy AI po cichu obniżają jakość płatnych modeli, aby zmniejszyć koszty.

Sponsorowane

BridgeMind twierdzi, że halucynacje wzrosły o 98%

Zespół BridgeMind, twórcy benchmarku BridgeBench dla kodowania, opublikował informację, że Claude Opus 4.6 spadł z drugiego na dziesiąte miejsce na ich liście halucynacji. Zgodnie z ich danymi, dokładność spadła z 83,3% do 68,3%.

„Claude Opus 4.6 został osłabiony. BridgeBench właśnie to udowodnił. W zeszłym tygodniu Claude Opus 4.6 zajął 2. miejsce w benchmarku halucynacji z dokładnością 83,3%. Dziś Claude Opus 4.6 został ponownie przetestowany i spadł na 10. miejsce z dokładnością tylko 68,3%”, napisali.

Wpis przedstawił to jako dowód na „zmniejszenie poziomu rozumowania”. Jednak bliższa analiza danych pokazuje inny obraz.

Krytycy twierdzą, że porównanie jest zasadniczo błędne

Według informatyka Paula Calcrafta, takie twierdzenie to „niezwykle zła nauka”. Podkreśla on istotny problem w metodologii.

„Niezwykle zła nauka. Przetestowaliście Opus dziś na 30 zadaniach, poprzedni wynik pochodził tylko z *6* zadań. Wyniki dla tych 6 wspólnych zadań: dziś 85,4%, wcześniej 87,6%. Różnica wynika głównie z *jednej* fałszywej odpowiedzi bez powtórzeń – to czysty przypadkowy szum statystyczny”, skomentował Calcraft.

Pierwotnie wysoki wynik pochodził tylko z sześciu benchmarkowych zadań. Nowy test rozszerzył to na 30 zadań.

Sponsorowane

Na sześciu wspólnych zadaniach wydajność była niemal identyczna – spadła tylko z 87,6% do 85,4%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Ta niewielka różnica wynika głównie z jednej dodatkowej halucynacji w jednym zadaniu. Bez powtórzonych testów to mieści się w standardowym zakresie statystycznej zmienności dla modeli AI.

Duże modele językowe nie są deterministyczne i pojedyncza zła odpowiedź przy małej próbie może wyraźnie zmienić wyniki.

Szersza frustracja napędza tę narrację

Mimo to wpis wywołał silne emocje. Od premiery w lutym 2026 r. Claude Opus 4.6 zmaga się z ciągłymi skargami na pogorszenie jakości.

Programiści zgłaszają krótsze odpowiedzi, słabsze wykonywanie instrukcji i mniejszą głębię rozumowania w godzinach szczytu.

Częściowo wynika to z zamierzonych zmian produktu. Anthropic wprowadził adaptacyjne sterowanie rozumowaniem, które pozwala modelowi samodzielnie zarządzać limitem wysiłku. Domyślnie ustalono poziom średni, co zwiększa efektywność kosztem głębi.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Niezależna analiza ponad 6800 sesji Claude Code wykazała, że głębia rozumowania spadła o około 67% do końca lutego.

Stosunek odczytu plików przed edycją kodu zmniejszył się z 6,6 do 2,0. To sugeruje, że model próbował poprawiać kod, który ledwo przeglądał.

Co to oznacza dla użytkowników AI

To pokazuje rosnące napięcie w branży AI. Firmy optymalizują modele pod kątem kosztów i skali po premierze, a zaawansowani użytkownicy oczekują stałej, wysokiej wydajności. Ten rozdźwięk pogłębia utratę zaufania.

Dostępne dane z BridgeBench nie potwierdzają celowego pogorszenia modelu. Benchmark porównuje nieporównywalne próbki, a wyniki na wspólnych zadaniach są niemal identyczne.

Jednak sama frustracja nie jest całkiem bezpodstawna. Adaptacyjne sterowanie rozumowaniem i optymalizacja na poziomie usługi faktycznie zmieniły zachowanie Claude Opus 4.6 dla użytkowników. Dla deweloperów polegających na stabilnych wynikach te różnice mają znaczenie.

Anthropic nie opublikował oficjalnego stanowiska dotyczącego zarzutów BridgeBench według stanu na 13 kwietnia.

Aby przeczytać najnowsze analizy rynku kryptowalut od BeInCrypto, kliknij tutaj .

Zastrzeżenie

Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.

Sponsorowane

Przeczytaj następny

Charles Hoskinson: BIP-361 nie może uratować Bitcoinów Satoshiego

Newsy

Technologia

21 godzin temu

Charles Hoskinson: BIP-361 nie może uratować Bitcoinów Satoshiego