Premiera Claude 3.7 Sonnet pokazuje, że także mniejsi gracze na rynku AI mogą wprowadzić bardzo innowacyjne rozwiązania. Najnowsza propozycja Anthropic nie jest rewolucją, ale ewolucją. Oprócz znacznie zwiększonej wydajności Claude 3.7 Sonnet oferuje także tryb rozszerzonego myślenia i Claude Code – agenta AI do zadań programistycznych w trybie konsoli. Chociaż testy i benchmarki pokazują, że wciąż daleka droga do modeli ChatGPT, już teraz mówi się o tym, że Claude 3.7 Sonnet to coraz poważniejszy rywal dla giganta. Ile w tym prawdy? Zobacz naszą recenzję i wyniki testów Claude 3.7 Sonnet!

Claude 3.7 Sonnet – przełomowy model AI
Claude 3.7 Sonnet to najbardziej zaawansowany model sztucznej inteligencji stworzony przez firmę Anthropic, który zadebiutował pod koniec lutego. Poprzednia wersja, Claude 3.5 Sonnet, skutecznie konkurowała z ChatGPT-4o, oferując podobną wydajność i możliwości. Wśród użytkowników – w tym także redakcji Funkymedia – panuje przekonanie, że o ile ChatGPT lepiej sprawdza się w zaawansowanych zadaniach obliczeniowych, o tyle Claude potrafi przeprowadzać bardziej zaawansowaną analizę treści, zwłaszcza w zakresie niszowych tematyk specjalistycznych.
Claude 3.7 Sonnet to pierwszy na rynku hybrydowy model rozumowania AI, który oferuje zarówno błyskawiczne odpowiedzi, jak i rozszerzone, widoczne dla użytkownika procesy myślowe. Funkcje rozszerzonego myślenia słusznie mogą przywoływać na myśl tryb “Rozumuj” znany z ChatGPT. Architektura Claude 3.7 pozwala na podejmowanie złożonych decyzji w sposób bardziej transparentny i zrozumiały dla człowieka. Wyjątkowość Claude 3.7 Sonnet polega na tym, że integruje zaawansowane rozumowanie i szybkość odpowiedzi w jednym modelu. W dalszej części artykułu sprawdzamy, jak wyglądają poszczególne funkcje Claude AI i plasuje się wydajność modelu na tle najważniejszych rozwiązań konkurencyjnych.
Tryb rozszerzonego myślenia i wydajność Claude 3.7
Największa różnica między Claude 3.7 a wersją 3.5 jest dodany tryb rozszerzonego myślenia. Gdy tryb jest aktywny, Claude 3.7 przeprowadza serię kroków rozumowania, które są widoczne dla użytkownika. Całość do złudzenia przypomina analogiczny tryb dostępny w ChatGPT. Widać jednak kilka poważnych różnic, które przekładają się na to, że Claude może pod tym względem oferować wyższą efektywność.
Przede wszystkim tryb rozszerzonego rozumowania Claude 3.7 zwiększa dokładność modelu. Zmiana ta nie wywołuje jedynie obrazu sposobu przetwarzania promptu, ale także bezpośrednio wpływa na zdolności obliczeniowe modelu. Tym samym funkcja ta jest szczególnie przydatna przy złożonych problemach matematycznych, fizycznych, programistycznych oraz zadaniach wymagających precyzyjnego przestrzegania instrukcji.
Co więcej, użytkownicy API mają także możliwość precyzyjnego kontrolowania, jak długo Claude 3.7 może „myśleć” przed udzieleniem odpowiedzi. Na każde zapytanie możemy ustalić indywidualnie budżet tokenów, które zostaną przeznaczone na tryb rozumowania. Maksymalna wartość wynosi 128 tysięcy tokenów wyjściowych. Tym samym narzędzie stworzone przez Anthropic oferuje więcej elastyczności, umożliwiając użytkownikom balansowanie pomiędzy szybkością, kosztem a jakością odpowiedzi modelu. Z pewnością możliwości te dają ogromne pole do eksperymentowania.
Kluczowe możliwości Claude 3.7 Sonnet
Claude 3.7 Sonnet wyróżnia się zwiększoną wydajność obliczeniową i nowymi możliwościami, którymi nie dysponował poprzednik. Wszystko to sprawia, że najnowsza wersja Sonnet jest niezwykle wszechstronna i efektywna – bez względu na to, jakiego rodzaju zadań potrzebujemy, na pewno uzyskamy cenne wsparcie. Integracja standardowego trybu odpowiedzi z trybem rozszerzonego myślenia sprawia, że model świetnie adaptuje się do kontekstu danego zadania.
Nowe możliwości Claude 3.7 Sonnet obejmują:
- wykonywanie złożonych obliczeń matematycznych z widocznym procesem rozumowania i z możliwością elastycznego ustalania poziomu rozszerzonego rozumowania,
- złożoną analizę i generowanie kodu w różnych językach programowania,
- ulepszone przetwarzanie i interpretowanie danych multimodalnych (teksty, obrazy),
- prowadzenie pogłębionych analiz logicznych i krytycznego myślenia,
- autonomiczne wykonywanie złożonych zadań programistycznych poprzez Claude Code,
- precyzyjne przestrzeganie skomplikowanych instrukcji wieloetapowych i ulepszone zapamiętywanie poleceń wydanych wcześniej przez użytkownika.
Claude 3.7 Sonnet – testy i benchmarki
Wczesne testy Claude 3.7 Sonnet potwierdziły wyjątkowe zdolności modelu w zakresie programowania. Firma Cursor uznała Claude 3.7 za najlepszy model do rzeczywistych zadań programistycznych. Podobnie miała uczynić korporacja Cognition, stwierdzając, że Claude 3.7 radzi sobie znacznie lepiej niż jakikolwiek inny model w planowaniu zmian w kodzie i obsłudze aktualizacji full-stack. Tego typu rekomendacje, które znajdziemy na oficjalnej podstronie Anthropic poświęconej premierze wersji Claude 3.7 Sonnet, mają jednak charakter głównie marketingowy. Jak jest naprawdę?
Claude 3.7 Sonnet osiąga najlepsze wyniki na rynku w benchmarku SWE-bench Verified, który ocenia zdolność modeli AI do rozwiązywania rzeczywistych problemów programistycznych. Model wyróżnia się również w TAU-bench, strukturze testującej agentów AI w złożonych zadaniach ze świata rzeczywistego, obejmujących interakcje z użytkownikami i narzędziami. Zdolności Claude 3.7 pozwalają na nie tylko tworzenie kodu, ale również analizowanie istniejących baz kodu, identyfikowanie problemów i proponowanie optymalnych rozwiązań. Dużo poświęca się także możliwościom modelu, które nie są jednoznacznie klasyfikowane przez główne benchmarki. Chodzi tu między innymi o modyfikację i implementację kodu w projektach, które wymagają większego “wyczucia” kontekstu programu i zadania. Skuteczność zastosowania Claude 3.7 Sonnet została w tym przypadku potwierdzona przez Canvę, która wykorzystała udostępniony moduł do ewaluacji programistycznych, w rezultacie których drastycznie zredukowano liczbę błędów w procesach tworzenia treści.

Powyższe zalety to jednak tylko jedna strona medalu. W popularnych testach AI Claude 3.7 radzi sobie znacznie gorzej niż ChatGPT-o1. Przewaga modelu GPT-o1 uwidacznia się na wielu polach, m.in. w rankingu High School Math Competition (AIME 2024) i Multilingual Q&A (MMMLU). Faktyczną przewagę nad modelem OpenAI Anthropic zyskuje wyłącznie w kategorii Graduate-level Reasoning (GPQA Diamond), które analizuje nie tylko zdolności programistyczne, ale przede wszystkim rozumowanie i zdolności do interpretowania oraz tworzenia rozwiązań. Przy okazji warto jednak docenić Anthropic za to, że pomimo tego, iż ich najnowszy model nie bije na głowę ChatGPT, prezentują na stronie wiarygodne dane porównawcze.
Można więc powiedzieć, że pomimo udoskonaleń i licznych nowości, główne dotychczasowe różnice dzielące modele OpenAI od Anthropic pozostały te same. Claude AI wciąż nieco lepiej radzi sobie w zadaniach kreatywnych i wymagających przeprowadzenia procesów logicznych (ale bardziej na płaszczyźnie zadań tekstowych), a ChatGPT jest absolutnie niezastąpiony, jeśli chodzi o nauki ścisłe i programowanie.
Claude Code – pierwszy agent do kodowania od Anthropic
Absolutną nowością prezentowanej wersji 3.7 jest pojawienie się dodatkowego modułu do programowania. Mowa o Claude Code – pierwszym narzędziu do kodowania w formie agenta AI. Claude Code rozszerza możliwości głównego modelu, pozwalając programistom na delegowanie złożonych zadań inżynieryjnych bezpośrednio z poziomu terminala.
Ze względu na to, że Claude Code jest agentem AI, jest rola sprowadza się nie tylko do wykonywania poleceń, co do bardziej samodzielnej pracy. Jako aktywny współpracownik Claude Code może:
- przeszukiwać i czytać kod źródłowy,
- edytować pliki w projekcie,
- pisać i uruchamiać testy automatyczne,
- zatwierdzać i wysyłać kod do GitHuba,
- wykorzystywać narzędzia wiersza poleceń,
- bieżąco informować użytkownika o każdym etapie procesu.
Mimo że Claude Code jest jeszcze na bardzo wczesnym etapie produkcji, obecna wersja pokazuje ogromny potencjał. Narzędzie może pomóc w programowaniu, debugowaniu złożonych problemów, refaktoryzacji itd. We wczesnych testach Claude Code ukończył zadania za jednym podejściem, które normalnie zajęłyby ponad 45 minut pracy.

Ile kosztuje Claude AI?
Cena sztucznej inteligencji Claude zależy od tego, jaki wariant wybierzemy. Claude 3.7 Sonnet jest dostępny na wszystkich planach Claude: Free, Pro, Team i Enterprise – a także poprzez Anthropic API, Amazon Bedrock i Google Cloud’s Vertex AI. Tryb rozszerzonego myślenia jest dostępny na wszystkich powierzchniach z wyjątkiem darmowego planu Claude. W momencie pisania tego artykułu koszty Claude 3.7 Sonnet kształtują się następująco:
- pakiet Pro – 18 euro / mc. (16,25 euro / mc. przy płatności rocznej),
- pakiet Team – 28 euro / mc. (23 euro / mc. przy płatności rocznej) – warunek min. 5 użytkowników,
- pakiet Enterprise – szczegóły ustalane indywidualnie.
Z najnowszego Claude 3.7 Sonnet możemy też korzystać za darmo. Jedyne, co musimy zrobić, to utworzyć konto. Nie jest ono jednak wykorzystywane do marketingu. Pula promptów, które można wysłać z konta Free jest ograniczona do kilku – kilkunastu na dobę w zależności od bieżącego obciążenia serwerów Anthropic.

Claude 3.7 Sonnet – podsumowanie
Claude 3.7 Sonnet praktycznie pod każdym względem stanowi ulepszenie poprzedniej wersji. Chociaż w benchmarkach widać wyraźną przewagę modeli językowych OpenAI, zwłaszcza w obrębie zadań programistycznych i matematycznych, 3.7 Sonnet jest dość wszechstronnym modelem. Bardzo dobrze radzi sobie z przetwarzaniem zadań tekstowych i działaniami kreatywnymi. Na tym polu w testach przebija nawet model GPT-o1.
Oprócz ulepszonej wydajności najważniejsze nowości dodane do wersji 3.7 Sonnet to tryb rozumowania i Claude Code. Pierwszy umożliwia pogłębioną analizę logiczną, uruchamia wyższą wydajność i pokazuje użytkownikowi proces wnioskowania modelu. Drugie rozwiązanie, Claude Code, to sprzężony z bazami Github agent AI, który samodzielnie może wykonywać różne zaawansowane prace programistyczne.
Od początku tzw. wyścigu AI Anthropic akcentowało zamiar stworzenia AI, które nie tylko wykonuje zadania, ale faktycznie rozumie kontekst, intencje i niuanse ludzkich potrzeb. Claude 3.7 Sonnet jest jeszcze daleko od tego celu, ale jednocześnie dużo bliżej, niż wersja 3.5.