Anthrope meluncurkan model perbatasan baru yang disebut Sonnet Claude 3.7, yang dirancang perusahaan untuk “berpikir” tentang pertanyaan selama waktu yang diinginkan pengguna.
Anthrope menyebut Claude 3.7 soneta “model penalaran pertama hibrida” dari industri, karena itu adalah model unik yang dapat memberikan jawaban secara real time dan lebih banyak jawaban yang dipertimbangkan dari “pemikiran” untuk pertanyaan. Pengguna dapat memilih apakah akan mengaktifkan keterampilan “penalaran” model AI, yang membuat Claude 3.7 sonnet “berpikir” untuk jangka waktu singkat atau lama.
Model ini mewakili upaya antrop yang lebih luas untuk menyederhanakan pengalaman pengguna di sekitar produk AI mereka. Sebagian besar chatbots saat ini memiliki pemilih model yang mengecilkan hati yang memaksa pengguna untuk memilih antara beberapa opsi berbeda yang bervariasi dalam biaya dan kapasitas. Laboratorium seperti Anthrope lebih suka dia tidak harus memikirkannya, idealnya, sebuah model melakukan semua pekerjaan.
Claude 3.7 Sonnet akan diimplementasikan dengan semua pengguna dan pengembang pada hari Senin, kata Anthrope, tetapi hanya orang -orang yang membayar untuk rencana chatbot Claude de Anthrope oleh Anthrope akan mendapatkan akses ke fungsi penalaran model. Pengguna gratis Claude akan mendapatkan versi standar dan tidak masuk akal dari Sonnet Claude 3.7, yang antropinya menegaskan model perbatasan anteriornya, model perbatasan anterior, Sonnet Claude 3.5. (Ya, perusahaan melompati angka).
Claude 3.7 sonnet berharga $ 3 per juta token masuk (yang berarti Anda bisa memasukkan sekitar 750.000 kata, lebih banyak kata daripada seluruh seri “Lord of the Rings”, di Claude seharga $ 3) dan $ 15 per juta token produksi. Itu membuatnya lebih mahal daripada O3-Mini ($ 1,10 untuk 1 juta token input/$ 4,40 per 1 juta token output) dan De Deepseek (55 sen per 1 juta token masuk/$ 2,19 per 1 juta token output), tetapi tetap Dalam pikiran bahwa O3-Mini dan R1 adalah model yang bernalar, non-hibrida seperti soneta Claude 3.7.
Soneta Claude 3.7 adalah model pertama dari antrop yang dapat “bernalar”, sebuah teknik Banyak laboratorium AI telah menjadi metode tradisional untuk meningkatkan kinerja AI, pengurangan kinerja.
Model penalaran seperti O3-Mini, R1, Flash Gemini 2.0 Memikirkan Google dan Grok 3 (Pikirkan) dari XAI menggunakan lebih banyak waktu dan energi komputer sebelum menjawab pertanyaan. Model membagi masalah menjadi langkah -langkah yang lebih kecil, yang cenderung meningkatkan ketepatan respons akhir. Model penalaran tidak berpikir atau beralasan bagaimana manusia akan selalu melakukannya, tetapi proses mereka dimodelkan setelah dikurangi.
Akhirnya, Anthrope ingin Claude menemukan berapa lama dia harus “berpikir” tentang pertanyaan saja, tanpa perlu bagi pengguna untuk memilih kontrol terlebih dahulu, produk Anthrope dan kepemimpinan penelitian, Dianne Penn, mengatakan kepada TechCrunch dalam sebuah wawancara.
“Mirip dengan bagaimana manusia tidak memiliki dua otak terpisah untuk pertanyaan yang dapat dijawab segera terhadap mereka yang membutuhkan pemikiran,” tulis Anthrope dalam a Blog Dibagikan dengan TechCrunch, “Kami menganggap bahwa penalaran hanyalah salah satu kemampuan yang harus dimiliki oleh model perbatasan, untuk berintegrasi tanpa masalah dengan kemampuan lain, alih -alih sesuatu yang harus disediakan dalam model terpisah.”
Anthrope mengatakan bahwa dia mengizinkan Claude 3.7 sonnet untuk menunjukkan fase perencanaan internalnya melalui “bantalan goresan yang terlihat”. Penn mengatakan pengguna TechCrunch akan melihat proses pemikiran penuh Claude untuk sebagian besar indikasi, tetapi beberapa porsi dapat ditulis untuk tujuan kepercayaan diri dan keamanan.

Anthrope mengatakan dia mengoptimalkan moda pemikiran Claude untuk tugas -tugas dunia nyata, seperti masalah pengkodean yang sulit atau tugas agen. Pengembang yang memanfaatkan API Anthrope dapat mengendalikan “anggaran” untuk berpikir, kecepatan perdagangan dan biaya kualitas respons.
Dalam tes untuk mengukur tugas pengkodean kata-kata nyata, SWE Bench, Claude 3.7 sonnet adalah 62,3% tepat, dibandingkan dengan model OpenAi O3-Mini yang memperoleh 49,3%. Dalam tes lain untuk mengukur kemampuan model AI untuk berinteraksi dengan pengguna API yang disimulasikan dan eksternal dalam konfigurasi ritel, tau-bench, Claude 3,7 soneta memperoleh 81,2%, dibandingkan dengan model Openai O1 yang memperoleh 73,5%.
Anthrope juga mengatakan bahwa Sonnet Claude 3.7 akan menolak untuk menjawab pertanyaan lebih jarang daripada model sebelumnya, mengklaim bahwa model tersebut mampu membuat perbedaan yang lebih bernuansa antara indikasi berbahaya dan jinak. Anthrope mengatakan ia mengurangi penolakan yang tidak perlu di 45% dibandingkan dengan Sonnet Claude 3.5. Ini datang pada saat ketika Beberapa laboratorium AI lainnya memikirkan kembali pendekatan mereka untuk membatasi tanggapan IA chatbot mereka.
Selain Sonnet Claude 3.7, antrope juga merilis alat pengkodean agen yang disebut kode Claude. Dengan meluncurkan sebagai tampilan penelitian sebelumnya, alat ini memungkinkan pengembang untuk menjalankan tugas -tugas tertentu melalui Claude langsung dari terminal mereka.
Dalam sebuah demonstrasi, karyawan antropik menunjukkan bagaimana kode Claude dapat menganalisis proyek pengkodean dengan perintah sederhana seperti, “Jelaskan struktur proyek ini. “Menggunakan bahasa Inggris sederhana di baris perintah, pengembang dapat memodifikasi basis kode. Kode Claude akan menjelaskan edisi karena membuat perubahan, dan bahkan menguji proyek untuk kesalahan atau akan membawanya ke gudang GitHub.
Awalnya, kode Claude akan tersedia untuk sejumlah besar pengguna di pangkalan “Layanan Pertama, Layanan Pertama”, kata juru bicara antropik kepada TechCrunch.
Anthrope merilis sonnet claude 3.7 pada saat laboratorium AI mengirim model AI baru ke ritme vertiginous. Anthrope secara historis mengadopsi pendekatan yang lebih metodis dan fokus keselamatan. Tapi kali ini, perusahaan berupaya memimpin paket.
Namun, berapa lama itu adalah pertanyaannya. Openai mungkin hampir merilis model hibrida sendiri; CEO perusahaan, Sam Altman, mengatakan dia akan tiba dalam “bulan.”