Kategori

Pengujian dunia nyata terhadap Claude Opus 4.8: Ia melakukan pekerjaannya dengan lebih baik, tetapi kata-katanya bahkan lebih kasar.

Pagi ini, Anthropic secara resmi melampaui OpenAI, mengumumkan valuasi barunya dan merilis Claude Opus 4.8, versi terbaru dari lini produk andalannya, yang telah dirumorkan selama dua hari terakhir.

Jun 1st,2026 4 Tampilan

Pagi ini, Anthropic secara resmi melampaui OpenAI, mengumumkan valuasi barunya dan merilis Claude Opus 4.8, versi terbaru dari lini produk andalannya, yang telah dirumorkan selama dua hari terakhir. Kami segera mencobanya dan mengumpulkan umpan balik awal dari komunitas pengguna. Kesimpulannya adalah: kemampuannya lebih baik, tetapi "kepribadiannya" menjadi lebih sulit untuk digunakan. Pengujian APPSO: Otaknya telah ditingkatkan, tetapi mulutnya hilang. Kami tidak menggunakan skenario benchmark yang telah disiapkan Anthropic, tetapi mengujinya dengan kebutuhan dunia nyata kami sendiri: mengekstrak dan mengarsipkan catatan percakapan historis lengkap dari platform kolaborasi online. Volume datanya lebih dari 30MB, tersebar di seluruh antarmuka front-end, tanpa tombol ekspor yang mudah diakses. Jenis tugas ini tidak menguji apakah model tersebut dapat menulis kode, tetapi lebih menguji apakah model tersebut dapat bekerja sama dengan pengembang non-profesional untuk mencari tahu dan menyelesaikan tugas dari awal. Awalnya adalah penemuan yang tidak disengaja. Rekan-rekan penguji kami memperhatikan bahwa antarmuka front-end platform akan menampilkan catatan historis awal pada momen-momen tertentu, seolah-olah data dimuat sebentar ke klien lalu ditarik kembali. Dia menyampaikan pengamatan ini ke versi 4.8 tanpa penjelasan teknis apa pun, hanya menyatakan dalam bahasa sederhana, "Saya melihat beberapa pesan lama muncul sekilas lalu menghilang."
4.8 Saya memahami maksudnya dan memberikan penilaian yang tepat: data dimuat melalui permintaan antarmuka dan dapat dicegat di lapisan jaringan browser. Kemudian saya memberikan rencana operasional, memandu langkah-langkahnya: alat pengembang, panel Jaringan, penyaringan kata kunci, dan menemukan permintaan target. Penilaiannya akurat dan pemikirannya jelas. Tetapi inilah kontradiksi dalam 4.8: kemampuan berpikirnya kuat, tetapi ekspresinya... bertele-tele. Setiap solusi teknisnya benar, tetapi penjelasan untuk setiap langkah membutuhkan dua atau tiga kalimat. Anda bertanya tentang suatu metode, dan pertama-tama ia memberi Anda "Tentu saja! Mari kita lakukan langkah demi langkah," kemudian mengeluarkan daftar poin-poin, dan kemudian menambahkan "penjelasan tambahan" di akhir daftar yang menjelaskan mengapa hal itu harus dilakukan dengan cara ini. Apa yang dapat dijelaskan dalam tiga kalimat membutuhkan tiga layar teks. Saya hanya tidak tahu cara membuat kode, bukan berarti otak saya telah lepas kendali.
Ini bukan masalah baru di versi 4.8; ini adalah masalah lama yang telah ada di seri Opus sejak versi 4.7. Terlepas dari kritik berulang, versi ini belum membaik dan bahkan mungkin lebih buruk. Bagian yang paling memakan waktu adalah fase koreksi kesalahan: setelah solusi pertama, pengguna mengalami kesalahan. Versi 4.8 secara akurat mengidentifikasi masalah, memberikan solusi baru, dan tidak mengulangi langkah-langkah yang gagal. Ini jelas lebih baik daripada versi 4.6, di mana kesalahan terkadang melupakan apa yang telah dicoba selama beberapa putaran koreksi kesalahan. Mengakui kesalahan itu baik, tetapi tidak perlu terlalu kaku. Menambahkan analisis penyebab dan daftar poin-poin membuatnya tampak seperti email layanan pelanggan, meskipun seharusnya merupakan tinjauan masalah teknis.
Pada akhirnya, data diekspor sepenuhnya dalam format HAR, dan pembersihan serta penataan lapisan menggunakan skrip khusus semuanya berhasil diselesaikan. Beberapa pengguna belum menerima pembaruan Claude Code, tetapi Claude untuk Chrome sudah berada di versi 4.8, dan juga telah diluncurkan ke alat perkantoran utama seperti Notion. Kami menguji penggunaan Claude untuk melakukan tugas-tugas dasar seperti pencarian dan pengisian formulir di Chrome.

　　一个能干活但不会聊天的同事如果只看结果，4.8 确实更强了，它理解非标准需求的能力更好，多步骤任务的上下文保持更稳，纠错不绕弯路。但如果看过程，体验却是拧巴的。它的问题不在于不会思考，准确地说，是它说话的方式像一个永远在做汇报的人：事事要分点，点点要展开，展开完还要总结，总结完再问你「还有什么我可以帮到你的？」。包括那些经典 AI 味开场白，「这是一个很棒的问题！」「当然可以！」，在前代模型上就已经让人烦躁，到 4.8 依然健在。这与其说是「缺点」，不如说是一种设计选择。Opus 4.8 的工程能力拉满了，它像一个技术很好但沟通风格很客服的同事：你知道它能解决问题，但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度，在这一版模型上被拉向了两个相反的方向。
　　总体来看，Opus 4.8 是一个「工程」气质拉满的模型，这使得它能够快速融入各个工具当中，不管是 CC 这样的代码工具，还是进入网页浏览和检索的 chrome 插件，甚至是各个自己做的小工具。「工程化」是一种思维，在 4.8 身上体现的淋漓尽致。
　　尽管「大而全」是厂家们经常打出来的口号，但在实际搭建自己的工作流中，不同的工具必然有不同的用处，Opus 4.8 做到的是，让其工程能力和思维，调动和流淌在各种不同的工具当中。不过，这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求，甚至是在更宏观的层面，给不同的工具分配不同的任务。考虑到现在模型的发布越来越快，距离 4.7 不过也是一晃眼的事，这种频繁的更新所带来的频繁适应，势必会带来一些痛苦。除了把重负转嫁给用户，也是厂商要考虑的问题——为了融资上市一昧加速再加速，未来会带来相当多的适应问题。

Sebelumnya

Another amazing AI terminal programming tool has been open-sourced!

Berikutnya

Anthropic 保密提交 IPO 文件，抢先 OpenAI 上市

Layanan inti Tiongkok

Keunggulan Perusahaan / Nilai Jual Utama (Mengapa Memilih Kami)

Aplikasi Industri

隐私声明

Berita terbaru tentang AI

Pengujian dunia nyata terhadap Claude Opus 4.8: Ia melakukan pekerjaannya dengan lebih baik, tetapi kata-katanya bahkan lebih kasar.

Berita Terkait

Example news post

Example news post

Example news post

Example news post

APAKAH ANDA SIAP BEKERJA SAMA DENGAN KAMI?