OpenAI Dan Paradigm Uji Keamanan Smart Contract Ethereum Lewat EVMbench

Kreator ChatGPT OpenAI dan Paradigm mengumumkan tengah meluncurkan EVMbench, sebuah alat pengujian yang dirancang untuk mengukur sejauh mana agen akal imitasi (AI agent) dapat membantu meningkatkan keamanan smart contract di jaringan Ethereum.

Secara sederhana, EVMbench adalah “arena latihan” bagi AI untuk menguji kemampuannya dalam menemukan dan memperbaiki celah keamanan pada kode Ethereum. Alat ini mengevaluasi apakah model AI mampu mendeteksi, menambal, bahkan mensimulasikan eksploitasi terhadap kerentanan berisiko tinggi di smart contract berbasis Ethereum Virtual Machine (EVM). Langkah ini dinilai penting karena ekosistem Ethereum semakin kompleks dan jumlah aplikasi berbasis blockchain terus bertambah.

Introducing EVMbench—a new benchmark that measures how well AI agents can detect, exploit, and patch high-severity smart contract vulnerabilities. https://t.co/op5zufgAGH
— OpenAI (@OpenAI) February 18, 2026

Sebagai tulang punggung jaringan Ethereum, smart contract menjalankan berbagai fungsi penting, mulai dari protokol decentralized finance (DeFi) hingga peluncuran token baru. Data Token Terminal menunjukkan bahwa jumlah smart contract yang diluncurkan di Ethereum sempat mencapai rekor tertinggi 1,7 juta kontrak pada November 2025, dengan 669.500 kontrak diterbitkan hanya dalam satu pekan terakhir.

Semakin banyak kontrak yang dibuat, semakin besar pula risiko celah keamanan yang bisa dimanfaatkan pihak tidak bertanggung jawab.

EVMbench dibangun berdasarkan 120 kerentanan nyata yang dikurasi dari 40 proses audit keamanan. Sebagian besar berasal dari kompetisi audit terbuka seperti Code4rena.

Selain itu, alat ini juga memasukkan skenario dari proses audit Tempo, blockchain layer-1 milik Stripe yang difokuskan pada pembayaran stablecoin berbiaya rendah dan berkecepatan tinggi.

Stripe sendiri meluncurkan public testnet Tempo pada Desember 2025 dengan dukungan sejumlah perusahaan besar seperti Visa, Shopify, dan OpenAI.

Tiga Mode Evaluasi

EVMbench dirancang untuk menguji performa model AI dalam tiga mode berbeda.

Pada mode detect, AI diminta mengaudit repositori kode dan dinilai berdasarkan kemampuannya menemukan kerentanan yang sudah diverifikasi sebelumnya.

Pada mode patch, AI harus memperbaiki celah keamanan tanpa merusak fungsi utama kontrak. Tantangannya adalah memastikan sistem tetap berjalan normal setelah perbaikan dilakukan.

Sementara itu, pada mode exploit, AI mencoba mensimulasikan serangan untuk menguras dana dalam lingkungan sandboxed blockchain atau lingkungan uji yang terisolasi. Penilaian dilakukan melalui pemutaran ulang transaksi secara deterministik untuk memastikan hasilnya objektif.

Dalam pengujian mode exploit, GPT-5.3-Codex yang dijalankan melalui Codex CLI mencatat tingkat keberhasilan 72,2 persen. Angka ini jauh lebih tinggi dibandingkan GPT-5 yang dirilis enam bulan sebelumnya dengan tingkat keberhasilan 31,9 persen.

Namun, performa AI masih relatif lebih lemah pada mode detect dan patch, di mana model kadang tidak mengaudit secara menyeluruh atau kesulitan menjaga seluruh fungsi kontrak tetap berjalan sempurna.

Meski demikian, peneliti OpenAI menegaskan bahwa EVMbench belum sepenuhnya mencerminkan kompleksitas keamanan di dunia nyata. Alat ini masih menjadi tahap awal untuk mengukur efektivitas AI dalam lingkungan yang memiliki dampak ekonomi riil.

Menurut OpenAI, pengujian seperti ini penting karena AI kini berpotensi dimanfaatkan tidak hanya untuk memperkuat keamanan, tetapi juga oleh pihak yang ingin mencari dan mengeksploitasi celah.

OpenAI dan Paradigm Uji Keamanan Smart Contract Ethereum Lewat EVMbench

Tiga Mode Evaluasi