Filosofi hemat di era AI: Bagaimana memanfaatkan setiap Token secara efektif

Penulis: Sleepy.md

Di era Telegram yang mengenakan biaya berdasarkan jumlah kata, tinta dan pena adalah uang. Orang-orang terbiasa memadatkan beribu kata yang panjang lebar hingga ke titik paling ekstrem; “segera kembali” nilainya sebanding dengan satu surat panjang, dan “semoga Anda baik-baik saja” adalah peringatan yang paling berat.

Kemudian, telepon masuk ke rumah, tetapi biaya sambungan jarak jauh dihitung per detik. Panggilan jarak jauh orang tua selalu singkat dan tepat sasaran; urusan selesai, mereka langsung menutup dengan tergesa-gesa. Begitu alurnya sedikit meluas, pikiran untuk menahan biaya pun memotong basa-basi dingin yang baru saja muncul.

Lalu, belakangan ini, broadband masuk ke rumah; berselancar di internet dikenakan biaya per jam. Orang menatap penghitung waktu di layar: halaman dibuka lalu segera ditutup, video hanya berani diunduh, sementara streaming pada masa itu adalah kata kerja yang mewah. Di setiap ujung bilah progres unduhan, tersimpan hasrat orang-orang untuk “terhubung dengan dunia” sekaligus ketakutan mereka akan “saldo tidak mencukupi”.

Satuan penagihan berubah berkali-kali, tapi naluri untuk menghemat dari dahulu sampai sekarang tak pernah berubah.

Kini, Token menjadi mata uang di era AI. Namun, kebanyakan orang belum belajar cara mengatur pengeluaran dengan cermat di zaman ini, karena kita bahkan belum belajar cara menghitung untung-rugi di dalam algoritma yang tak terlihat.

Ketika ChatGPT baru muncul pada tahun 2022, hampir tidak ada yang peduli apa itu Token. Itu adalah era “tumpeng besar” AI: bayar saja 20 dolar sebulan, lalu bisa ngobrol sebanyak apa pun.

Tapi setelah AI Agent baru-baru ini meledak, pengeluaran Token berubah menjadi sesuatu yang wajib diperhatikan oleh setiap orang yang menggunakan AI Agent.

Berbeda dari percakapan sederhana tanya-jawab, di balik alur sebuah tugas ada ratusan hingga ribuan panggilan API. Pemikiran independen Agent ada biayanya; setiap kali ia melakukan koreksi diri, setiap kali ia memanggil alat, semuanya tercermin dalam lonjakan angka di tagihan. Lalu Anda akan sadar: uang yang Anda isi tiba-tiba tidak cukup, dan Anda bahkan tidak tahu persis apa yang sebenarnya dilakukan Agent.

Dalam kehidupan nyata, semua orang tahu cara menghemat. Saat membeli sayur di pasar, kita tahu cara memilah daun-daun busuk yang masih ada tanahnya lalu menimbang; saat naik taksi ke bandara, sopir yang paham akan menghindari jalur layang saat jam sibuk pagi.

Logika menghemat di dunia digital sebenarnya sama. Hanya saja satuan hitungnya berubah dari “kilogram” dan “kilometer” menjadi Token.

Performa hemat dulu karena kelangkaan; sedangkan di era AI, hemat dilakukan demi ketepatan.

Kami ingin, lewat artikel ini, membantu Anda menyusun metodologi menghemat untuk era AI, supaya setiap sen yang Anda keluarkan benar-benar tepat sasaran.

Sebelum menimbang, buang dulu daun busuk

Di era AI, nilai informasi tidak lagi ditentukan oleh keluasan, melainkan oleh kemurnian.

Logika penagihan AI didasarkan pada jumlah kata yang dibacanya. Tidak peduli apakah yang Anda masukkan berisi kebenaran yang bernas, atau sekadar omong kosong format yang tidak bermakna—selama ia membacanya, Anda tetap harus membayar.

Karena itu, cara berpikir pertama untuk menghemat Token adalah “menanamkan rasio sinyal-gangguan” ke dalam alam bawah sadar.

Setiap huruf yang Anda beri ke AI, setiap gambar, setiap baris kode—semuanya berbayar. Jadi sebelum memberikan apa pun kepada AI, ingat untuk bertanya pada diri sendiri: berapa banyak di dalamnya yang benar-benar dibutuhkan AI? Berapa banyak yang masih berupa daun busuk berlumur tanah?

Misalnya, pembuka yang panjang seperti “Halo, bisakah Anda …”, pengantar latar yang berulang, komentar kode yang tidak dihapus bersih—semuanya termasuk daun busuk berlumur tanah.

Selain itu, pemborosan yang paling umum adalah langsung melempar PDF atau tangkapan layar situs web ke AI. Memang Anda merasa lebih mudah, tetapi di era AI, “mudah” sering kali berarti “mahal”.

Satu PDF dengan format lengkap, selain isi utama, juga berisi header, footer, anotasi grafik, watermark tersembunyi, serta banyak kode format untuk perapihan. Semua itu tidak membantu AI memahami masalah Anda sama sekali, tetapi semuanya tetap dihitung.

Nanti lain kali, ingat untuk mengubah PDF menjadi teks Markdown yang bersih terlebih dahulu sebelum memberinya makan ke AI. Ketika Anda mengubah PDF 10MB menjadi teks bersih 10KB, Anda tidak hanya menghemat 99% uang, tetapi juga membuat “otak” AI berjalan jauh lebih cepat dibanding sebelumnya.

Gambar adalah hewan penghabis biaya yang lain.

Dalam logika model visual, AI tidak peduli apakah foto Anda indah atau tidak; ia hanya peduli seberapa besar luas piksel yang Anda habiskan.

Sebagai contoh logika perhitungan resmi Claude: konsumsi Token gambar = lebar piksel × tinggi piksel ÷ 750.

Sebuah gambar 1000×1000 piksel menghabiskan sekitar 1334 Token. Jika dikonversi menurut harga Claude Sonnet 4.6, biaya per gambar sekitar 0.004 dolar;

tetapi jika gambar yang sama dikompresi menjadi 200×200 piksel, ia hanya menghabiskan 54 Token. Biayanya turun menjadi 0.00016 dolar—selisihnya lebih dari 25 kali.

Banyak orang langsung mengirim foto beresolusi tinggi dari ponsel, atau tangkapan layar 4K ke AI. Mereka tidak sadar bahwa Token yang dikonsumsi gambar-gambar ini bisa saja cukup untuk membuat AI membaca sebagian besar novel menengah. Jika tugasnya hanya mengenali teks dalam gambar atau membuat penilaian visual sederhana—misalnya menyuruh AI membaca nominal pada kuitansi, membaca teks di panduan, atau menentukan apakah di gambar ada lampu lalu lintas merah-hijau—maka resolusi 4K adalah pemborosan murni; kompres gambar ke resolusi minimum yang masih bisa digunakan saja.

Namun, alasan paling mudah menyebabkan pemborosan Token di sisi input sebenarnya bukan format file, melainkan cara berbicara yang tidak efisien.

Banyak orang memperlakukan AI seperti tetangga manusia sungguhan. Mereka terbiasa berkomunikasi dengan ocehan sosial yang berulang-ulang: pertama melempar kalimat “bantu buatkan sebuah halaman web”, lalu saat AI mengeluarkan draf setengah jadi, baru mereka menambahkan detail, lalu menariknya bolak-balik berulang kali. Percakapan seperti mengencangkan gigi (squeeze) ini membuat AI menghasilkan konten berulang kali; setiap putaran revisi menambah konsumsi Token.

Insinyur dari Tencent Cloud dalam praktiknya menemukan bahwa, untuk kebutuhan yang sama, percakapan multi-putaran ala squeeze menghasilkan konsumsi Token yang pada akhirnya sering kali 3 sampai 5 kali dibanding percakapan sekali selesai yang menjelaskan semuanya.

Cara hemat yang sesungguhnya adalah meninggalkan percakapan sosial yang tidak efisien ini. Jelaskan sekaligus: kebutuhan, batasan, dan contoh referensi. Kurangi penjelasan yang melelahkan tentang “jangan lakukan apa”, karena kalimat negatif sering kali menghabiskan biaya pemahaman yang lebih besar dibanding kalimat afirmatif. Sebaliknya, langsung katakan “bagaimana cara melakukannya”, dan berikan contoh yang benar dan jelas.

Selain itu, jika Anda tahu targetnya di mana, jelaskan langsung kepada AI; jangan biarkan AI menjadi detektif.

Saat Anda memerintahkan AI “cari kode yang berkaitan dengan pengguna”, ia harus melakukan pemindaian besar-besaran di belakang layar, analisis, dan tebakan. Tetapi ketika Anda langsung mengatakan “lihat file src/services/user.ts ini”, konsumsi Token akan berbeda jauh. Di dunia digital, kesetaraan informasi adalah penghematan terbesar.

Jangan bayarkan Token demi “kesopanan” AI

Ada aturan tak tertulis dalam penagihan model besar yang banyak orang tidak sadari: Token keluaran biasanya lebih mahal 3 sampai 5 kali dibanding Token masukan.

Artinya, kata-kata yang dikeluarkan AI jauh lebih mahal daripada kata-kata yang Anda sampaikan kepadanya. Sebagai contoh harga Claude Sonnet 4.6: untuk setiap satu juta Token masukan hanya 3 dolar, sedangkan keluaran melonjak menjadi 15 dolar—selisihnya tepat 5 kali lipat.

Kalimat pembuka yang sopan seperti “Baik, saya sudah sepenuhnya memahami kebutuhan Anda, sekarang saya mulai menjawab Anda…” dan penutup basa-basi seperti “Semoga informasi di atas bermanfaat bagi Anda”—dalam komunikasi tatap muka itu memang sopan santun sosial. Namun di tagihan API, basa-basi tanpa tambahan informasi itu tetap juga Anda yang bayar.

Cara paling efektif untuk mengatasi pemborosan di sisi keluaran adalah membuat aturan untuk AI. Dengan instruksi sistem, nyatakan jelas: jangan menyapa, jangan menjelaskan, jangan mengulang kebutuhan—langsung berikan jawabannya.

Aturan-aturan ini cukup ditetapkan sekali, lalu berlaku pada setiap percakapan. Ini adalah metode pengelolaan uang yang benar-benar “sekali set, terus bermanfaat selamanya”. Tetapi saat membangun aturan, banyak orang jatuh ke kesalahan lain: menumpuk instruksi dengan bahasa alami yang panjang.

Data pengujian insinyur menunjukkan bahwa efektivitas instruksi tidak bergantung pada jumlah kata, melainkan pada kepadatan. Saat instruksi sistem sepanjang 500 kata dikompresi menjadi 180 kata—dengan menghapus ungkapan kesopanan yang tidak bermakna, menggabungkan instruksi yang berulang, dan mengubah paragraf menjadi daftar poin yang ringkas—kualitas keluaran AI hampir tidak berubah, tetapi konsumsi Token per panggilan turun drastis sebesar 64%.

Ada satu metode kontrol yang lebih proaktif lagi: batasi panjang keluaran. Banyak orang tidak pernah menetapkan batas atas, membiarkan AI bebas berekspresi. Kelalaian memberi kebebasan berlebihan dalam hak penyampaian ini sering menyebabkan biaya tak terkendali. Anda mungkin hanya butuh kalimat pendek yang “sekadar sampai titik”, tetapi AI, untuk menunjukkan semacam “kesungguhan intelektual”, tanpa alasan menuliskan esai kecil 800 kata untuk Anda.

Jika yang Anda cari adalah data murni, Anda seharusnya memaksa AI mengembalikan format terstruktur, bukan deskripsi bahasa alami yang panjang. Dalam kondisi membawa jumlah informasi yang sama, konsumsi Token format JSON jauh lebih rendah daripada paragraf bertele-tele. Ini karena data terstruktur menghilangkan semua kata penghubung yang redundan, kata seru, dan modifikasi penjelas—hanya menyisakan inti logika ber-konsentrasi tinggi.

Di era AI, Anda harus menyadari dengan jernih bahwa yang layak Anda bayar adalah nilai hasil, bukan “penjelasan diri” AI yang tidak bermakna.

Selain itu, “overthinking” AI juga menggerogoti saldo akun Anda dengan gila-gilaan.

Beberapa model tingkat lanjut punya mode “expanded thinking”, yang akan melakukan penalaran internal besar-besaran sebelum menjawab. Proses penalaran ini juga dikenai biaya—dan dihitung berdasarkan harga keluaran, jadi sangat mahal.

Mode seperti itu pada dasarnya dirancang untuk “tugas kompleks yang membutuhkan dukungan logika mendalam”. Tetapi kebanyakan orang memilih mode ini juga saat mengajukan pertanyaan sederhana. Untuk tugas yang tidak memerlukan penalaran mendalam, jelaskan dengan tegas kepada AI “tidak perlu menjelaskan jalan pikirannya, langsung jawab”, atau matikan expanded thinking secara manual—keduanya dapat membantu Anda menghemat banyak uang.

Jangan biarkan AI membuka catatan lama

Model besar tidak punya ingatan yang benar-benar nyata; ia hanya terus membolak-balik catatan lama.

Itu adalah mekanisme lapisan bawah yang banyak orang tidak tahu. Setiap kali Anda mengirim pesan baru di jendela percakapan, AI tidak memulai pemahamannya dari kalimat Anda. Ia membaca ulang semua yang kalian bicarakan sebelumnya—termasuk setiap putaran percakapan, setiap potongan kode, dan setiap dokumen referensi—lalu baru menjawab.

Di tagihan Token, “mengulang untuk memperbarui pengetahuan” seperti ini sama sekali tidak gratis. Seiring bertambahnya jumlah putaran percakapan, meskipun Anda hanya mengejar satu kata sederhana, biaya membaca ulang seluruh catatan lama di balik AI akan naik secara eksponensial. Mekanisme ini menentukan: semakin berat riwayat percakapan, semakin mahal pertanyaan Anda.

Ada orang yang melacak 496 percakapan nyata yang berisi lebih dari 20 pesan, dan menemukan bahwa pesan ke-1 rata-rata dibaca 14,000 Token, dengan biaya sekitar 3.6 sen per pesan; pada pesan ke-50, rata-rata dibaca 79,000 Token dengan biaya sekitar 4.5 sen per pesan—lebih mahal sampai 80%. Selain itu, konteks makin panjang: pada pesan ke-50, konteks yang harus diproses ulang AI adalah 5.6 kali dibanding pesan ke-1.

Untuk mengatasi masalah ini, kebiasaan paling sederhana adalah: satu tugas, satu kotak percakapan.

Saat topik selesai, langsung mulai percakapan baru. Jangan jadikan AI sebagai jendela obrolan yang tidak pernah dimatikan. Kebiasaan ini terdengar sederhana, tetapi banyak orang tetap tidak bisa melakukannya. Mereka selalu merasa “kalau-kalau nanti masih perlu konten sebelumnya”. Faktanya, “kalau-kalau” yang Anda khawatirkan sebagian besar tidak pernah terjadi. Namun demi satu “kalau-kalau” itu, Anda sudah membayar beberapa kali lipat lebih mahal untuk setiap pesan baru.

Jika percakapan memang harus dilanjutkan, tetapi konteks sudah menjadi terlalu panjang, kita dapat memanfaatkan fitur kompresi beberapa alat. Claude Code memiliki perintah /compact yang dapat memadatkan riwayat percakapan panjang menjadi ringkasan singkat, membantu Anda melakukan “disposal siber” (simulasi buang-buang dengan gaya digital).

Ada lagi logika penghematan bernama Prompt Caching (cache prompt). Jika Anda berulang kali menggunakan potongan prompt sistem yang sama, atau setiap percakapan harus merujuk dokumen referensi yang sama, AI akan menyimpan bagian konten itu dalam cache. Saat pemanggilan berikutnya, Anda hanya membayar biaya pembacaan cache yang sangat kecil, bukan lagi ditagih penuh setiap kali.

Harga resmi Anthropic menunjukkan bahwa harga Token yang “kena cache” adalah 1/10 dari harga normal. Prompt Caching dari OpenAI juga dapat menurunkan biaya input sekitar 50%. Sebuah makalah yang diterbitkan di arXiv pada Januari 2026 menguji tugas panjang pada beberapa platform AI, dan menemukan bahwa cache prompt dapat menurunkan biaya API sebesar 45% sampai 80%.

Artinya, konten yang sama: pertama kali memberi makan ke AI harus membayar harga penuh, lalu pada setiap pemanggilan berikutnya Anda hanya perlu membayar 1/10. Untuk pengguna yang tiap hari harus memakai set dokumen spesifikasi atau prompt sistem yang sama, fitur ini bisa menghemat banyak Token.

Namun, Prompt Caching punya prasyarat: konten dan urutan prompt sistem serta dokumen referensi Anda harus tetap konsisten, dan harus diletakkan di paling depan percakapan. Begitu ada perubahan apa pun pada konten, cache akan tidak berlaku dan Anda akan ditagih lagi dengan harga penuh. Jadi, jika Anda punya seperangkat aturan kerja yang tetap, tulislah secara baku dan jangan ubah seenaknya.

Tip terakhir untuk manajemen konteks adalah muat sesuai kebutuhan (on-demand). Banyak orang suka memasukkan semua aturan, dokumen, dan hal-hal yang perlu diperhatikan sekaligus ke dalam prompt sistem, dengan alasan yang sama: “untuk berjaga-jaga”.

Tapi biayanya adalah: padahal Anda sedang mengerjakan tugas yang sangat sederhana, Anda dipaksa memuat ribuan kata aturan, menyia-nyiakan banyak Token. Dokumentasi resmi Claude Code menyarankan agar CLAUDE.md dikendalikan agar tidak lebih dari 200 baris, memecah aturan spesifik untuk berbagai skenario menjadi file keterampilan (skill) yang terpisah; hanya saat skenario itu dipakai, barulah aturan skenario tersebut dimuat. Menjaga konteks tetap benar-benar murni adalah penghormatan terhadap komputasi tingkat tertinggi.

Jangan bawa Porsche untuk membeli sayur

Model AI yang berbeda memiliki perbedaan harga yang sangat besar.

Claude Opus 4.6: input 5 dolar per satu juta Token, output 25 dolar. Claude Haiku 3.5 hanya 0.8 dolar input dan 4 dolar output—hampir 6 kali lipat perbedaan. Menugaskan model paling mahal untuk pekerjaan remeh seperti mengumpulkan materi dan menyusun format, tidak hanya lambat, tetapi juga sangat mahal.

Cara pintar adalah membawa cara berpikir “pembagian kelas/pekerjaan” yang umum di masyarakat manusia ke dunia AI: tugas dengan tingkat kesulitan berbeda, gunakan model dengan harga yang berbeda.

Seperti di dunia nyata saat mempekerjakan orang untuk bekerja, Anda tidak akan khusus menyewa seorang ahli dengan gaji tahunan jutaan dolar untuk memindahkan batu bata di proyek.

AI juga begitu. Di dokumentasi resmi Claude Code, bahkan tertulis jelas: Sonnet menangani sebagian besar tugas pemrograman, Opus digunakan untuk keputusan arsitektur yang kompleks dan penalaran multi-langkah, sedangkan sub-tugas sederhana ditetapkan menggunakan Haiku.

Rencana praktik yang lebih spesifik adalah membangun “workflow dua tahap”. Pada tahap pertama, gunakan model dasar gratis atau murah untuk pekerjaan kotor yang awal—seperti pengumpulan referensi, pembersihan format, pembuatan draf awal, klasifikasi dan rangkuman sederhana. Masuk tahap kedua, berikan “sari” hasil ekstraksi—yang sudah dimurnikan—kepada model tingkat atas untuk membuat keputusan inti dan penyempurnaan mendalam.

Misalnya, jika Anda ingin menganalisis sebuah laporan industri 100 halaman, Anda bisa mulai dengan Gemini Flash untuk mengekstrak data dan kesimpulan kunci dari laporan, lalu menyusunnya menjadi ringkasan 10 halaman. Setelah itu, serahkan ringkasan tersebut kepada Claude Opus untuk analisis dan penilaian mendalam. Dengan workflow dua tahap seperti ini, biaya dapat ditekan jauh, sambil tetap menjaga kualitas.

Yang lebih maju daripada sekadar memecah tahap-tahap adalah pembagian kerja mendalam berbasis dekomposisi tugas. Tugas rekayasa yang kompleks sepenuhnya bisa dipecah menjadi beberapa sub-tugas yang independen satu sama lain, lalu dipasangkan dengan model yang paling sesuai.

Contohnya, pada tugas yang perlu menulis kode: model murah bisa menulis kerangka dan kode contoh (boilerplate) terlebih dahulu, lalu hanya bagian logika inti yang diserahkan kepada model mahal untuk direalisasikan. Setiap sub-tugas memiliki konteks yang bersih dan fokus. Hasilnya lebih akurat dan biayanya juga lebih rendah.

Anda sebenarnya tidak perlu menghabiskan Token

Semua pembahasan sebelumnya pada dasarnya membahas masalah taktik “cara menghemat uang”, tetapi ada pertanyaan logika yang lebih mendasar yang banyak orang abaikan: apakah aksi ini benar-benar perlu menghabiskan Token?

Penghematan paling ekstrem bukanlah optimalisasi algoritma, melainkan memotong keputusan ala “cut off yang tidak perlu”. Kita terbiasa mencari jawaban serba guna dari AI, tetapi lupa bahwa di banyak skenario, memanggil model besar yang mahal sama saja seperti menembakkan meriam anti-pesawat untuk menangkap nyamuk.

Misalnya, meminta AI mengolah email secara otomatis. Ia akan menganggap setiap email sebagai tugas independen untuk dipahami, diklasifikasikan, dan dibalas—konsumsi Token-nya sangat besar. Tetapi jika Anda menghabiskan 30 detik untuk memindai kotak masuk dan menyaring manual email yang jelas tidak perlu diproses AI, lalu hanya memberi sisanya kepada AI, biaya langsung turun menjadi sebagian kecil dari sebelumnya. Kekuatan penilaian manusia di sini bukan hambatan, melainkan filter yang paling berguna.

Orang-orang era Telegram tahu: setiap kali menambah satu kata berarti harus membayar lebih. Jadi mereka memperkirakan dengan cermat—ini adalah intuisi terhadap sumber daya. Di era AI juga sama: ketika Anda benar-benar tahu berapa mahal setiap kali AI berbicara satu kalimat lagi, Anda akan menakar apakah hal itu layak dilakukan oleh AI. Apakah tugas ini perlu model kelas atas atau model murah? Apakah konteks ini masih ada gunanya atau tidak?

Penakaran seperti ini adalah kemampuan paling hemat. Di zaman daya komputasi semakin mahal, penggunaan paling cerdas bukan menggantikan manusia oleh AI, melainkan membiarkan AI dan manusia melakukan hal yang masing-masing paling ahli. Ketika sensitivitas terhadap Token itu terinternalisasi menjadi refleks, barulah Anda benar-benar berubah dari bawahan komputasi menjadi pemilik komputasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan