Workshop pengantar 90 menit untuk profesional Jakarta. Bahasa istilah AI · CRAFT prompting · Tana case study (Text → Image → Video → Audio).
1
Bahasa AI ~25 istilah penting, dijelaskan natural
2
CRAFT 5 elemen prompt yang efektif
3
Tana Case Study Text → Image → Video → Audio
4
Tools & KOL Daftar tools + akun yang wajib follow
⏱ Jadwal Workshop
5 menit
Pengantar
5 menit
Glosarium: Istilah dasar
5 menit
Pipeline: Alur produksi
12 menit
CRAFT: Cara prompt
45 menit
Praktik Tana
6 menit
Tools + KOL
12 menit
Quiz + Recap
Untuk Siapa
Profesional Jakarta yang sudah pakai ChatGPT atau Gemini untuk teks. Hari ini kita masuk ke image, video, dan audio — sebagian besar tools-nya baru, jadi kita mulai dari nol.
1. Bahasa AI — Glosarium
Sebelum masuk ke prompting, kenalan dulu sama istilah-istilah yang bakal sering muncul. Setiap entri di sini dijelaskan singkat — "oh, basically dia bilang...". Balik ke sini kapan aja kalau lupa.
A. Konsep Dasar AI
Latent space = peta konsep AI. Kata generik ("nice lighting") jatuh di kerumunan tengah → output rata-rata. Kata spesifik ("Kodak Portra 400, golden hour, Darwis Triadi") = koordinat unik → output yang persis kamu mau.Seed = titik mulai random AI. Prompt sama + seed sama = gambar identik. Ganti seed → variasi. Catat seed kalau mau replikasi gambar yang kamu suka.
🧠 Latent Space
Bayangin AI punya peta raksasa berisi semua konsep visual yang pernah dia lihat. Setiap kata di prompt-mu = titik di peta itu. Kata umum ("nice lighting") = titik di tengah keramaian → AI ambil yang rata-rata. Kata spesifik ("Kodak Portra 400, golden hour") = titik unik → AI ambil yang persis kamu mau.
🎲 Seed
Angka acak yang AI pakai untuk mulai bikin gambar. Seed sama + prompt sama = gambar identik. Mau variasi? Ganti seed. Mau replikasi gambar yang kamu suka? Catat seed-nya.
📦 Checkpoint
Model AI dasarnya. Beda checkpoint = beda "tangan artis". Flux untuk fotorealisme. Midjourney untuk artistik. DALL-E untuk natural language. Pilih checkpoint dulu, baru prompt.
🔄 Iteration / The One-Change Rule
Cara pro nge-prompt: generate → diagnosis apa yang kurang → ubah satu hal → generate lagi → bandingkan. Kalau kamu ubah subjek + style + lighting sekaligus, kamu nggak akan tahu yang mana ngebenerin.
B. Prompting
🎯 Prompt
Instruksi yang kamu kasih ke AI. Bukan sekadar perintah — lebih kayak brief ke freelancer. Makin jelas, makin spesifik = makin sesuai outputnya. Lihat CRAFT untuk cara nyusunnya.
📋 CRAFT
Framework 5 elemen untuk prompt yang efektif: Context + Role + Action + Format + Target. Tanpa salah satunya, output jadi rata-rata. Lihat §3.
🔗 Prompt Chaining
Output dari satu prompt jadi input untuk prompt berikutnya. ChatGPT bikin script → script jadi referensi untuk image gen → image jadi keyframe untuk video. Pipeline produksi = prompt chain.
🎨 Style Reference / Style Keyword
Nama-nama spesifik yang menarik AI ke estetika tertentu. Bukan "editorial" tapi "Annie Leibovitz untuk Vogue". Bukan "film tone" tapi "Kodak Portra 400, 35mm". Setiap nama spesifik = koordinat yang lebih tepat di latent space.
🎭 Negative Prompt
Daftar hal yang tidak boleh muncul di output. "Tidak ada teks, tidak ada watermark, tidak ada tangan yang aneh." Sama pentingnya dengan apa yang kamu mau.
C. Image Generation
Inpainting = generate ulang cuma area yang rusak — bukan seluruh gambar. Tandai area, prompt fix-nya, AI ganti. Hemat waktu, hemat biaya.cref vs LoRA — dua cara menjaga karakter konsisten. Reference image cepat tapi drift. LoRA dilatih sekali, locked di semua generasi berikutnya — standar pro untuk campaign panjang.
🖌️ Inpainting
Generate ulang area tertentu di gambar yang udah jadi. Tangan jelek? Inpaint cuma area tangan. Background ganggu? Inpaint cuma background. Hemat waktu — gak perlu generate ulang seluruh gambar.
👤 Reference Image / cref
Gambar yang kamu kasih ke AI sebagai "bikin yang mirip ini". Generate karakter sekali, lalu pakai gambarnya sebagai referensi untuk generasi berikutnya — supaya wajahnya sama. Cepat, tapi konsistensinya tidak sepresisi LoRA.
🔧 LoRA
Mini-model AI yang dilatih khusus untuk wajah/produk/style tertentu. Setelah dilatih, AI "kenal" wajah itu — semua generasi pakai LoRA ini = orang yang sama. Cara pro menjaga konsistensi karakter di campaign panjang.
🎼 Compositing
Menggabungkan beberapa hasil AI jadi satu gambar/video akhir. Kayak kerja editor majalah: ambil background dari sini, model dari situ, tipo dari Photoshop. AI nggak nge-deliver final dalam satu klik — kamu yang composite jadi satu.
D. Video Generation
Tiga teknik video AI, tiga level kontrol. I2V: upload keyframe → AI animasikan dari sana (paling kontrol). T2V: cuma teks → AI invent semua (paling cepat, paling random). Start+End: dua frame → AI fill in-between (sempurna untuk transformation).Temporal consistency = patokan kualitas video AI #1. Rendah = wajah morph, tangan berkedip, jari datang-pergi. Tinggi = mulus, meyakinkan. Selalu cek frame-by-frame sebelum approve.
🔄 Image-to-Video (I2V)
Upload gambar still → AI kasih animasi. Gambar jadi titik awal (keyframe), prompt mendeskripsikan apa yang terjadi setelahnya. Cara paling kontrol di video AI — kamu yang nentuin tampilan awal.
📝 Text-to-Video (T2V)
Prompt teks aja → AI generate video dari nol. Cepat, tapi kontrolnya kurang dibanding I2V. Cocok untuk B-roll cepat di mana tampilan exact-nya nggak penting.
🎯 Start/End Frame
Tentukan frame pertama dan terakhir → AI bikin transisi mulus di antaranya. Cocok untuk transformasi (drained → energized, before → after, day → night).
🎞️ Temporal Consistency
Seberapa stabil objek dari frame ke frame di video. Rendah = wajah berubah-ubah, tangan berkedip, baju ganti warna sendiri. Tinggi = mulus, meyakinkan. Patokan kualitas video AI #1.
E. Audio
🗣️ Voice Cloning
Upload 30 detik suaramu → AI bikin "salinan digital" suara itu. Setelah itu, ketik script apa pun, AI bacakan dengan suaramu. Cara podcast dan iklan AI diperbanyak dalam skala besar.
🏷️ Emotion Tagging
Tag inline di script ElevenLabs — [whisper], [warm], [urgent], [pause] — yang ngontrol cara AI bacakan kalimat itu. Tanpa tag, suaranya datar. Dengan tag, suaranya berakting.
🎵 Music Bed
Track instrumental di belakang voiceover. Suno bisa generate music bed dari prompt — genre + tempo + struktur. Default mixing standard: -14 LUFS untuk broadcast.
F. Workflow & Karakter
🔗 Pipeline
Alur kerja kreatif AI: Text → Image → Video → Audio → Final. Tiap tahap mengisi tahap berikutnya. Mirip dapur restoran: bahan masuk → masak → plating → serve.
🧵 Character Consistency
Menjaga karakter (atau produk) yang sama di banyak gambar/video. Tiga cara: deskripsi detail (paling murah, paling rapuh), reference image (cepat, lumayan), LoRA (paling presisi, butuh training).
🔁 Person Replacement
Ambil video orang A → ganti dengan orang B atau karakter AI. Wajah, gerakan, ekspresi — semua di-mapping otomatis. Tools: Runway Act-Two, Higgsfield, HeyGen.
👥 Lip Sync
Petakan track audio ke gerakan mulut di video. Upload video orang ngomong + audio baru → AI bikin mulutnya pas dengan audio baru. Cara dubbing AI bekerja.
🛠️ Workflow Builder
Tool yang nyambungin beberapa AI dalam satu pipeline visual (drag-and-drop, bukan koding). Figma Weave untuk desainer, ComfyUI untuk power-user. Generate karakter di satu node → animasikan di node berikutnya → tambah audio di node ketiga → output final.
G. Tana Case Study (istilah yang dipakai di §4)
😴 MAGER
Slang Indonesia dari "malas gerak" — pre-coffee groggy/lazy state. Dalam konteks Tana: momen sebelum sip (mager pagi, otak belum on) vs. sesudah (fokus, siap kerja). Hook emosional di seluruh campaign.
☕ Sobat Senin
Persona audience Tana — lima archetypes karyawan Jakarta yang butuh fokus: KPI Runner (account exec Senin pagi macet), Tim Begadang (kreatif deadline malam), Anak Macet (commuter Sudirman 2 jam), Crew WFA (remote worker butuh ritme), Weekend Brewer (coffee shop hopper).
2. Pipeline Produksi
Pipeline = alur kerja kreatif AI dari awal sampai akhir. Lima tahap, masing-masing mengisi tahap berikutnya. Hari ini kita bakal jalan dari ujung ke ujung.
Pipeline Produksi — text feeds image, image feeds video, video feeds audio, semua di-assemble jadi final. AI = tool dalam pipeline, BUKAN tombol ajaib.
🔗 Text → Image → Video → Audio → Final
Script (LLM) → Frame storyboard (Image gen) → Klip animasi (Video gen) → Voiceover + musik (Audio) → Assembly (edit suite). Setiap domain memberi makan yang berikutnya.
5 Tahap, Apa yang Terjadi di Masing-masing
Tahap
Apa yang Terjadi
Tool Utama
1. Creative Strategy
LLM menulis brief, analisis target audiens, arah kreatif, tone of voice
ChatGPT / Claude
2. Concept & Storyboard
Generate gambar still untuk setiap key frame. 3-5 variasi per shot. Pilih + sempurnakan.
Midjourney / GPT Image 2
3. Asset Generation
Generate klip video dari frame storyboard (image-to-video). Generate voiceover. Generate musik.
Seedance 2.0 / Runway / ElevenLabs / Suno
4. Compositing & Polish
Inpaint untuk fix detail. Composite beberapa output AI. Color grade. Tambahkan grafis.
Photoshop Firefly / DaVinci / After Effects
5. Assembly & Delivery
Edit timeline. Sync audio. Export ke format pengiriman. Review klien → iterasi.
Premiere / CapCut / Descript
🧠 Prinsip Pertama: AI Tidak Pernah Selesai dalam Satu Shot
Kesalahan #1 amatir: nyari output akhir dari satu prompt. Para pro melakukan compositing — generate gambar dasar, inpaint detail, animasikan klip, tambahkan audio terpisah, dan rakit di post. AI = alat dalam pipeline, bukan tombol ajaib.
Workflow Builder — Figma Weave & ComfyUI
Figma Weave (weave.figma.com) adalah workflow builder visual untuk desainer — hubungkan beberapa AI (Kling, Runway, OpenAI, Luma, Recraft) dalam satu pipeline drag-and-drop. LoRA sebagai node, image-to-video, character replacement. Bayangin sebagai alternatif desainer untuk ComfyUI.
ComfyUI adalah versi power-user — open source, gratis, kontrol tingkat frame. Lebih powerful, tapi UI-nya bukan untuk semua orang. Cocok untuk yang serius mau bangun pipeline produksi sendiri.
3. CRAFT — Cara Prompt yang Baik
Prompt yang baik bukan tebakan — dia ngikutin formula. CRAFT adalah 5 elemen yang harus ada di setiap prompt yang serius. Tanpa salah satunya, AI nge-output yang rata-rata. Lima huruf, dipakai untuk text gen, image gen, video gen, audio gen — semuanya.
Bad vs Good prompt — kiri samar, kanan spesifik. Setiap koordinat bernama (Darwis Triadi, Kodak Portra 400, 85mm f/1.4, golden hour) menarik AI menjauh dari rata-rata, mendekati intent kamu.
C — Context
Apa itu: Latar belakang situasi. Apa yang kamu coba bikin, dan kenapa. Kenapa penting: AI tanpa context = AI yang nebak. Context kasih dia rel.
❌ Buruk
Bikin caption Instagram untuk produk minuman.
✅ Baik
Bikin caption Instagram untuk Tana (kopi cold brew single-origin Toraja, target karyawan kantoran 25-30, momen Senin pagi groggy).
R — Role
Apa itu: Siapa AI saat ini. Kamu kasih dia pekerjaan. Kenapa penting: AI tanpa role = generic. AI dengan role = specialist. Output langsung beda.
❌ Buruk
Bikin foto produk.
✅ Baik
Kamu adalah fotografer studio commercial dengan style minimalis Skandinavia. Bikin foto produk...
A — Action
Apa itu: Apa yang kamu mau AI lakukan, secara spesifik. Verb yang konkret. Kenapa penting: Verb spesifik = output spesifik. "Bantu", "buat", "kasih" terlalu samar.
❌ Buruk
Bantu aku dengan iklan Tana.
✅ Baik
Tulis 3 versi caption Instagram, masing-masing 50 kata, dengan hook di kalimat pertama dan tagline di kalimat terakhir.
F — Format
Apa itu: Bentuk akhir output: panjang, struktur, file type, aspect ratio. Kenapa penting: Format keluaran nentuin apakah hasilnya bisa langsung dipakai atau perlu retake.
❌ Buruk
Buatin video pendek.
✅ Baik
Video 15 detik, 9:16 vertical, MP4 1080p, 4 shot × ~3.75 detik, untuk Instagram Reels.
T — Target
Apa itu: Audience-nya siapa. Bahasa, tone, dan referensi kultural ngikut mereka. Kenapa penting: Same product + target beda = output beda total.
❌ Buruk
Untuk milenial.
✅ Baik
Untuk wanita 25-32, account exec di Sudirman office, Senin pagi macet 2 jam, mata masih ngantuk, meeting jam 9. Bahasa: Jaksel code-switching, hindari formal "Anda".
📋 Template CRAFT
Copy-paste, isi ke 5 baris di bawah, paste ke ChatGPT/Claude/Gemini/image gen apa pun. Lima baris ini bekerja untuk text, image, video, dan audio.
CRAFT TEMPLATE
Context: [latar belakang situasi]
Role: [siapa AI sekarang]
Action: [verb spesifik + jumlah/struktur]
Format: [bentuk output: durasi, aspect ratio, file type]
Target: [audience persona spesifik]
CRAFT bekerja untuk semua jenis prompt
Coba cek di §4 Praktik: setiap prompt Tana di-tag dengan C/R/A/F/T di atas. Kamu bakal liat lima elemennya muncul setiap kali — text, image, video, audio.
4. Praktik: Tana (Text → Image → Video → Audio)
Catatan
Tana adalah brand fiktif yang kita pakai untuk contoh — kopi cold brew single-origin Toraja, target karyawan kantoran Jakarta. Tujuannya: melihat satu produk dipresentasikan dari berbagai sudut prompt. Coba ulangi exercise apa pun di bawah dengan brand kamu sendiri (boutique, kuliner, fashion lokal) — formulanya sama.
Audience — Sobat Senin: KPI Runner · Tim Begadang · Anak Macet · Crew WFA · Weekend Brewer
Emotional Arc:MAGER (Senin pagi groggy) → sip → fokus sepanjang hari (focused win)
4A. Text — Ad vs UGC Script
Produk yang sama, dua sudut yang sangat berbeda. Polished Ad punya brand voice 3rd-person; UGC punya creator voice 1st-person. CRAFT-nya juga beda.
TEXT — AD
C: Tana Toraja cold brew, target Sobat Senin di JakartaR: senior brand copywriterA: tulis 15-sec ad script, 4 shot × 3.75s + VOF: shot-by-shot, end on tagline endcardT: 25-30yr office workers, groggy-to-focused arc
You're a senior brand copywriter for Tana — an Indonesian Toraja cold brew coffee (single-origin Toraja, cold-brewed 18 hours, low-acid, 250ml, IDR 25–35k) that helps Sobat Senin — Jakarta professionals — reset focus and push through morning fog or afternoon slump.
Write a 15-second polished video AD. POV: 3rd person, brand voice. Structure: shot-by-shot (4 shots × ~3.75s) with VO. Arc: groggy KPI Runner at Senin morning desk → drinks Tana → focused, owns the standup meeting. End on tagline endcard.
Voice rules: Bahasa-first for emotion, English for shorthand. Hype-but-honest. Headlines under 7 words. NEVER use: "cures", "miracle energy", "no crash ever", "better than [Starbucks/Excelso]", or "Anda" mixed with "lo".
You're a 22-year-old Weekend Brewer creator (coffee shop hopper, Jakarta) reviewing Tana for your followers — Sobat Senin. Same product: Indonesian Toraja cold brew coffee, single-origin Toraja, cold-brewed 18 hours, low-acid, IDR 25–35k.
Write a 15-second UGC affiliate script. POV: 1st person, casual, talking to camera. Open with a MAGER moment ("MAAAGER, Senin pagi macet 2 jam lagi…"). Stream-of-conscious, no shot list. End with a personal recommendation, not a CTA. Mention "literally", "gengs", and at least one MAGER variant naturally.
Voice rules: lo-gue Jaksel, code-switch like a real creator. NO formal "Anda". NO health claims. Allowed claims: "fokus sepanjang hari tanpa jitter", "single-origin Toraja, pekat tapi smooth, low-acid".
🎯 Ad — Polished
3rd person · Brand voice · Shot-by-shot · Tagline wajib di akhir
Trust signal: Brand control — tagline, klaim, visual codes
📱 UGC — Authentic
1st person · Creator voice · Stream-of-conscious · Rec, bukan hard CTA
Trust signal: MAGER moment adalah buktinya — bukan klaim
💡 5 Layer Creative Brief (di atas CRAFT)
1. Brand Voice DNA (kata yang dipakai/dihindari) → 2. Audience Calibration (persona spesifik) → 3. Emotional Arc (MAGER → first sip → fokus) → 4. Format Psychology (caption ≠ headline ≠ script video) → 5. Human Edge (cultural timing + taste yang AI tidak bisa gantikan).
4B. Image — Ad Hero · UGC Selfie · UGC Lifestyle
Buka ChatGPT (GPT Image 2). Tiga exercise dengan satu produk: Tana. Produk yang sama, tiga aesthetic register — karena prompt yang berbeda. Simpan setiap gambar; ini menjadi keyframe untuk video di 4C.
Sebelum bikin scene apa pun, generate satu foto produk yang clean di studio kosong. Ini jadi anchor untuk semua scene berikutnya: tiap scene di bawah pakai bottle ini sebagai input image-to-image edit (Nano Banana Pro /edit) — supaya label, silhouette, dan typography identik di semua frame.
Tanpa anchor, AI re-imagine produk tiap kali — label beda, proporsi beda, brand identity bocor. Aturannya: 1× generate canonical reference → N× edit dengan reference itu sebagai input. Sama prinsipnya dengan cref, tapi untuk produk, bukan karakter.
IMAGE — CANONICAL PRODUCT REFERENCE (Step 0)
C: anchor reference untuk semua scene TanaR: packshot product photographerA: isolate bottle pada white seamless, label fully readableF: 1:1, soft diffused, photorealistic 2KT: design reference (bukan ad)
Pure white seamless studio background, isolated single 330ml matte black cold brew bottle with cream rectangular label. Label text: bold uppercase "TANA" wordmark (centered, dominant), subtitle "TORAJA COLD BREW" thin caps below, "330ml" volume marker. Soft even diffused studio lighting, no shadows, product catalog reference, photorealistic, sharp focus.
AnchorNano Banana Pro · 1:1 · dipakai sebagai reference di semua scene di bawah
Exercise 1 — Ad Hero (Studio Flat-Lay)
Prinsip: Studio = zero environmental noise. Brand colors enforced. Controlled lighting = repeatable di seluruh campaign. Tidak ada manusia = produk adalah hero.
IMAGE — AD HERO
C: Tana hero shot untuk launch campaignR: commercial product photographerA: studio flat-lay dengan brand colors enforcedF: 1:1 square, photorealistic 4KT: brand-trust audience (Ad context)
Studio product photography, Tana Toraja cold brew bottle (matte black glass, cream label), deep dark espresso brown background, condensation droplets on bottle, dramatic side lighting with warm amber rim light accent, soft shadow, 1:1 square, photorealistic 4K
Coba ulang dengan produkmu sendiri — ganti "Tana Toraja cold brew bottle" dengan produk brand kamu, simpan struktur prompt-nya.
Exercise 2 — UGC Selfie (Desk, Jakarta)
Prinsip: Phone camera = no production kit. Cluttered desk = real environment. Relief expression = emotional proof, bukan brand claim. Natural light = imperfect, therefore authentic.
IMAGE — UGC SELFIE
C: UGC content untuk Sobat SeninR: phone-camera self-shot (no professional kit)A: candid selfie mid-sip dengan relief expressionF: 4:5 vertical, phone camera qualityT: KPI Runner, Senin pagi groggy audience
Casual selfie, Indonesian woman 27, sitting at cluttered Jakarta office desk, holding Tana Toraja cold brew bottle mid-sip, slightly groggy but smiling with relief, natural window light from left, slightly overexposed, phone camera quality, candid, 4:5 vertical
OutputNano Banana Pro · 4:5
Exercise 3 — UGC Lifestyle (Group, Post-Activity)
Prinsip: Group + context + real activity = social proof. Tidak ada studio yang bisa memalsukan ini. Hapus: "studio" · "professional" · "posed". Tambah: "candid" · "friends" · "post-activity" · "mid-action".
IMAGE — UGC LIFESTYLE
C: social proof shot — group post-activityR: phone-camera candid (someone in the group)A: capture mid-action laughter post-pickup-gameF: 16:9, golden hour, slight grainT: Sobat Senin yang relate ke ritual ngopi pagi
Candid group photo, four Indonesian friends mid-20s at a sunlit Jakarta coffee shop, weekend morning, casual brunch table with laptops half-closed, laughing and holding Tana Toraja cold brew bottles up to camera, mid-laugh gestures, phone camera, slightly warm grain, 16:9
OutputNano Banana Pro · 16:9
Signal
AD HERO (Ex 1)
UGC (Ex 2 + 3)
Environment
Studio / controlled set
Desk kantor / lapangan outdoor
Pencahayaan
Dramatic side + brand-colored rim
Natural window / golden hour
Framing
Overhead flat-lay, no human
Phone-camera selfie / candid wide
Quality cues
"4K" · "photorealistic" · "sharp"
"slightly overexposed" · "grain" · "candid"
Trust signal
Brand color + premium finish
Real person in real environment
4C. Video — 4 Tana Clips
Video AI mengharuskan kamu mendeskripsikan apa yang terjadi dari waktu ke waktu — bukan hanya bagaimana tampilan frame-nya. Tool utama: Seedance 2.0 (image-to-video) + Runway/Kling sebagai alternatif.
Harus menyertakan: aksi subjek + pergerakan kamera + sesuatu yang bergerak di background + pacing. Prompt yang terlihat seperti deskripsi gambar still tidak akan bergerak. Tambahkan verb aksi dan environmental motion.
Clip 1 + 2 — UGC B-roll (Keyframe → Image-to-Video)
Generate keyframe terlebih dahulu di GPT Image 2, lalu upload ke Seedance 2.0 sebagai starting frame. Prompt motion mendeskripsikan apa yang terjadi selanjutnya.
KEYFRAME CLIP 1 (GPT Image 2)
C: opening keyframe untuk UGC B-roll Clip 1R: iPhone front-cam selfie POVA: capture mild-surprise moment, just noticed bottleF: 9:16 portrait, wide selfie lensT: Sobat Senin audience
UGC iPhone front-camera selfie. Indonesian man (late 20s, office shirt) holding phone out in selfie mode. One hand holds the phone, other hand rests near a capped Tana cold brew bottle on the desk — condensation on the matte black label with cream typography. Mild surprised expression, just noticed the cold bottle. Slightly overexposed skin as iPhone front cam produces. Warm morning window light. 9:16 portrait, wide selfie lens, authentic candid.
OutputNano Banana Pro · 9:16 · Keyframe Clip 1
VIDEO — CLIP 1 MOTION (Seedance 2.0, I2V)
C: UGC B-roll Tana — Senin pagi first sipR: handheld iPhone selfie (no stabilization)A: grab bottle → uncap → genuine first sipF: 5 detik, 9:16, ambient office soundsT: Sobat Senin audience
Natural iPhone selfie shake throughout — no stabilization, real hand wobble as a person actually holds a phone. Man's eyes drop to the Tana cold brew bottle, he picks it up, twists off the cap with one hand (satisfying uncap motion). Brings the open bottle up and takes a genuine first sip. Eyes close briefly — small "ahh" relief, the way coffee lands on a Senin pagi. Organic micro-tremor in the hand holding the phone. Ambient office sounds — keyboard, distant traffic. 5 seconds. iPhone front-camera quality, warm morning light.
KEYFRAME CLIP 2 (GPT Image 2)
C: opening keyframe untuk UGC B-roll Clip 2R: iPhone front-cam selfie di TransJakartaA: capture exhausted commuter face mid-frameF: 9:16 portrait, wide selfie lensT: Anak Macet audience
UGC iPhone front-camera selfie. Same Indonesian man (late 20s, office shirt) on a crowded TransJakarta bus, holding phone out in selfie mode. Groggy face fills the frame — eyes heavy, mouth slightly open in a barely-awake yawn. City and blurred passengers visible behind through the window. Warm early-morning golden window light, slightly overexposed skin as iPhone front cam produces. 9:16 portrait, wide selfie lens, authentic candid commute shot.
OutputNano Banana Pro · 9:16 · Keyframe Clip 2
VIDEO — CLIP 2 MOTION (Seedance 2.0, I2V)
C: UGC B-roll Tana — morning commute reliefR: handheld iPhone selfie di TransJakartaA: reach into bag → uncap → slow sip → exhaleF: 5 detik, 9:16, ambient bus soundsT: Anak Macet audience
Natural iPhone selfie — camera jolts slightly with the bus motion, organic sway. No stabilization. Man stares groggily at the selfie camera. He reaches into his bag off-frame, produces the Tana cold brew bottle. Twists off the cap — visible uncapping motion. Brings the open bottle to his lips and takes a slow sip. Eyes brighten slightly, a quiet exhale through the nose. Morning window light catches the condensation. Ambient TransJakarta sounds — engine hum, road, passengers. 5 seconds. iPhone front-camera quality.
Clip 3 — UGC Selfie 15-sec (I2V + VO Script)
VO script dibacakan dulu (ElevenLabs atau suara asli), lalu audio + keyframe digunakan sebagai input ke Seedance 2.0.
[0:00–0:04] "Guys — hari ini MAGER banget, sumpah. Senin pagi macet 2 jam, otak belum on..."
[0:04–0:09] [reaches for Tana, holds up] "Terus aku nyobain ini, dan seriously — fokus-ku langsung balik."
[0:09–0:13] [takes sip] "Rasanya pekat tapi smooth banget — single-origin Toraja, low-acid, gak bikin perih."
[0:13–0:15] [thumbs up] "Pekatnya bikin fokus sepanjang hari! Cobain deh!" ☕
VIDEO — CLIP 3 MOTION (Seedance 2.0, I2V + VO)
C: Clip 3 — sinkron VO + visualR: handheld iPhone selfie, casual JakselA: deliver 4-beat VO dengan ekspresi sinkronF: 15 detik, 9:16, audio sinkron BahasaT: Sobat Senin followers
Natural iPhone selfie, no stabilization — natural hand tremor and micro-shake throughout all 15 seconds. Man stares into the selfie camera, groggy: "Guys — hari ini MAGER banget, sumpah. Senin pagi macet 2 jam, otak belum on..." — reaches off-frame, produces Tana cold brew bottle, twists off the cap on camera (visible uncapping). Holds bottle toward camera: "Terus aku nyobain ini, dan seriously —" — takes a long slow real sip, eyes close: "— fokus-ku langsung balik." Eyes open wider, expression shifts: "Rasanya pekat tapi smooth banget — single-origin Toraja, low-acid, gak bikin perih." Straightens up naturally, raises bottle in thumbs-up: "Pekatnya bikin fokus sepanjang hari! Cobain deh!" Casual Jaksel tone throughout. Warm morning window light, iPhone slightly overexposed skin tones. Synchronized Bahasa Indonesia speech audio. 15 seconds. 9:16 portrait.
Clip 4 — Polished Ad (Start + End Frame)
Generate 2 keyframe terpisah di GPT Image 2: Frame A (groggy) + Frame B (focused). Upload keduanya ke Seedance 2.0 sebagai start + end frame.
KEYFRAME A — START FRAME (GPT Image 2)
C: Frame A untuk Clip 4 — groggy stateR: cinematic commercial photographerA: capture exhausted KPI Runner sebelum sipF: wide shot, photorealistic, desaturatedT: brand-trust audience (Ad)
Photorealistic, cinematic wide shot. Indonesian woman 27, KPI Runner, sitting at open-plan Sudirman office desk, Senin pagi. Slumped posture, empty mug from yesterday, laptop screen showing a calendar full of meetings, faint expression of grogginess. Matte black Tana cold brew bottle on the desk, unopened. Warm morning window light. Slightly desaturated palette.
OutputNano Banana Pro · 16:9 · Frame A (Start)
KEYFRAME B — END FRAME (GPT Image 2)
C: Frame B untuk Clip 4 — energized stateR: cinematic commercial photographer (matching Frame A)A: capture upright, engaged, post-sip transformationF: match Frame A composition + lightingT: brand-trust audience (Ad)
Same woman, same desk, same Senin morning light. Now upright, Tana cold brew bottle in hand (opened, half-drunk), slight smile, eyes engaged with the laptop screen. Subtle colour lift — slightly more saturated. Toraja Cream accent in the scene (sticky note or notebook). "Fokus" energy.
OutputNano Banana Pro · 16:9 · Frame B (End)
VIDEO — CLIP 4 MOTION (Seedance 2.0, Start+End)
C: Polished Ad transformationR: gimbal-smooth cinematic cameraA: arc transition Frame A → Frame BF: 15 detik, broadcast-readyT: brand-trust audience
Smooth arc transition from Frame A to Frame B. She reaches for the bottle, takes a sip, posture shifts — subtle recharge. Gimbal-smooth, no shake. Warm colour shift mid-clip. Hold on Frame B. 15 seconds. Cinematic, broadcast-ready.
Voice: Young Indonesian male, casual-warm, Jaksel code-switching. Model: ElevenLabs Indonesian voice or cloned voice.
[tired] MAAAGER... Senin pagi macet 2 jam, otak belum on, meeting jam 9. [sighs] Lo pasti pernah ngerasain ini. [pause]
[warm] Nah, gue baru nemu Tana — kopi cold brew Toraja, single-origin, di-brew 18 jam. Pekat tapi smooth, low-acid. Harga dua-puluh ribuan, dapet sebotol penuh.
[confident] Karena fokus itu kerjaan harian.
[excited] Tana. Pekatnya Bikin Fokus Sepanjang Hari.
AUDIO — SUNO (Music Bed)
C: instrumental music bed untuk Tana radio spotR: Suno music gen, broadcast-readyA: generate 30-sec instrumental dengan dynamic buildF: 30 detik, A major 110bpm, -14 LUFST: Indonesian pop audience
Upbeat optimistic Indonesian pop, brass + claps + bright synth hits, A major 110bpm, [Intro: 0:00–0:08 sparse low-energy piano + heartbeat kick], [Lift: 0:08 drums + bass enter, claps 0:18, brass stab 0:25], 30 seconds, instrumental, broadcast-ready -14 LUFS
5. Tools Reference
Semua tools yang dipakai di workshop ini, plus harga dan catatan akses dari Indonesia.
Sebagian besar tools internasional butuh kartu kredit international. Alternatif: Jenius Visa, Wise, atau prepaid Visa (Visa Wibmo, Flazz, Jenius m-Card). Higgsfield + Mechalens punya program local-friendly — tanya pengajar untuk akses workshop. Untuk workshop hari ini, free 3-month subscriptions disediakan dengan partner.
6. KOL Utama
Orang-orang ini benar-benar mengedukasi soal produksi konten AI — bukan hype. Ikuti mereka. Perhatikan apa yang mereka bangun.
Platform konten AI Indonesia. Script → avatar → voice → video dalam 3 menit. Digunakan oleh Zando Agency. Dibangun untuk tim konten Indonesia.
🇮🇩 Kreator AI Indonesia
Komunitas kreatif AI Indonesia tumbuh pesat. Cari kreator di Instagram/X dengan hashtag #AICreatorID, #AIArtIndonesia. Scene ini masih terbentuk — orang-orang di ruangan ini bisa menjadi nama berikutnya dalam daftar ini.
7. Quiz + Recap
Quiz
Pertanyaan 1
Art director kamu mengirimkan kembali prompt ini dengan keluhan:
"A photo of a man in a luxury car, looking confident, with nice lighting."
Hasilnya tidak berkesan — flat, generik, bisa jadi stock photo apa pun. Mereka bertanya: "Kenapa?"
Sebutkan konsep yang menjelaskan mengapa prompt ini menghasilkan output generik, lalu tulis ulang agar brief yang sama menghasilkan hasil yang spesifik dan editorial. Penulisan ulangmu harus menyertakan setidaknya tiga "koordinat" tepat yang mengarahkan AI ke visual fingerprint yang dikenal.
💡 Petunjuk: Lihat kembali Latent Space di Glosarium. Pikirkan tentang apa yang sebenarnya dilakukan AI saat membaca "Darwis Triadi" atau "Tempo cover" dibanding "nice lighting."
Konsepnya — Latent Space
Latent space adalah peta konsep internal AI. Setiap kata dalam promptmu adalah sebuah koordinat dalam peta itu. Kata-kata generik seperti "nice," "good," "professional," bahkan "luxury" menunjuk ke rata-rata dari jutaan gambar training — sehingga model menghasilkan yang rata-rata, tampilan generik. Kata spesifik ("Darwis Triadi," "Tempo cover," "Kodak Portra 400," "golden hour") menunjuk ke wilayah tepat di peta dan menarik output ke visual fingerprint yang dikenal.
Mengapa Prompt Aslinya Gagal
"Nice lighting" tidak punya koordinat — itu adalah pusat dari kerumunan. "Looking confident" dan "luxury car" sama samarnya. Setiap kata dalam prompt menarik ke median, sehingga AI menghasilkan median: stock photo yang tidak berkesan. Samar masuk → rata-rata keluar.
Penulisan Ulang — Dengan Koordinat yang Ditambahkan
A man in his 40s leaning against a 1972 black Porsche 911, golden hour light spilling across the hood, shot in the style of Darwis Triadi for Tempo cover — Kodak Portra 400, 85mm f/1.4, shallow depth of field, warm film grain, editorial luxury, 4:5 vertical
Koordinat yang ditambahkan: mobil spesifik (1972 Porsche 911), fotografer (Darwis Triadi — fotografer fashion/portrait Indonesia), style publikasi (Tempo cover editorial), film stock (Kodak Portra 400), lensa (85mm f/1.4), pencahayaan (golden hour). Masing-masing adalah koordinat tepat yang menarik model menjauh dari rata-rata.
Prinsipnya: Spesifisitas = kontrol. Semakin banyak koordinat bernama dalam promptmu, semakin jauh kamu mengarahkan model dari median dan semakin dekat ke niatmu yang tepat.
Pertanyaan 2
Kamu menghasilkan video ulasan produk bergaya UGC. Produknya terlihat bagus — persis benar. Tapi orang dalam video itu tidak terlihat seperti orang yang sama dari 4 video lainnya dalam series kampanye kamu.
Sebutkan dua pendekatan berbeda untuk memperbaiki ini — satu untuk video BERIKUTNYA, dan satu untuk workflow kampanye JANGKA PANJANG kamu. Jelaskan tool atau teknik mana yang akan kamu gunakan untuk masing-masing, dan mengapa.
💡 Petunjuk: Lihat Character Consistency di Glosarium. Apa solusi cepat vs. solusi yang scalable?
Solusi Cepat — Untuk Video Berikutnya
Gunakan character reference image dari video terbaikmu yang ada sebagai panduan style. Sebagian besar tools video gen (Runway, Pika, Kling) menerima reference image bersama prompt — model akan mencocokkan wajah dari referensi tersebut. Tercepat, tidak butuh biaya tambahan.
Solusi Kampanye Jangka Panjang — Latih Face ID yang Bisa Digunakan Ulang
Gunakan Higgsfield AI untuk melatih face model dengan 5–20 foto orang yang kamu pilih. Setelah dilatih, face ID itu bisa digunakan di semua video dalam kampanye — identitas konsisten setiap saat. Alternatifnya, Figma Weaveperson replacement untuk menukar wajah terlatih ke footage. Pendekatan ini scalable: satu face model, video tak terbatas, orang yang sama di seluruh series.
Mengapa keduanya? Reference image bekerja segera tetapi bisa memudar antar generasi. Face ID terlatih = standar pro untuk kampanye klien nyata.
Recap — Yang Kamu Kini Ketahui
Hari ini kamu belajar empat hal: (1) AI nggak ngirim dalam satu shot — pipeline-lah jawabannya. (2) Setiap prompt yang baik punya CRAFT — Context, Role, Action, Format, Target. (3) Tana: produk yang sama bisa dipresentasikan sebagai Ad atau UGC, tergantung tujuan. (4) Tools-nya udah ada — sekarang tinggal mulai.
Generate prompt terbaikmu → Diagnosis apa yang salah → Satu Perubahan — perbaiki SATU hal saja → Bandingkan — apakah perubahan itu membantu? Ulangi.
⚠️ Aturan Satu Perubahan
Jangan pernah mengubah lebih dari satu hal di antara iterasi. Kalau kamu mengubah subjek, style, pencahayaan, DAN komposisi sekaligus, kamu tidak akan tahu perubahan mana yang memperbaiki apa. Alasan #1 orang frustrasi — mereka thrash alih-alih tuning.
Checklist Diagnosis
Subjek salah?
→ Tulis ulang subjek. Taruh di awal prompt.
Style meleset?
→ Tambahkan nama fotografer/sutradara. Ubah style reference.
[Subjek + Aksi] in the style of [Fotografer/Sutradara/Era], [Pencahayaan], [Komposisi], [Mood] — [Spesifikasi Teknis]
Konsistensi Karakter (Lanjutan) — FYI
Pendekatan
Cara Kerja
Tool
1. Deskripsi detail
Gunakan deskripsi karakter yang sama persis di setiap prompt. "A woman with silver-streaked hair, sharp cheekbones, olive skin, wearing a cream linen blazer."
Generate karakter sekali. Gunakan gambar itu sebagai referensi untuk semua generasi berikutnya. Midjourney: --cref URL. Di ChatGPT: "Using this person [upload image], show them walking in a park."
Latih model AI kecil pada 10-20 gambar orang yang sama. AI kini "mengenal" wajah itu. Setiap generasi konsisten.
Figma Weave, Stable Diffusion, Flux
Lip Sync & Face Swap (Lanjutan) — FYI
Tool
Terbaik Untuk
Harga
Sync Labs (sync.so)
Lipsync kelas studio, output 4K
Free trial + $5/bln
HeyGen
Talking head + lip sync 175 bahasa
Tier gratis (1 video/bln)
Runway Act-Two
Performance capture — petakan wajah/suaramu ke karakter
125 kredit gratis
Higgsfield AI
9 mode video iklan + UGC face training
Free trial
Pika Pikascenes
Penggantian karakter scene-level
80 kredit/bln gratis
Animation — Keyframe-to-Keyframe (FYI)
Animasi AI bekerja dengan menghubungkan dua gambar — start frame dan end frame — dan AI menghasilkan motion halus di antaranya. Disebut keyframe interpolation.
Tool
Terbaik Untuk
Free Tier
Penggunaan Komersial
Pika Pikaframes
Animasi pendek, product reveal, logo motion
80 kredit/bln ✅
YA — tier gratis 🔥
Runway Gen-4.5
Animasi profesional, motion karakter
125 kredit sekali
❌ Gratis dengan watermark
Kaiber
Video musik, audio-reactive animasi
Free trial
⚠ Cek syarat & ketentuan
ANIMATION — PIKA PIKAFRAMES (Product Reveal)
START FRAME: Closed black gift box on a dark marble surface, studio lighting, mystery feel. END FRAME: Same surface, box is now open, a gold watch rises slowly from inside the box, catching dramatic spotlight. Smooth cinematic motion, 5 seconds, 16:9 landscape format.
Troubleshooting — Masalah Umum di Image AI
Masalah 1: Objek tidak menyatu dengan background
Mengapa terjadi: Saat kamu pakai reference image di tools seperti Nano Banana 2, AI memperlakukannya sebagai saran visual — bukan instruksi compositing. Pencahayaan, bayangan, perspektif tidak cocok karena berasal dari prompt-mu, bukan reference.
Harmonization tool:IC-Light (gratis, open source) — secara harfiah me-relight objek agar sesuai scene. ClipDrop Relight — satu klik, berbasis web.
Masalah 2: Pencahayaan terlihat palsu / terlalu flat
Solusinya: Tambahkan lighting specificity — "golden hour," "rim light," "soft diffused window light" daripada "good lighting." Kalau sudah generate: Adobe Firefly relight atau ClipDrop Relight.
Masalah 3: Sudut kamera salah / butuh perspektif lain
Solusinya:LeiaPix mengkonversi 2D apa pun jadi animasi 3D depth — kamu bisa menggeser perspektif. Runway Camera Control dan Kling Motion Brush memungkinkan kamu definisikan jalur kamera tepat.
Tentang Pengajar
Ethan Buntario
Produk & creative technologist. Membangun pipeline produksi konten AI untuk brand dan tim kreatif — text, image, video, audio. Workshop ini adalah rangkuman pipeline yang sama yang dipakai untuk kampanye nyata.