Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Blog

All

Blog

All

Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Ethan Collins

Pattern Recognition Specialist

07-Mar-2025

Saat melakukan web scraping, menggunakan user agent yang salah dapat menyebabkan pemblokiran instan. Situs web sering bergantung pada user agent untuk membedakan antara pengguna nyata dan bot. Untuk menghindari deteksi, sangat penting untuk menggunakan user agent yang terformat dengan baik dan sering diperbarui dalam proyek web scraping Anda.

Dalam panduan ini, Anda akan menemukan:

Apa itu user agent dan mengapa itu penting untuk web scraping
Sebuah daftar user agent terbaik untuk scraping
Cara mengatur dan memutar user agent di Python
Praktik terbaik tambahan untuk mencegah pemblokiran

Mari selami! ?

Apa Itu User Agent?

User Agent (UA) adalah string yang dikirim dalam header permintaan HTTP yang mengidentifikasi browser, sistem operasi, dan detail lainnya. Server web menggunakan informasi ini untuk merender konten yang sesuai untuk perangkat pengguna.

Contoh String User Agent:

plaintext Copy

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36

Uraian:

Mozilla/5.0 – Keluarga browser
(Windows NT 10.0; Win64; x64) – Detail sistem operasi
AppleWebKit/537.36 (KHTML, like Gecko) – Mesin rendering
Chrome/123.0.0.0 – Versi browser
Safari/537.36 – Kerangka kerja kompatibilitas

Dengan memodifikasi user agent, Anda dapat membuat web scraper Anda tampak seperti browser nyata, mengurangi risiko deteksi.

Mengapa User Agent Penting untuk Web Scraping

Sebagian besar situs web ** menganalisis user agent** untuk menyaring lalu lintas bot. Jika scraper Anda mengirimkan user agent yang tidak valid atau usang, ia mungkin akan diblokir secara instan.

Dengan menggunakan user agent yang sesuai, Anda dapat:

Meniru browser nyata dan menyatu dengan lalu lintas normal.
Melewati perlindungan anti-bot yang memeriksa library scraping default.
Meningkatkan tingkat keberhasilan permintaan dan menghindari CAPTCHA atau larangan IP.

Namun, menggunakan hanya satu user agent berulang kali masih dapat memicu sistem anti-bot. Inilah sebabnya mengapa memutar user agent sangat penting.

User Agent Terbaik untuk Web Scraping (Daftar Terbaru)

Berikut adalah daftar yang telah dikurasi dari user agent yang efektif untuk web scraping:

User Agent Google Chrome:

plaintext Copy

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36

User Agent Mozilla Firefox:

plaintext Copy

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0
Mozilla/5.0 (Macintosh; Intel Mac OS X 14.4; rv:124.0) Gecko/20100101 Firefox/124.0
Mozilla/5.0 (X11; Linux i686; rv:124.0) Gecko/20100101 Firefox/124.0

Browser Lain:

plaintext Copy

Mozilla/5.0 (Macintosh; Intel Mac OS X 14_4_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4.1 Safari/605.1.15
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.2420.81

? Tip: Anda dapat memeriksa user agent Anda sendiri dengan mengunjungi WhatIsMyUserAgent.

Cara Mengatur User Agent Kustom di Python

Banyak situs web menerapkan mekanisme deteksi bot yang memblokir permintaan dengan header user-agent yang hilang atau salah. Di bagian ini, mari kita gunakan berbagai cara untuk mengatur dan memutar user agent secara efisien.

1. Menggunakan Library `requests`

Cara paling sederhana untuk menentukan user agent adalah dengan memodifikasi header permintaan menggunakan library requests yang populer.

Contoh: Mengatur User Agent Statis

python Copy

import requests

# Tentukan header dengan User-Agent kustom
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}

# Kirim permintaan dengan User-Agent kustom
response = requests.get("https://httpbin.org/headers", headers=headers)

# Cetak header respons
print(response.text)

Output:

json Copy

{
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
  }
}

Ini mengkonfirmasi bahwa server menerima dan mengenali string user agent dengan benar.

2. Memutar User Agent untuk Anonimitas yang Lebih Baik

Menggunakan satu user agent berulang kali dapat menyebabkan pemblokiran. Untuk menghindari hal ini, putar user agent menggunakan daftar yang telah ditentukan.

Contoh: Memutar User Agent dengan random

python Copy

import requests
import random

# Daftar user agent yang berbeda
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0"
]

# Pilih user agent secara acak
headers = {"User-Agent": random.choice(user_agents)}

# Kirim permintaan dengan user agent yang dipilih secara acak
response = requests.get("https://httpbin.org/headers", headers=headers)

print(response.text)

Dengan memutar user agent, scraper Anda tampak lebih seperti manusia dan mengurangi kemungkinan deteksi.

3. Menggunakan `fake_useragent` untuk Pembuatan User Agent Dinamis

Alih-alih mempertahankan daftar statis, Anda dapat menghasilkan user agent secara dinamis menggunakan library fake_useragent.

Instalasi:

sh Copy

pip install fake-useragent

Contoh: Menghasilkan User Agent Acak

python Copy

from fake_useragent import UserAgent
import requests

# Buat objek UserAgent
ua = UserAgent()

# Hasilkan user agent acak
headers = {"User-Agent": ua.random}

# Kirim permintaan dengan user agent yang dihasilkan secara dinamis
response = requests.get("https://httpbin.org/headers", headers=headers)

print(response.text)

Metode ini menyediakan berbagai macam user agent sambil tetap memperbaruinya.

4. Mengatur User Agent Kustom di `Selenium`

Saat menggunakan Selenium untuk web scraping, pengaturan user agent memerlukan modifikasi opsi browser.

Contoh: Mengatur User Agent di Chrome

python Copy

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Konfigurasikan opsi Chrome
chrome_options = Options()
chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36")

# Mulai browser dengan user agent kustom
driver = webdriver.Chrome(options=chrome_options)

# Buka halaman uji untuk memverifikasi user agent
driver.get("https://httpbin.org/headers")

# Ekstrak dan cetak konten halaman
print(driver.page_source)

driver.quit()

Dengan menggunakan alat otomatisasi browser seperti Selenium, Anda dapat mensimulasikan perilaku pengguna nyata dan melewati langkah-langkah anti-bot tingkat lanjut.

5. Memverifikasi User Agent Anda

Untuk memastikan user agent Anda diatur dengan benar, gunakan metode berikut:

Periksa header respons dari https://httpbin.org/headers
Gunakan alat pengembang browser (F12 > Network > Headers) untuk memeriksa permintaan
Gunakan logging untuk mengkonfirmasi rotasi user agent di scraper

Contoh: Logging User Agent dalam Loop

python Copy

import requests
import random
import time

# Daftar user agent
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0"
]

# Loop melalui permintaan
for i in range(5):
    user_agent = random.choice(user_agents)
    headers = {"User-Agent": user_agent}

    response = requests.get("https://httpbin.org/headers", headers=headers)
    print(f"Permintaan {i+1} - User-Agent: {user_agent}")

    time.sleep(2)  # Tambahkan penundaan untuk menghindari pembatasan kecepatan

Script ini mencatat user agent yang berbeda selama beberapa permintaan, membantu Anda men-debug strategi rotasi.

Cara Memutar User Agent dalam Skala Besar

Alih-alih menggunakan satu user agent statis, lebih baik memutarnya secara dinamis untuk menghindari deteksi. Berikut cara Anda dapat memutar user agent di Python:

python Copy

import requests
import random

user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
]

headers = {"User-Agent": random.choice(user_agents)}
response = requests.get("https://httpbin.org/headers", headers=headers)
print(response.text)

Script ini memilih secara acak user agent dari daftar, membuat scraper Anda lebih sulit dideteksi.

Praktik Terbaik Tambahan untuk Menghindari Pemblokiran

Bahkan dengan user agent terbaik, web scraping membutuhkan teknik tambahan untuk tetap tidak terdeteksi:

Gunakan proxy untuk menghindari larangan IP.
Terapkan penundaan & interval acak di antara permintaan.
Putar header dan pola permintaan untuk meniru perilaku manusia.
Hindari scraping yang berlebihan untuk mencegah pemicuan batas kecepatan.
Pantau kode respons untuk mendeteksi pemblokiran dan beradaptasi sesuai kebutuhan.

Bahkan dengan rotasi user-agent dan proxy dan semua kiat tersebut, situs web mungkin masih menerapkan teknik deteksi tingkat lanjut, seperti fingerprinting, tantangan JavaScript, dan verifikasi Captcha. Di sinilah CapSolver berperan.

CapSolver berspesialisasi dalam menyelesaikan tantangan Capttcha, memastikan web scraping tanpa gangguan. Dengan mengintegrasikan CapSolver, Anda dapat secara otomatis menyelesaikan CAPTCHA dan menjaga scraper Anda tetap berjalan lancar

Klaim Kode Bonus Anda untuk solusi captcha terbaik - CapSolver: CAPTCHA. Setelah menukarkannya, Anda akan mendapatkan bonus tambahan 5% setelah setiap pengisian ulang, Tidak Terbatas

Kesimpulan

Menggunakan user agent yang tepat adalah langkah penting dalam web scraping. Dalam panduan ini, kami membahas:
? Apa itu user agent dan cara kerjanya
? Sebuah daftar user agent yang efektif untuk scraping
? Cara mengatur dan memutar user agent di Python
? Praktik terbaik tambahan untuk tetap tidak terdeteksi

Dengan menggabungkan rotasi user agent dengan teknik anti-deteksi lainnya, Anda dapat berhasil melakukan scraping data tanpa diblokir.

FAQ

1. Apa itu user agent dalam web scraping?
User agent adalah string yang mengidentifikasi browser atau perangkat lunak klien ke server web. Dalam web scraping, ini digunakan untuk meniru aktivitas pengguna nyata dan menghindari deteksi.

2. Apakah web scraping untuk penggunaan pribadi ilegal?
Web scraping umumnya legal untuk penggunaan pribadi, tetapi Anda harus menghormati ketentuan layanan situs web dan menghindari scraping data sensitif atau yang dilindungi hak cipta.

3. Apa tujuan rotasi user agent dalam web scraping?
Rotasi user agent membantu menghindari deteksi dan pemblokiran dengan membuat permintaan tampak berasal dari browser atau perangkat yang berbeda.

4. Bagaimana saya dapat mencegah pemblokiran saat melakukan web scraping?
Untuk menghindari pemblokiran, gunakan rotasi IP, pemecahan CAPTCHA, penundaan antara permintaan, dan pastikan kepatuhan dengan robots.txt situs.

5. Dapatkah web scraping memengaruhi kinerja situs web?
Ya, scraping terlalu sering dapat membebani server situs web. Penting untuk melakukan scraping secara bertanggung jawab dengan permintaan yang terbatas.

Pernyataan Kepatuhan: Informasi yang diberikan di blog ini hanya untuk tujuan informasi. CapSolver berkomitmen untuk mematuhi semua hukum dan peraturan yang berlaku. Penggunaan jaringan CapSolver untuk kegiatan ilegal, penipuan, atau penyalahgunaan sangat dilarang dan akan diselidiki. Solusi penyelesaian captcha kami meningkatkan pengalaman pengguna sambil memastikan kepatuhan 100% dalam membantu menyelesaikan kesulitan captcha selama pengambilan data publik. Kami mendorong penggunaan layanan kami secara bertanggung jawab. Untuk informasi lebih lanjut, silakan kunjungi Syarat Layanan dan Kebijakan Privasi.

Lebih lanjut

Cara mengatasi / menyelesaikan setiap versi reCAPTCHA Enterprise v2, v2 invisible, v3, v3 enterprise skor 0.9

Cara mengatasi versi apa pun dari reCAPTCHA Enterprise v2, v2 invisible, v3, v3 enterprise skor 0.9

Menguasai menyelesaikan versi reCaptcha apa pun dengan CapSolver: Panduan ini menyediakan tutorial langkah demi langkah untuk menyelesaikan reCaptcha secara efektif, memastikan hasil yang akurat setiap kali.

reCAPTCHA

Ethan Collins

11-Oct-2025

Cara mengatasi captcha gambar

Posting blog ini menyediakan panduan komprehensif cara menyelesaikan captcha gambar menggunakan CapSolver, sebuah alat yang dirancang untuk mengotomasi prosesnya. Post ini dimulai dengan penjelasan tentang apa itu captcha gambar, diikuti oleh panduan langkah demi langkah yang rinci tentang cara menggunakan API CapSolver untuk menyelesaikan captcha ini. Panduan ini mencakup contoh permintaan dan respons yang terlibat dalam prosesnya. Posting ini diakhiri dengan catatan tentang efisiensi dan kemudahan menggunakan CapSolver untuk menyelesaikan captcha gambar, sehingga menjadi sumber daya yang tak ternilai bagi mereka yang ingin mengotomasi tugas yang melibatkan penyelesaian captcha.

Ethan Collins

11-Oct-2025

Selesaikan reCAPTCHA v2 Enterprise

Dalam dunia digital, keamanan dan kenyamanan pengguna seringkali berada di dua kutub yang berlawanan. CAPTCHAs, khususnya reCaptcha, telah menjadi alat penting dalam menciptakan keseimbangan antara keduanya. Namun, bagaimana jika Anda perlu menyelesaikan tes reCaptcha yang seringkali rumit dan memakan waktu, khususnya reCaptcha V2 Enterprise, untuk tujuan yang sah seperti pengujian otomatis? Dalam blog ini, kami akan membimbing Anda melalui proses menyelesaikan reCaptcha V2 Enterprise menggunakan API CapSolver.

reCAPTCHA

Ethan Collins

11-Oct-2025

Selesaikan reCaptcha v3

"Pelajari cara menyelesaikan reCaptcha V3 menggunakan CapSolver: berbagai jenis tugas, integrasi API yang sederhana, dan solusi yang efektif untuk otomatisasi dan pengujian"

Ethan Collins

10-Oct-2025

Apa solusi AWS WAF terbaik saat melakukan pengambilan data web pada tahun 2025?

Apa solusi AWS WAF terbaik saat web scraping pada tahun 2025

Pelajari cara menyelesaikan CAPTCHA AWS WAF secara efisien dengan CapSolver pada 2025. Panduan langkah demi langkah, integrasi Python, solver yang didukung AI untuk meningkatkan alur kerja otomatisasi Anda. Atasi token dinamis, analisis perilaku, dan tantangan CAPTCHA yang kompleks dengan mudah.

Lucas Mitchell

26-Sep-2025

Cara menemukan fungsi callback reCAPTCHA

Menemukan callback dari reCAPTCHA melibatkan identifikasi fungsi JavaScript yang dieksekusi setelah reCAPTCHA berhasil diselesaikan. Berikut pratinjau singkat langkah-langkah yang mungkin Anda ambil

reCAPTCHA

Ethan Collins

23-Sep-2025

Agen Pengguna Terbaik untuk Web Scraping & Cara Menggunakannya

Apa Itu User Agent?

Contoh String User Agent:

Uraian:

Mengapa User Agent Penting untuk Web Scraping

User Agent Terbaik untuk Web Scraping (Daftar Terbaru)

User Agent Google Chrome:

User Agent Mozilla Firefox:

Browser Lain:

Cara Mengatur User Agent Kustom di Python

1. Menggunakan Library requests

2. Memutar User Agent untuk Anonimitas yang Lebih Baik

3. Menggunakan fake_useragent untuk Pembuatan User Agent Dinamis

4. Mengatur User Agent Kustom di Selenium

5. Memverifikasi User Agent Anda

Cara Memutar User Agent dalam Skala Besar

Praktik Terbaik Tambahan untuk Menghindari Pemblokiran

Kesimpulan

FAQ

Lebih lanjut

Cara mengatasi versi apa pun dari reCAPTCHA Enterprise v2, v2 invisible, v3, v3 enterprise skor 0.9

Cara mengatasi captcha gambar

Selesaikan reCAPTCHA v2 Enterprise

Selesaikan reCaptcha v3

Apa solusi AWS WAF terbaik saat web scraping pada tahun 2025

Cara menemukan fungsi callback reCAPTCHA

1. Menggunakan Library `requests`

3. Menggunakan `fake_useragent` untuk Pembuatan User Agent Dinamis

4. Mengatur User Agent Kustom di `Selenium`