Go to file
Mahen 3dee52c56a fix: resolve annoyed endpoint 2026-04-04 12:46:52 +07:00
.vscode Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
data Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
models Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
prisma Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
public/img Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
robust_data Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
src Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
.gitattributes Setup LFS attributes 2026-04-04 07:49:39 +07:00
.gitignore Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
Dockerfile Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
LICENSE Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
README.md Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
config.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
connection.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
main.py fix: resolve annoyed endpoint 2026-04-04 12:46:52 +07:00
ml_core.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
requirements.txt fix: resolve annoyed endpoint 2026-04-04 12:46:52 +07:00
run.py fix: resolve annoyed endpoint 2026-04-04 12:46:52 +07:00
schemas.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
services.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
trim_dataset.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
visualize_confusion.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00
visualize_scenario.py Initial commit skripsi dengan LFS 2026-04-04 07:49:42 +07:00

README.md

Tokopedia Review Scraper & Sentiment Analysis (XGBoost)

Python Version ML Framework License

Proyek ini merupakan implementasi end-to-end analisis sentimen ulasan produk Tokopedia. Mulai dari pengambilan data (scraping), pra-pemrosesan teks bahasa Indonesia, seleksi fitur, hingga klasifikasi menggunakan algoritma XGBoost dengan perbandingan tiga skenario eksperimen.

📌 Fitur Utama

  • Automated Scraping: Mengambil data ulasan dari Tokopedia menggunakan Selenium & BeautifulSoup.
  • Indonesian NLP Pipeline: Pembersihan data, case folding, filtering, hingga stemming menggunakan Sastrawi.
  • Tiga Skenario Eksperimen:
    • Skenario 1: Baseline (TF-IDF + XGBoost).
    • Skenario 2: Seleksi Fitur (Grid Search + XGBoost).
    • Skenario 3: Penanganan Imbalance Data (SMOTE + Chi-Square + Grid Search + XGBoost).
  • Model Persistence: Model disimpan dalam format .pkl untuk digunakan kembali tanpa melatih ulang.

📂 Struktur Repositori

├── data/                  # Koleksi dataset (Raw, Clean, Balanced) dan pkl files
├── models/                # Hasil training model (.pkl) untuk tiap skenario
├── public/                # Berkas gambar visualisasi data latih
├── src/
│   ├── mining/            # Script untuk scraping data Tokopedia
│   ├── flow_1/            # Implementasi eksperimen skenario 1
│   ├── flow_2/            # Implementasi eksperimen skenario 2
│   ├── flow_3/            # Implementasi eksperimen skenario 3 (SMOTE & Pipeline)
│   └── utils/             # Helper fungsi (preprocessing, visualisasi, TF-IDF)
├── requirements.txt       # Daftar library Python yang dibutuhkan