Go to file

Mahen 2d8f65e177 Initial commit skripsi dengan LFS		2026-04-04 07:49:42 +07:00
.vscode	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
data	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
models	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
prisma	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
public/img	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
robust_data	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
src	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
.gitattributes	Setup LFS attributes	2026-04-04 07:49:39 +07:00
.gitignore	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
Dockerfile	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
LICENSE	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
README.md	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
config.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
connection.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
main.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
ml_core.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
requirements.txt	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
schemas.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
services.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
trim_dataset.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
visualize_confusion.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00
visualize_scenario.py	Initial commit skripsi dengan LFS	2026-04-04 07:49:42 +07:00

README.md

Tokopedia Review Scraper & Sentiment Analysis (XGBoost)

Proyek ini merupakan implementasi end-to-end analisis sentimen ulasan produk Tokopedia. Mulai dari pengambilan data (scraping), pra-pemrosesan teks bahasa Indonesia, seleksi fitur, hingga klasifikasi menggunakan algoritma XGBoost dengan perbandingan tiga skenario eksperimen.

📌 Fitur Utama

Automated Scraping: Mengambil data ulasan dari Tokopedia menggunakan Selenium & BeautifulSoup.
Indonesian NLP Pipeline: Pembersihan data, case folding, filtering, hingga stemming menggunakan Sastrawi.
Tiga Skenario Eksperimen:
- Skenario 1: Baseline (TF-IDF + XGBoost).
- Skenario 2: Seleksi Fitur (Grid Search + XGBoost).
- Skenario 3: Penanganan Imbalance Data (SMOTE + Chi-Square + Grid Search + XGBoost).
Model Persistence: Model disimpan dalam format .pkl untuk digunakan kembali tanpa melatih ulang.

📂 Struktur Repositori

├── data/                  # Koleksi dataset (Raw, Clean, Balanced) dan pkl files
├── models/                # Hasil training model (.pkl) untuk tiap skenario
├── public/                # Berkas gambar visualisasi data latih
├── src/
│   ├── mining/            # Script untuk scraping data Tokopedia
│   ├── flow_1/            # Implementasi eksperimen skenario 1
│   ├── flow_2/            # Implementasi eksperimen skenario 2
│   ├── flow_3/            # Implementasi eksperimen skenario 3 (SMOTE & Pipeline)
│   └── utils/             # Helper fungsi (preprocessing, visualisasi, TF-IDF)
├── requirements.txt       # Daftar library Python yang dibutuhkan