TIFNGK_E41222719/README.md

30 lines
1.9 KiB
Markdown

# Tokopedia Review Scraper & Sentiment Analysis (XGBoost)
[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue)](https://www.python.org/)
[![ML Framework](https://img.shields.io/badge/ML-XGBoost-orange)](https://xgboost.readthedocs.io/)
[![License](https://img.shields.io/badge/license-MIT-green)](LICENSE)
Proyek ini merupakan implementasi *end-to-end* analisis sentimen ulasan produk Tokopedia. Mulai dari pengambilan data (*scraping*), pra-pemrosesan teks bahasa Indonesia, seleksi fitur, hingga klasifikasi menggunakan algoritma **XGBoost** dengan perbandingan tiga skenario eksperimen.
## 📌 Fitur Utama
- **Automated Scraping**: Mengambil data ulasan dari Tokopedia menggunakan Selenium & BeautifulSoup.
- **Indonesian NLP Pipeline**: Pembersihan data, *case folding*, filtering, hingga *stemming* menggunakan Sastrawi.
- **Tiga Skenario Eksperimen**:
- **Skenario 1**: Baseline (TF-IDF + XGBoost).
- **Skenario 2**: Seleksi Fitur (Grid Search + XGBoost).
- **Skenario 3**: Penanganan Imbalance Data (SMOTE + Chi-Square + Grid Search + XGBoost).
- **Model Persistence**: Model disimpan dalam format `.pkl` untuk digunakan kembali tanpa melatih ulang.
## 📂 Struktur Repositori
```text
├── data/ # Koleksi dataset (Raw, Clean, Balanced) dan pkl files
├── models/ # Hasil training model (.pkl) untuk tiap skenario
├── public/ # Berkas gambar visualisasi data latih
├── src/
│ ├── mining/ # Script untuk scraping data Tokopedia
│ ├── flow_1/ # Implementasi eksperimen skenario 1
│ ├── flow_2/ # Implementasi eksperimen skenario 2
│ ├── flow_3/ # Implementasi eksperimen skenario 3 (SMOTE & Pipeline)
│ └── utils/ # Helper fungsi (preprocessing, visualisasi, TF-IDF)
├── requirements.txt # Daftar library Python yang dibutuhkan