Nama: Moh. Aflah Azzaky Username dicoding: aflahazzaky
Deskripsi | |
---|---|
Dataset | Fake News Prediction Dataset |
Masalah | Di era digital, penyebaran informasi semakin masif melalui berbagai platform seperti media sosial, portal berita, dan aplikasi perpesanan. Namun, tidak semua informasi yang beredar dapat dipercaya. Berita palsu atau fake news telah menjadi masalah serius yang dapat menyebabkan disinformasi, mempengaruhi opini publik, dan bahkan memicu konflik sosial. Identifikasi berita palsu secara manual sangat sulit karena banyaknya informasi yang beredar dan keterbatasan waktu manusia. Oleh karena itu, diperlukan sistem otomatis berbasis machine learning yang dapat membantu mendeteksi dan mengklasifikasi berita palsu dengan cepat dan akurat. Proyek ini bertujuan untuk mengembangkan model machine learning yang dapat memprediksi berita palsu berdasarkan teks berita, sehingga dapat membantu meminimalkan dampak negatif dari penyebaran berita palsu. |
Solusi machine learning | Pengembangan model klasifikasi yang dapat membedakan berita palsu (fake) dan berita nyata (real) menggunakan dataset teks. |
Metode pengolahan | Pada proyek ini, metode pengolahan data meliputi proses tokenisasi pada fitur input berupa teks dari berita. Proses ini bertujuan untuk mengubah teks menjadi representasi numerik yang sesuai, sehingga dapat dipahami dan diolah oleh model machine learning dengan lebih efektif. |
Arsitektur model | Model ini dirancang untuk memproses data teks menjadi representasi numerik menggunakan TextVectorization, yang secara otomatis mengonversi teks mentah menjadi angka dengan cara menstandarkan teks, menghapus tanda baca, dan membatasi jumlah kata dalam kosakata hingga 10.000. Panjang setiap urutan teks diatur menjadi 100 kata agar konsisten. Setelah data diproses, model menggunakan Embedding Layer dengan dimensi 16 untuk mempelajari hubungan semantik antar kata. Proses ini membantu model memahami karakteristik dan makna kata, seperti apakah suatu kata memiliki konotasi positif atau negatif. Representasi kata yang telah di-embed kemudian diringkas menggunakan GlobalAveragePooling1D untuk menyaring informasi penting dari keseluruhan urutan teks. Model ini terdiri dari dua lapisan tersembunyi, masing-masing memiliki 64 dan 32 unit, yang menggunakan fungsi aktivasi ReLU untuk menangkap pola non-linear dalam data. Lapisan keluaran model menggunakan satu unit dengan fungsi aktivasi sigmoid, yang bertugas menghasilkan nilai probabilitas untuk klasifikasi biner. Untuk melatih model, digunakan fungsi kehilangan binary_crossentropy, Adam optimizer dengan learning rate 0,01, serta metrik akurasi biner untuk mengevaluasi kinerjanya. Struktur lengkap model dapat diperiksa menggunakan metode model.summary() untuk memastikan arsitektur yang diinginkan telah sesuai. |
Metrik evaluasi | Metrik evaluasi yang digunakan pada model meliputi Binary Accuracy, True Positive, False Positive, True Negative, dan False Negative. Metrik-metrik ini dipilih untuk mengevaluasi performa model dalam menentukan klasifikasi secara akurat. |
Performa model | Model yang dikembangkan menunjukkan performa yang sangat baik dalam melakukan prediksi terhadap teks berita yang diberikan. Berdasarkan hasil pelatihan, model mampu mencapai nilai binary accuracy dan val_binary accuracy di kisaran 98%. |