Langsung ke konten utama

Cara Untuk Gain Hasil yang Diharapkan Dari Domino QQ ?

Dalam kurun waktu tersebut, judi online sangat digandrungi oleh hampir setiap orang di seluruh dunia terutama karena judi internet memberikan beberapa keuntungan bagi individu. Perjudian internet bukan hanya formulasi menghasilkan uang tetapi juga pengejaran menyenangkan yang sangat baik. Ada yang banyak mengintai permainan dalam komunitas online taruhan, termasuk, poker, dominoqq, roulette, baccarat, blackjack, dan bahkan lebih bahwa orang dapat menikmati di rumah mereka. Semua orang tahu, judi online sangat digemari masyarakat, namun di Indonesia memiliki kelompok penggemar tersendiri. Di Indonesia, banyak orang mengambil risiko dalam permainan judi setiap saat untuk mendapatkan uang. Tidak ada perbedaan antara game perjudian online ditambah pertandingan kasino darat, dan individu dapat membelanjakan uang untuk game perjudian online apa pun. Untuk pemula, taruhan online bisa jadi sulit karena taruhan online memiliki beberapa kelemahan, dan orang-orang yang mengenali semua prinsip dap...

Sentimen Netizen terhadap Presiden Jokowi berdasar Twitter Mei 2018: Implementasi Sederhana Teknologi Big Data dan Machine Learning


Pada artikel sebelumnya (Analisa Sentimen Masyarakat terhadap Presiden Jokowi Berdasar Data Twitter: Sebuah Contoh Sederhana Pemberdayaan Big Data) telah dibahas bagaimana memberdayakan data tak berstruktur (teks twitter) untuk mengukur sentimen terhadap suatu subyek (dalam hal ini Presiden Jokowi) dengan mengimplementasikan pola pemrosesan Big Data dan salah satu algorithma machine learning. Dengan menerapkan metode yang cukup sederhana, dapat dicapai hasil akhir berupa persentase sentimen Positif, Negatif, maupun Netral terhadap Presiden Jokowi selama kurun waktu satu bulan (April 2018). Selain itu, juga didapat data tentang hashtag/tagar maupun tweet/cuitan mana yang berkontribusi signifikan terhadap tiap sentimen.

Pada artikel ini, serupa dengan artikel sebelumnya, topik yang dibahas masih seputar mengukur sentimen netizen terhadap Presiden Jokowi dengan menganalisa cuitan Twitter. Namun, data yang dianalisa adalah cuitan Twitter selama bulan Mei 2018 dengan klasifikasi sentimen meliputi Positif, Negatif, Netral, Bangga, Kecewa, dan NA (Not Applicable = diluar klasifikasi). Berkenaan dengan langkah-langkah pemrosesan data-nya, mulai proses collecting, storing, analysing, dan visualisation masih menggunakan metode yang sama.

Namun demikian, pada artikel terdahulu, belum ada pembahasan tentang seperti apa teknik Machine Learning yang diterapkan untuk melalukan text classification berbahasa Indonesia?


Secara garis besar, pertama-tama yang disiapkan adalah training data untuk membuat model yang akan dijadikan acuan untuk mengelompokkan cuitan Twitter ke dalam kategori sentimen tertentu (Positif, Negatif, Netral …?). Isi dari training data ini adalah teks cuitan Twitter berbahasa Indonesia yang di-posting pada bulan sebelumnya (April 2018). Kemudian model dibuat berdasarkan feature words yang dipilih dari training data yang sudah diberi label. Proses pemilihan feature words dilakukan dengan menerapkan salah satu algorithma feature selection yang dikenal dengan nama Chi-square.

Sebelum proses feature selection dilakukan, teks cuitan Twitter dalam training data mesti dibersihkan dulu dari unsur-unsur yang tidak penting dalam pemilihan feature words, diantarnya: stopword (dan, atau, kepada, daripada …), tagar (#), at-mark (@), url (http, https), awalan maupun akhiran. Langkah-langkah pembersihan ini (text cleaning) meliputi text tokenization, pembersihan non-word characters (tanda baca, tagar, at-mark, url, …), stopword removal, word stemming (mengubah tiap kata menjadi kata dasar), dan basic word dictionary referencing (tiap kata dasar yang didapatkan dari proses ini akan diverifikasi dengan kamus kata dasar, dipilih hanya yang merupakan kata dasar Bahasa Indonesia).

Setelah mendapatkan feature words, barulah kemudian diterapkan algorithma Naïve Bayes untuk mengklasifikasikan setiap cuitan Twitter yang dikehendaki ke dalam kategori sentimen yang telah ditentukan. Pada proses klasifikasi ini pun, setiap teks cuitan yang diproses (diklasifikasikan) harus melalui proses text cleaning seperti pada proses pemilihan feature words. Perlu dicatat: Algorithma Naïve Bayes mungkin bukan yang terbaik untuk text classification, tapi algorithma ini dikenal cukup sederhana dan cepat. Algorithma lain yang dapat diterapkan bisa menggunakan SVM (Support Vector Machine) maupun KNN dengan cosine similarity. Sekali lagi, data cuitan Twitter yang diproses adalah cuitan selama bulan Mei 2018. Berikut adalah hasilnya setelah divisualisasikan menggunakan Tableau.

Gambar 1. Persentasi Cuitan Positif (> 50%), Negatif (< 25 %), Netral (< 2,5%)


Gambar 2. Kontribusi Tagar pada Tiap Sentimen (sebagian besar berkontribusi pada sentimen Positif)

Berdasarkan Gambar 1, dapat disimak dengan jelas bahwa persentase sentimen Positif (> 50 persen) mencapai lebih dari dua kali lipat persentase sentimen Negatif (< 25 persen). Sedangkan pada Gambar 2, dapat diperoleh informasi bahwa sebagian besar Tagar memberikan kontribusi dengan porsi yang lebih besar kepada sentimen Positif kecuali Tagar #2019GantiPresiden dan Tagar #2019PresidenBaru. Tagar-tagar yang menyumbang sentimen Positif secara signifikan diantaranya: #2019TetapJokowi, #RakyatB3rsamaJkw, #2019JokowiLanjut, #PesonaBandaraKertajai, dan #Jokowi.


DISCLAIMER:

  1. Artikel ini semata-mata dimaksudkan untuk memberikan contoh implementasi analisa Big Data dengan metode yang relatif sederhana dan masih jauh dari sempurna.
  2. Tingkat akurasi dari hasil analisa pada artikel ini tidak dihitung dan belum dapat ditentukan.
  3. Isi artikel ini tidak dapat dijadikan sebagai referensi apapun selain hanya sebagai contoh sederhana pemberdayaan Big Data.

Postingan populer dari blog ini

Apache Nutch Crawl Script : Web Crawling hanya dengan Satu Command

Pada artikel Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB telah dibahas secara singkat tentang apa itu Apache Nutch, apa itu Elasticsearch, dan Apa itu MongoDB. Kemudian, pada artikel Crawling dan Indexing Berbasis Apache Nutch, Elasticsearch, dan MongoDB telah dijelaskan langkah-langkah website crawling menggunakan Apache Nutch yang meliputi 6 tahap dengan mengeksekusi 6 command Apache Nutch, yaitu: inject, generate, fetch, parse, updatedb, index. Telah disebutkan pula bahwa proses crawling yang meliputi 6 langkah ini tidak cukup hanya dilakukan satu kali untuk dapat meng-index seluruh isi website yang dijadikan target. Beruntungnya, Apache Nutch juga dilengkapi dengan script yang dapat mempersingkat proses crawling dari 6 langkah menjadi satu langkah saja, yaitu dengan mengeksekusi perintah berikut: hennywijaya$ runtime/local/bin/crawl urls/ webpage3 http://localhost:9300/nutch/ 3 Adapun arguments dari perintah diatas adalah: 1. urls adalah direc...

Teknologi Big Data Fundamental: Kelebihan Hadoop versi 2 dibanding Hadoop versi 1

Apa itu Apache Hadoop Apache Hadoop adalah software framework yang memungkinkan pemrosesan data berukuran besar secara terdistribusi dengan melibatkan berkluster-kluster komputer. Hadoop didesain untuk dapat bekerja secara efektif baik dalam skala terkecil yang hanya melibatkan satu server hingga skala besar yang memperkerjakan ribuan komputer dimana masing-masing komputer tersebut memfasilitasi komputasi dan penyimpanan data secara lokal. Untuk menjamin High Availability, Hadoop tidak menggantungkannya pada hardware yang digunakan, tetapi framework Hadoop itu sendiri telah didesain untuk dapat mendeteksi dan menangani gagal fungsi (failure) pada level/layer aplikasi. Framework Hadoop terdiri atas 4 komponen (modul) utama, sebagai berikut: 1. Hadoop Distributed File System (HDFS), adalah file-system terdistribusi yang memfasilitasi penyimpanan data secara terdistribusi dalam kluster komputer. 2. Hadoop MapReduce, adalah sebuah sistem yang ditujukan untuk memproses data berukuran besar ...

Penerapan Model Pemrograman MapReduce Menggunakan Java dan MongoDB untuk Mencari Mutual Friends ala Facebook

Pada artikel "Mengaplikasikan MapReduce untuk Mencari Mutual Friends ala Facebook" telah dijelaskan bagaimana menerapkan pola pemrograman MapReduce untuk mencari mutual friends atau friends in common pada hubungan pertemanan di jejaring sosial ala Facebook. Pada artikel ini akan dibahas implementasi atau penerapan pola pemrograman MapReduce tersebut menggunakan bahasa program Java dan database NoSQL MongoDB. Bagi yang masih asing dengan MongoDB, silakan menyimak artikel "MongoDB : Database NoSQL Berbasis Dokumen yang sedang Naik Daun di Era Big Data" untuk mengenal database berbasis dokumen MongoDB. Kemudian, untuk cara instal MongoDB dijelaskan dalam artikel "Web Crawling: Menyerap isi Website dan Membangun Mesin Pencari ala Google Menggunakan Apache Nutch, Elasticsearch, dan MongoDB-bagian 2/3". Jadi, disini kita akan langsung mulai mengoperasikan MongoDB melalui Mongo Shell dan dengan menggunakan bahasa program Java melalui MongoDB Java Driver. Pada con...