K-Means, salah satu metode clustering, merupakan bagian dari unsupervised learning yang mana pembelajaran mesinnya tidak perlu mengetahui label atau kelas data. Clustering sendiri mengelompokkan obyek-obyek data yang dari himpunan data berdasarkan kemiripan (similarity) dan ketidakmiripan (dissimilarity). K-Means berbasis partisi dan berbasis centroid (berbasis jarak). Selain itu, K-Means meminimalkan Sum-Squared Error (SSE) antara obyek data dan K centroid. Ada dua cara yang digunakan untuk menghitung jarak pada K-Means, dapat menggunakan Euclidean Distance dan City Block (Manhanttan Distance). Untuk mendapatkan cluster optimal dapat menggunakan metode Elbow dan metode Silhouette Score. K-Means sendiri mengelompokkan data menggunakan data kontinu. Berbagai penerapan kasus dapat diimplementasikan menggunakan K-Means, salah satunya adalah bisnis. K-Means populer digunakan pada kasus segmentasi konsumen atau klasterisasi produk penjualan. Adanya segmentasi konsumen ini dapat bermanfaat dalam melihat mana konsumen yang potensial dan konsumen yang kurang menguntungkan, sehingga dapat memberikan insight baru bagi pemangku bisnis dalam mempertimbangkan pengambilan keputusan, juga sebagai strategi bisnis yang lebih efektif.
Berbicara tentang teks, machine learning dapat digunakan untuk mengolah teks menjadi suatu model yang dapat mengklasifikasikannya menjadi suatu kategori atau kita sebut text classification. Dalam text classification ini ada yang namanya sentiment analysis atau analisis sentimen. Analisis sentimen termasuk dalam text mining yang berkaitan dengan Natural Language Processing (NLP) yang dapat mengesktraksi ekspresi, emosi, dan opini pada teks. Analisis sentimen dapat mengidentifikasi suatu teks mengandung sentimen positif, negatif, atau netral dan sering digunakan untuk kasus review/ulasan. Text classification pada analisis sentimen ini dapat dilakukan secara manual dan otomatis. Jika diklasifikasikan secara manual akan melibatkan seorang annotator. Namun, jika text classification secara otomatis dapat dilakukan dengan teknik berbasis machine learning tentunya akan menghemat waktu dan biaya. Salah satu metode klasifikasi yang dapat digunakan untuk analisis sentimen populer adalah Support Vector Machine (SVM). Metode SVM menggunakan hyperplane dan powerful diimplementasikan untuk data berdimensi tinggi. Sebelum menggunakan SVM, terdapat tahap text preprocessing (tahapan sebelum teks diklasifikasikan) yang perlu diketahui. Beberapa tahapan dalam text proprocessing, yaitu case folding (mengubah huruf kapital menjadi huruf kecil), tokenizing (memecah kalimat menjadi kata, frasa, dan simbol yang disebut dengan token), stopword (menghilangkan kata-kata umum seperti kata depan), stemming (mengubah kata menjadi kata dasar atau menghilangkan imbuhan).
Dalam supervised learning, pembelajaran mesin memerlukan kelas atau label. Supervised learning terdiri dari dua, yaitu klasifikasi dan regresi. Jika klasifikasi mengkategorikan data yang belum berlabel berdasarkan data yang telah dilatih dengan data berlabel. Maka, berbeda dengan regresi yang merupakan teknik pembelajaran mesin yang mengidentifikasi relasi antara dua varibel atau lebih. Regresi ini meminimalkan error atau selisih antara nilai prediksi dan nilai sebenarnya. Untuk datanya sendiri, regresi menggunakan data kontinu. Salah satu metode regresi populer adalah regresi linear. Regresi linear memodelkan hubungan antara satu variabel terikat (dependent) dan satu variabel bebas (independent). Variabel terikat merupakan variabel yang diprediksi, sedangkan variabel bebas merupakan variabel yang memengaruhi variabel terikat. Linear regresi melibatkan pencarian garis lurus terbaik yang sesuai dengan data. Linear regresi dapat digunakan dalam kasus salah satunya adalah prediksi menggunakan data time series. Dalam bidang investasi, linear regresi dapat membantu memprediksi harga emas untuk para investor agar dapat mengambil keputusan investasi yang tepat.
Bagaimana komputer dapat mengenali gambar itu adalah kucing atau anjing? Image recognition adalah solusinya. Image recognition atau pengenalan citra dapat dilakukan secara otomatis menggunakan metode machine learning>. Image recognition sendiri merupakan suatu teknik mengenali pola atau object pada suatu citra dan termasuk dalam bagian computer vision. Ada banyak metode yang dapat digunakan untuk pengenalan pola. Support Vector Machine (SVM), metode machine learning> yang tidak hanya dapat mengklasifikasikan teks seperti course sebelumnya, tetapi SVM juga dapat digunakan untuk mengklasifikasikan gambar. Untuk mengklasifikasikannya, perlu adanya ekstraksi fitur, yaitu teknik untuk mengekstraksi ciri pada suatu citra sebelum citra dilatih dan diklasifikasikan berdasarkan kategori atau kelas tertentu. Setelah itu, barulah menggunakan metode machine learning> untuk proses pembelajaran. Kasus pengenalan citra sangat menarik dan berpotensi untuk dikembangkan. Image recognition dapat digunakan dalam berbagai bidang, seperti bidang kesehatan, bisnis, manufaktur, transportasi, hingga teks. Misalnya, pada bidang medis, pengenalan citra dapat digunakan untuk mendeteksi penyakit secara otomatis seperti deteksi menggunakan citra x-ray.
Ketika belanja kopi, konsumen cenderung belanja gula juga. Apakah kita bisa menganalisis pola konsumen seperti ini? Tentu bisa! Apriori dan FP Growth adalah dua metode yang dapat mengungkap preferensi belanja konsumen secara akurat. Kedua metode ini digunakan untuk membuat association rules, yaitu teknik analisis dalam mengidentifikasi hubungan berbagai item dalam kumpulan data besar. Jadi, kita dapat menemukan pola tersembunyi dan menganalisis korelasi antara item-item yang berbeda. Penerapan association rules ini dapat digunakan pada kasus seperti rekomendasi produk pada situs web e-commerce dan market basket analysis.