Dalam data analytics, data preprocessing merupakan salah satu tahapan pengolahan data yang penting untuk dilakukan. Tahapan ini melibatkan berbagai proses, seperti membersihkan data, transformasi data, hingga mempersiapkan data mentah agar dalam pemodelan lebih efektif atau analisis lebih lanjut. Data preprocessing ini bertujuan untuk menghilangkan ketidaksempurnaan data, mengoptimalkan kualitas data, dan mengubah data menjadi format input yang sesuai dengan model yang digunakan. Beberapa prosesnya, yaitu pembersihan data dilakukan untuk menangani data yang hilang dan menangani data outlier atau pencilan. Transformasi data dilakukan untuk mengubah data, seperti menormalisasikan data atau melakukan encoding (mengubah data kategori menjadi bentuk numerik), atau reduksi dimensi yang mengurangi fitur-fitur tidak relevan untuk model. Terdapat pula feature selection untuk memilih fitur yang relevan atau penting untuk analisis atau pemodelan, sehingga dapat meningkatkan efisiensi pemodelan atau analisis. Jika pada text processing, pengolahan datanya dapat dilakukan seperti stemming, stopword, dan tokenizing.
Business intelligence merupakan proses untuk mendapatkan informasi bisnis yang melalui beberapa tahapan, seperti mengumpulkan data, integrasi data untuk mengubah data menjadi data terstruktur, menganalisis data, visualisasi data, hingga pelaporan atau presentasi dari analisis yang telah diolah dan solusi yang didapatkan. Adanya business intelligence dapat memberikan informasi yang berharga dari data yang didapatkan, seperti data suatu perusahaan, dengan insight tersebut suatu organisasi atau perusahaan dapat menganalisis kelebihan, kekurangan, dan kemungkinan terjadinya risiko bisnis. Business intelligence juga dapat memberikan insight terkait perilaku dari customer, pesaing, dan lingkungan bisnis secara umum. Untuk membuat business intelligence, ada beberapa tools yang dapat digunakan, salah satunya tool populer adalah Tableau. Tableau memungkinkan untuk memvisualisasikan dan memahami data. Tableau dapat menggambarkan data secara interaktif dalam bentuk grafik yang lebih mudah untuk dipahami. Integrasi pada Tableau dapat dikatakan mudah karena dapat diintegrasikan dari berbagai sumber data, seperti database, text file, csv dan API. Selain itu, Tableau memiliki fitur prediksi yang memungkinkan pengguna untuk membuat model peramalan sederhana tanpa perlu pengetahuan statistik yang mendalam.
Data integration merupakan sebuah proses menggabungkan data dari berbagai sumber dan memadukannya menjadi satu set data yang terpadu dan dapat digunakan. Tujuan utama dari data integration adalah menciptakan sumber data tunggal yang akurat dan komprehensif untuk analisis, pelaporan, hingga pengambilan keputusan yang lebih baik. Misalnya, perusahaan memiliki data yang dihasilkan dari berbagai sumber, seperti trafik website, CRM, dan berbagai software marketing lainnya, sehingga perlu adanya data integration untuk kepentingan data analytics agar mendapatkan insight bagi perusahaan. Salah satu bagian dari data integration adalah Extract, Load, dan Transform (ETL). ETL meliputi proses dari pengambilan data hingga penyimpanan data. Extract melibatkan pengambilan data dari berbagai sumber. Transform melibatkan proses seperti pembersihan data, mengubah, dan menggabungkan data agar sesuai dengan format yang dibutuhkan. Load melibatkan penggabungkan data yang telah diextract dengan format data yang cocok untuk penyimpanan dan penggunaan selanjutnya. Tool yang biasanya digunakan adalah Pentaho. Pentaho menyediakan layanan data integrasi, OLAP, reporting, dashboarding, dan ETL. Pentaho efektif digunakan karena kelebihannya, seperti fleksibilitas, support untuk big data visualisasi data, dan open-source, sehingga dapat digunakan analisis data secara efisien.
Exploratory Data Analysis (EDA) merupakan proses memahami data sebelum masuk ke proses modeling atau feature engineering. Memahami datanya dapat meliputi memahami distribusi data, frekuensi, korelasi, dan lainnya. EDA menginvestigasi data untuk mengidentifikasi pola ataupun menemukan anomali. Ada beberapa teknik yang dilakukan untuk EDA, yaitu statistik deskriptif, univariate analysis, dan multivariate analysis. Statistic descriptive merangkum data dan menampilkan informasi secara umum, seperti rata-rata, median, modus, standar deviasi, variansi, ataupun cekungan yang dapat divisualisasikan melalui tabel, diagram, ataupun grafik. Univariate analysis biasanya dibagi menjadi dua, yaitu numerik dan kategori. Analisis ini dilakukan dengan kolom terpisah untuk melihat distribusi dari datanya. Berbeda dengan multivariate analysis yang menggabungkan beberapa kolom untuk melihat korelasi atau hubungan antara kolom satu dengan kolom lainnya.