Data Analytic
DATA ANALYTIC
data analyst (atau analis data) adalah orang yang bekerja dengan data. Data analyst ahli dalam bidang analisis data, salah satu pekerjaan dalam bidang data science. Data science adalah sebuah cara untuk meneliti dan mengolah data mentah untuk menarik sebuah kesimpulan. Lebih tepatnya lagi, data analysis berkaitan dengan data analytics yang merupakan salah satu cabang dari data science.
big data merujuk pada kumpulan data yang sangat besar dan kompleks sehingga sulit untuk dianalisis dan dikelola dengan cara tradisional. Big data memiliki tiga karakteristik utama yang sering disebut dengan 3V, yaitu:
- Volume (Volume): Ukuran data yang sangat besar, seringkali terabyte atau bahkan petabyte.
- Velocity (Kecepatan): Data yang dihasilkan dan diterima dengan sangat cepat, menuntut pengolahan secara real-time.
- Variety (Variasi): Berasal dari berbagai macam sumber sehingga bentuknya bisa terstruktur, semi terstruktur, maupun tidak terstruktur.
LIBRALY PADA PYTHON:
Matplotlib, merupakan package visualisasi data yang banyak digunakan di Python. Library ini mampu untuk menghasilkan visualisasi seperti histogram, grafik, plot, serta bisa di custom hingga bagian terkecil.
Seaborn, merupakan library yang sering digunakan bersamaan dengan matplotlib. Selain dibuat diatas library Matplotlib, library ini juga terintegrasi dengan numpy dan pandas. Warna dan tampilan yang disajikan dari library ini terlihat lebih menarik dan modern.
Plotly. Selain R, Python juga memiliki library yang bernama plotly. Library ini menjadi salah satu library yang cukup interaktif serta memiliki banyak pilihan grafik, seperti histogram, heatmaps, dll.
Geoplotlib, merupakan salah satu library yang menyediakan visualisasi data dalam bentuk map geografis.
Altair, merupakan package yang cukup interaktif serta tidak membutuhkan coding yang rumit. Hanya saja, untuk menggunakan library ini, kamu akan membutuhkan library lain seperti python 3.6, entrypoints, jsonschema, NumPy, Pandas, dan Toolz karena library ini sangat bergantung pada library tersebut.
Machine learning adalah ilmu pengembangan algoritme dan model secara statistik yang digunakan sistem komputer untuk menjalankan tugas tanpa instruksi eksplisit, mengandalkan pola serta inferensi sebagai gantinya. Sistem komputer menggunakan algoritme machine learning untuk memproses data historis berjumlah besar dan mengidentifikasi pola data. Hal ini memungkinkannya untuk memprediksi hasil yang lebih akurat dari set data input yang diberikan. Misalnya, ilmuwan data dapat melatih aplikasi medis untuk mendiagnosis kanker dari gambar sinar-x dengan cara menyimpan jutaan gambar yang dipindai dan diagnosis yang sesuai.
Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai ini muncul sebagai pengecualian dalam pola data yang ada. Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset. Outlier bisa terjadi karena berbagai alasan, termasuk kesalahan pengukuran, kejadian langka, atau karena faktor lain yang tidak terduga.
Cross validation Sampling adalah metode statistik yang digunakan untuk memperkirakan keterampilan model pembelajaran mesin. Biasanya digunakan dalam pembelajaran mesin terapan untuk membandingkan dan memilih model untuk masalah pemodelan prediktif tertentu karena mudah dipahami, mudah diterapkan, dan menghasilkan estimasi keterampilan yang umumnya memiliki bias lebih rendah dibandingkan metode lainnya.
10. APA ITU HYPERPARAMETER TURNING ?
Hyperparameter tuning adalah proses mencari nilai optimal dari hyperparameter suatu model machine learning untuk memperbaiki performa model machine learning Ini dilakukan dengan mencoba berbagai nilai hyperparameter dan membandingkan hasil mereka dengan metrik performa seperti akurasi atau F1 score. Proses ini dapat menjadi rumit dan membutuhkan banyak waktu, tetapi hasilnya dapat meningkatkan performa model machine learning secara signifikan.
Komentar
Posting Komentar