Dasar-Dasar Pandas¶
Langkah pertama yang harus dilakukan yaitu mengimpor library pandas:
Untuk mempermudah, kita akan menggunakan pd sebagai alias dari pandas. Konspep pandas yaitu menyimpan data yang disebut Series dan DataFrame. Series adalah kolom tunggal, sedangkan DataFrame adalah tabel yang terdiri dari beberapa kolom atau series.
Series:¶
| mangga | |
|---|---|
| 0 | 1 |
| 1 | 2 |
| 2 | 3 |
Pandas akan otomatis membuat index untuk series, jika tidak ingin menggunakan index default, kita bisa menambahkan parameter index:
Index tidak harus berupa angka numerik, bisa kita ganti dengan string.
Dataframe¶
DataFrame tidak jauh beda dengan array NumPy yaitu berupa tabel dua dimensi dengan baris dan kolom.
Cara membuat DataFrame adalah dengan menggunakan dictionary:
| apel | |
|---|---|
| 1 | 3 |
| 2 | 0 |
| 3 | 9 |
Untuk DataFrame dengan dua kolom, kita bisa menggunakan dictionary dengan dua key:
| apel | jeruk | |
|---|---|---|
| 0 | 3 | 1 |
| 1 | 0 | 4 |
| 2 | 9 | 2 |
Setelah DataFrame terbentuk kita bebas memanipulasinya.
-
Menghitung jumlah data dengan fungsi count() dan juga menghitung jumlah keseluruhan semua nilai sum()
Output
Output
-
Menghitung rata-rata dengan fungsi mean()
Output
-
Memapilkan statistik singkat tentang dataset seperti jumlah data, angka rata-rata, angka minimal, angka maksimum, standart devation, dan sebagainya
Output
Mengambil Subset dari DataFrame¶
Untuk mengambil subset dari Dataframe dalam Python dapat menggunakan operator indeks dan slicing.
Contoh mengguanakn slicing (potong data) untuk mengambil baris 0 hingga 2.
df.loc[start:end] # untuk baris, berdasarkan label
df.iloc[start:end] # untuk baris, berdasarkan posisi indeks
output