Disaster Recovery for Cloud Compute

Werner Vogels yang merupakan vice president Amazon mengatakan everything fails, all the time atau setiap hal mengalami kegagalan-kegagalan, di setiap waktu. Hal itu yang menjadi dasar bahwa persiapan saat menghadapi kegagalan adalah penting. Perencanaan juga terbagi berdasarkan jenis bencananya, skala kecil, besar, atau kolosal. Yang dimaksud kegagalan ini tidak hanya perangkat keras tetapi juga perangkat lunak. 

sumber: anonim

Recovery Point Objective (RPO) merupakan jumlah kehilangan data yang dapat diterima dalam waktu tertentu, sedangkan Recovery Time Objective (RTO) adalah waktu yang diperlukan setelah gangguan untuk memulihkan proses bisnis sehingga pulih seperti semula. Kedua hal itu dipertimbangkan untuk meminimalisir kehilangan bisnis dan reputasi yang buruk. Penyimpanan merupakan kunci dari disaster recovery, AWS menawarkan berbagai strategi dalam melakukan penyimpanan, yaitu:

  1. Amazon S3, mengaktifkan cross-region replication
  2. Amazon S3 Glacier, memang tujuannya untuk pengarsipan dan pencadangan
  3. Amazon EBS, membuat snapshot point-in-time
  4. Amazon Snowball, menduplikasi secara manual
  5. Amazon Sync, menyinkronkan file di on-premise atau cloud dengan Amazon Elastic File System
AWS juga menyediakan layanan backup bernama AWS Backup yang merupakan layanan terkelola untuk memusatkan dan mengotomatiskan pencadangan. Sedangkan pada kasus komputasi, menjadi penting untuk membuat instance baru di availability zone yang berbeda untuk menghindari ketidaktersediaan. Artinya menjadi penting untuk mengatur pemulihan secara otomatis dari instance EC2, saat dia reboot akan mempertahankan ID instance, IP address, elastic IP, dan konfigurasi detail lainnya. Selain instance yang perlu dikonfigurasi adalah AMI, karena AMI menjadi bagian dari prosedur pemulihan ketika terjadi gangguan.

Jika sebelumnya telah dibahas menangani bencana untuk penyimpanan dan komputasi, maka sekarang muncul pertanyaan layanan apa yang menangani bencana untuk jaringan. Jawabannya adalah Amazon Route 53 (kemampuan mengalihkan operasi), Elastic Load Balancing (fault tolerance yang besar untuk mengatasi lalu lintas yang masuk), Amazon VPC (memperluas topologi jaringan), dan AWS Direct Connect. Pada database tentu saja layanan untuk menangani bencana dimiliki oleh Amazon RDS (snapshot region berbeda, read replica multi-AZ, hingga automated backup) dan Amazon DynamoDB (backup table dalam hitungan detik).

Bagian penyimpanan, komputasi, jaringan, dan database telah dilakukan penanganan terjadinya bencana. Sekarang giliran deployment yang menangani terjadinya bencana melalui AWS CloudFormation (gunakan template), AWS Elastic Beanstalk (deploy ulang stack), dan AWS OpsWorks (kombinasikan dengan CloudFormation). Sudah ada 5 kategori yang perlu untuk dilakukan recovery, lalu strategi yang terbaik bagaimana. Sedikitnya ada 4 strategi dalam melakukan penanggulangan bencana yang dapat diterapkan:

  1. Backup and Restore
    • Mengirim data keluar lokasi dengan memanfaatkan layanan Amazon S3. Backup Data on-Premise ke AWS dapat dilakukan melalui AWS Storage Gateway. Di AWS Storage Gateway itu terdapat 3 penyimpanan antarmuka, yaitu file gateway (protokol file NFS dan SMB, dapat langsung diakses S3), volume gateway (protokol iSCSI, bisa menggunakan cached volume (lebih hemat biaya) atau stored volume (latensi rendah)), dan tape gateway (protokol iSCSI Virtual Tape Library, bisa diarsipka ke Amazon S3 atau Glacier). Untuk mengimplementasikan AWS Storage Gateway ada 2 pendekatan yaitu menyimpan langsung ke Amazon S3 melalui panggilan API ke layanan AWS dan permintaan HTTP PUT dan GET melalui internet.
      • Solusi Off-Site Backup dengan Gateway-Stored Volume
        • sumber: anonim

          Menggunakan layanan Elastic Beanstalk.
      • Restore Backup ke Data Center On-Premise dengan Gateway-Stored Volume
        • sumber: anonim

        • Menggunakan disk lokal baru.


  2. Pilot Light
    • sumber: anonim
    • Cara kerja dari strategi ini adalah ketika bencana terjadi di lingkungan on-premise maka sistem akan mengalihkan operasinya ke Pilot Light AWS. Langkahnya adalah buat instance EC2 untuk replikasi, kelola Amazon Machine Image (AMI), secara berkala jalankan-atur-perbarui software, dan pertimbangkan penggunaaan sumber daya yang otomatis.


  3. Fully Working Low-Capacity Standby


    • Mirip seperti pilot light namun dengan level lebih lanjut yaitu adanya sumber daya yang standby. Persiapan awalnya sama dengan pilot light, semua komponen diperlukan berjalan 24/7 tetapi untuk bagian production tidak di-scale, uji secara berkala, dan alihkan sebagian kecil traffic production ke situs disaster recovery.
      sumber: anonim

  4. Multi-Site Active-Active
    • sumber: anonim
      Cara kerjanya adalah menjalankan sistem di waktu yang bersamaan di on-premise dan di AWS. Persiapan mirip dengan low-capacity standby, scaling in dan scaling out sepenuhnya untuk mengatasi beban production.
Strategi pilot light merupakan strategi yang relatif murah, namun untuk mendapatkan failover, tetapi untuk mendapatkan performa terbaik saat terjadi disaster maka multi-site active-active adalah yang terbaik. Sebelum menentukan praktik mana yang akan diterapkan untuk menghadapi disaster maka perlu diperhatikan 3 poin, yaitu mulai dari yang paling mudah, periksa masalah lisensi perangkat lunak, dan lakukan latihan disaster recovery. Secara biaya strategi di atas yang paling murah adalah backup and restore, kemudian secara berurut yang paling mahal adalah multi-site active-active.

Tipe dari disaster yang terjadi ada 7, yaitu cyber attacks, software (IT system error), hardware issues, network failure, on-premises data center failure, on-premises power outage, dan natural disaster. Tipe disaster tersebut akan membuat downtime yang memiliki 2 akibat, yaitu cost labor dan cost revenue. Setiap karyawan dalam sebuah perusahaan tentu digaji, walaupun dalam hitungan bulan namun dapat di-breakdown menjadi hitungan menit sehingga bisa dihitung jika terjadi downtime dalam hitungan menit. Begitu pula revenue yang dapat dihitung per tahun kemudian di-breakdown menjadi hitungan hari hingga menit.

Sumber: https://event.cloudcomputing.id/live

Di atas adalah flow service provider Acronis untuk menangani disaster. Layanan disaster tersebut di luar AWS. Acronis merupakan sebuah perusahaan yang memiliki full stack cyber protection untuk mencegah terjadinya downtime.




ref:
https://aws.amazon.com/
cloud-computing-indonesia-conference

Komentar