はじめに
こんにちは。
サイバーエージェント/グループIT推進本部/データプロダクトユニット所属の光永です。
「新型Snowball*1」に触れる機会があったためブログにまとめてみました。
導入した背景
現在、データセンターのデータ整備の一環で、HDFSのデータをS3に移管するプロジェクトを進めています。
旧型Snowball*2では、安定性や転送速度、格納できるデータ量の上限について課題を感じていました。
2023年の年初から2.5PB程度のデータを、旧型Snowballの2台体制で交互に転送を実施していましたが、データが1台あたり80TBまでしか入らないため、台数が多くなり、その運用負荷が課題になっていました。
待望の新型Snowballがこちら
CPU | メモリ | ストレージ | 大きさ | |
旧型Snowball | 40vCPUs | 80GB | 80TB(HDD) | 高さ:15.5 インチ (394 mm) 幅:10.6 インチ (265 mm) 長さ:28.3 インチ (718 mm) |
新型Snowball | 104vCPUs | 416GB | 210TB(SSD) | 高さ:15.5 インチ (394 mm) 幅:10.6 インチ (265 mm) 長さ:28.3 インチ (718 mm) |
写真と比較表*3の通り、新型Snowballと旧型Snowballのサイズは同じです。インターフェース部分に変更がありますが、正直そこまで見た目の違いは分からないと思います。
大きさも変わらないため、今まで旧型Snowballを利用されていた方は設置に困らないはずです。設置担当者からは、電源を入れたときのファンの音が大きくなり、よりスムーズに排気が出来るようになったのでは、とのコメントを頂いています。
旧型Snowballでもファンの主張が大きかったですが、新型Snowballはもっとヤバい感じです。
性能はCPUは2.5倍以上、メモリは5倍以上、ストレージは2.5倍以上かつSSDに変更になっており、スペックが大幅に向上している事がわかりますね。
改善された点
旧型Snowballの3倍近くのデータ保存領域
Snowballは、発注後ベストエフォートでデータセンターに到着するため、当日急に電話が鳴って届きます。旧型Snowballの3倍近くのデータが入ることにより、この突発的なデータセンターの入館作業が3分の1になることは、運用負荷の低減につながります。
旧型Snowballの3倍近くのデータ転送速度
Snowballへ大量のデータを高いスループットで転送するには、データを並列に送ることで実現できます。旧型Snowballは、24から32並列が限界で、スループットは、最大でも5Gbps程度でした。*4
Snowballの負荷状況を確認することができないため、ギリギリのチューニングが求められます。しかし、今回の新型SnowballはCPUがかなり増強されているため、限界に挑戦してみました。
新型Snowballのパフォーマンス検証
「vCPUの個数が104個のため、104並列まで線形に転送量が増えるのではないか」という仮説のもと、検証を行いました。
10Gbpsで張り付いていたため、もしかしたら帯域の制限にかかっているのでは?となりネットワーク機器を変更(RJ45からQSFPへ変更)して40Gbpsまで耐えるようにしました。
再度、検証してみるとなんと脅威の14Gbpsまで転送速度が増えました。
これにより、高い要求の転送ワークロードでも安心して利用ができそうです。
まとめ
今回は、新型Snowballを試してみました。旧型よりもデータ保存量が増え、一度に大量にデータを送ることができ、運用負荷の軽減を実感することができました。
新型Snowballを使うことで、今まで以上に高速に大量のデータをS3へ転送することが可能になりました。気になる方は、是非使ってみてください。
*1 Snowball Edge Storage Optimized with 210TB
*2 Snowball Edge Storage Optimized with 80TB
*3 https://docs.aws.amazon.com/ja_jp/snowball/latest/developer-guide/sbe-specifications.html
*4 送信ファイルのサイズが小さいため、並列数を上げることでスループットを向上させています。
パッケージ化等も模索しましたが、様々な要因でそのまま転送しています。