この記事は、 PLEX Advent Calendar 2024 の14日目の記事です。
こんにちは、株式会社プレックスのコーポレートチームの金山です。
この記事では「Airbyte」というデータ基盤で使われるツールについて紹介したいと思います。
Airbyteとは
Airbyteとは、オープンソースで公開されているデータ同期ツールです。
Airbyteは、様々なデータソースからデータを抽出(Extract)し、データウェアハウスやデータレイクなどにロード(Load)するために使用されます。
例えば、ウェブアプリで使用しているPostgreSQLのデータを、分析用のBigQueryに同期するといったことが可能です。 今回はこのAirbyteを実際に使ってみて感じた良いところを紹介したいと思います。
豊富なコネクタ
Airbyteのコネクタとは、特定のデータソースまたは転送先と接続してデータをやり取りするためのモジュールです。
これらのコネクタを利用して、様々なデータソースからデータを抽出し、指定した転送先にロードします。
代表的なコネクタは以下の通りです。
以下のページで対応しているコネクタの一覧を確認できます。
ただし、日本製品向けのコネクタが少ないのがデメリットです。
コネクタが提供されていない場合は、独自のカスタムコネクタを開発することで対応可能です。
わかりやすい管理画面
Airbyteの管理画面は、必要最低限の機能にまとめられており、直感的で使いやすいのが特徴です。
データ同期までのステップが非常にわかりやすく、初めて触る人でも簡単に操作できます。簡単な設定とボタンひとつで同期できたときは感動しました。
デモサイトが公開されているので、実際のUIや操作感を確認してみてください。
選べる実行環境
Airbyteは公式提供のクラウドサービスもあります。
- フルマネージドサービス
- オートスケーリング対応
- 2週間無料トライアル
- 従量課金制(データ同期量に応じて課金される)
インフラ設定無しですぐに使えるのは魅力的ですが、料金が高いです。
なので、基本的には自社で用意したインフラにオープンソース版のAirbyteをインストールして利用することになると思います。
シンプルな構成ならDocker Composeでデプロイ、スケーラブル対応ならKubernetesでデプロイします。
無料でクラウド版を使ってみた
Airbyte クラウドを利用して実際にNotionのデータをBigQueryに同期してみました。
まずはデータソースを設定します。
データソースのコネクタ一覧からNotionを選択。設定ページに移動するので、認証方法を選択してデータソースを設定します。
続いて転送先を設定します。
転送先のコネクタ一覧からBigQueryを選択。設定ページに移動するので、プロジェクトIDやデータセットIDを定義して転送先を設定します。
転送先の設定が完了するとデータソースのスキーマの取得が始まります。 スキーマの取得が終わったら転送先に同期したいスキーマを選択します。
最後にコネクションの設定です。 同期頻度(間隔かcronか)や同期モード(差分更新か全件更新か)を設定します。
コネクションの設定が完了すると同期が始まります。
同期が完了しました。
BigQueryに同期されたことが確認できました。
まとめ
以上、Airbyteについてご紹介しました。
データ同期ツールは他にもFivetranやStitchなどの選択肢がありますが、Airbyteはオープンソースで自由度が高く、自社環境でコスト効率よく運用したい方におすすめです。
この記事を読んでAirbyteに興味を持ってもらえたら幸いです。