自社のデータ基盤を支えるAirbyteの良いところ

この記事は、 PLEX Advent Calendar 2024 の14日目の記事です。

こんにちは、株式会社プレックスのコーポレートチームの金山です。

この記事では「Airbyte」というデータ基盤で使われるツールについて紹介したいと思います。

Airbyteとは

Airbyteとは、オープンソースで公開されているデータ同期ツールです。

airbyte.com

Airbyteは、様々なデータソースからデータを抽出(Extract)し、データウェアハウスやデータレイクなどにロード(Load)するために使用されます。

例えば、ウェブアプリで使用しているPostgreSQLのデータを、分析用のBigQueryに同期するといったことが可能です。 今回はこのAirbyteを実際に使ってみて感じた良いところを紹介したいと思います。

豊富なコネクタ

Airbyteのコネクタとは、特定のデータソースまたは転送先と接続してデータをやり取りするためのモジュールです。

これらのコネクタを利用して、様々なデータソースからデータを抽出し、指定した転送先にロードします。

代表的なコネクタは以下の通りです。

以下のページで対応しているコネクタの一覧を確認できます。

airbyte.com

ただし、日本製品向けのコネクタが少ないのがデメリットです。

コネクタが提供されていない場合は、独自のカスタムコネクタを開発することで対応可能です。

わかりやすい管理画面

Airbyteの管理画面は、必要最低限の機能にまとめられており、直感的で使いやすいのが特徴です。

データ同期までのステップが非常にわかりやすく、初めて触る人でも簡単に操作できます。簡単な設定とボタンひとつで同期できたときは感動しました。

デモサイトが公開されているので、実際のUIや操作感を確認してみてください。

airbyte.com

選べる実行環境

Airbyteは公式提供のクラウドサービスもあります。

  • フルマネージドサービス
  • オートスケーリング対応
  • 2週間無料トライアル
  • 従量課金制(データ同期量に応じて課金される)

インフラ設定無しですぐに使えるのは魅力的ですが、料金が高いです。

なので、基本的には自社で用意したインフラにオープンソース版のAirbyteをインストールして利用することになると思います。

シンプルな構成ならDocker Composeでデプロイ、スケーラブル対応ならKubernetesでデプロイします。

無料でクラウド版を使ってみた

Airbyte クラウドを利用して実際にNotionのデータをBigQueryに同期してみました。

まずはデータソースを設定します。

データソースのコネクタ一覧からNotionを選択。設定ページに移動するので、認証方法を選択してデータソースを設定します。

続いて転送先を設定します。

転送先のコネクタ一覧からBigQueryを選択。設定ページに移動するので、プロジェクトIDやデータセットIDを定義して転送先を設定します。

転送先の設定が完了するとデータソースのスキーマの取得が始まります。 スキーマの取得が終わったら転送先に同期したいスキーマを選択します。

最後にコネクションの設定です。 同期頻度(間隔かcronか)や同期モード(差分更新か全件更新か)を設定します。

コネクションの設定が完了すると同期が始まります。

同期が完了しました。

BigQueryに同期されたことが確認できました。

まとめ

以上、Airbyteについてご紹介しました。

データ同期ツールは他にもFivetranやStitchなどの選択肢がありますが、Airbyteはオープンソースで自由度が高く、自社環境でコスト効率よく運用したい方におすすめです。

この記事を読んでAirbyteに興味を持ってもらえたら幸いです。