既知、未知、そして原則が(データやAIにおいても)今も重要な理由
データエンジニアリングは、今まさにその瞬間を迎えています。
誰もが突然、パイプライン、リネージ、そして「AI基盤」に注目するようになっています。これらの事柄は、長年誰も話題にしたがらなかったことなので、今でも驚かされます。それらは、データ作業の中でも地味な部分であり、ダッシュボードの裏側にある配管のようなものでした。
今、それらは再び一番目立つ話題になっています。進歩は常に根本に立ち返ります。AIはデータが無ければ意味がないため、これは良いことだと言えます。
AIは、テクノロジーの成熟度を数か月に短縮しました。私たちは、「これは面白い」という段階から、「どこでも展開しよう」という段階へと進化し、何が失敗するのか、またその原因を立ち止まって学習することなく進みました。これが、まさに必要としている仕事なのです。これは、モデルアーキテクチャやチューニングアルゴリズムで起きていることではありません。そうではなく、それはデータエンジニアリング、つまり私たちが常に必要としてきた根本的な要素で起こっています。具体的には、クリーンなパイプライン、堅牢なガバナンス、追跡可能なリネージ、そして障害発生時にも安定して回復できるシステムです。
AIは、発見と幻滅という同じサイクルを通過する、最新のテクノロジーに過ぎません。AIを定着させるのは、データエンジニアが長年実践してきた原則です。
データエンジニアリングは、デジタル世界のためのインフラストラクチャです。うまくいっても評価されることはありませんが、ひとたび機能しなくなるとすべてが停止してしまいます。この仕事は、データをポイントAからポイントBに移動するだけではありません。生の情報を意味のある情報に変換し、コンテキストを追加し、構造を形成し、データを知識に変える基盤を構築します。最近のSnowflake MIT Tech Reviewレポート「Redefining Data Engineering in the Age of AI」の報告によると、調査対象のテクノロジーリーダー400人のうち72%が、データエンジニアはビジネスに不可欠であると考えています。
この作業はほとんどの場合、目に見えません。たとえば、後で中断するショートカットに対してノーと言う、誰も気づかない問題をトレースする、静かな規律によってシステムを稼働させる、といったことです。これは高度な技術です。
不明なことをどう学習するか
新しいテクノロジーはどれも、興奮、混乱、失敗、そして最終的には理解という同じパターンに従います。AIも同様です。AIは急速に進化しています。
まだ、何ができるのか、どこで失敗するのか、信頼できるものにするにはどうすればいいのかを学習しています。また、その学習曲線は技術面だけではありません。文化面においても重要です。人々が自分の知識をどのように共有し、組織が不確実性をどのように進展に変えるかということです。
困難なのは、こうしたシステムの構築ではありません。本当の意味でわかっていること、知っていると思っているだけのこと、疑問に思ったこともないことを理解することです。
最近、リスク分析によく使用される「既知」と「未知」という、シンプルでありながら示唆に富むフレームワークに出会いました。データとAIに関する私たちの現状にぴったりです。知っていることだけでなく、想定していること、無視していること、疑問に思いさえしないことの理解に役立ちます。どこに本当の危険が潜んでいるのかがわかります。
事実を認識する4つの領域
「既知であることを知っている」モデルは、数十年にわたって存在しています。Donald Rumsfeld国防長官(当時)が2002年のブリーフィングで使ったことで有名になりましたが、その起源は1950年代にJoseph Luft氏とHarrington Ingham氏が生み出した心理学の研究、ジョハリ窓に由来します。これは、私たちが知っていることや、他の人が知っていること、そしてまだ隠れていることを考えるための領域の定義です。
人間やシステムが実際にどのように学習するかを示すため、データとAIの領域に最適です。
| 既知 | 未知 | |
|---|---|---|
| 既知 | 既知であることを知っている:自分が理解し、ベースとしている事項 | 未知であることを知っている:未だ解明されていないと認識している事項 |
未知 |
既知であることを知らない:他人は知っているが、自分が知らない事項 | 未知であることを知らない:未だ解明されていないと認識自体していない事項 |
シンプルそうに見えますが、組織が成功し、つまずき、時には完全に失敗する場所が説明されています。
既知であることを知っている:包囲下の基盤
パイプライン、ガバナンス、リネージ、ドキュメントなど、基本的なことは誰もが知っていますが、新しいフレームワークが登場するとすぐに忘れがちです。
AIは、基盤の重要性を変えたわけではありません。それらが欠けている場合に、その重要性を明白にしたにすぎません。不安定な基盤でAIを構築しようとするとどうなるかを考えてみてください。
- 誰もトレーニングデータを検証していないため、モデルはハルシネーションを起こします。
- パイプラインは静かに中断し、古いデータを実稼働環境に供給します。
- 「クイックプロトタイプ」は、ビジネスクリティカルな依存関係になります。
サイレントセーフガードとは、システムを維持するための機能です。リネージジョブは壊れた依存関係を捕捉し、スキーマテストは不正なデータの拡散を阻止します。セーフティスイッチでは、品質が低下すると取り込みを停止します。
AIは、これらの要素をオプションにしたのではありません。交渉の余地のない、必須の要件としたのです。
強固な基盤は、サービス停止を防ぐだけでなく、コストも制御します。テストされていないジョブ、壊れたリネージ、古いモデルは、すべてコンピュートと時間を消費します。最も優れたパフォーマンスのシステムは、常に最も高速に実行されるわけではなく、予測どおりに実行されます。効率は理解することから始まり、理解は基本的な処理をうまく実行することから生まれます。
未知であることを知っている:問題の複雑化
どの組織にも、まだ十分に理解していないことの複数の事項があります。AI業界では、その数は増え続けています。
監査できない意思決定をモデルが行う場合、説明可能性をどのように測定するか。
モデルが自身を再トレーニングする場合、トレーニングデータと出力の間のリネージをどのようにトレースするか。
合成データのガバナンスをどのように確立するか。
数時間ではなくミリ秒単位で障害が発生した場合、ドリフトにどう対処するか。
これらは未知であることがわかっている事項です。バッチジョブと予測可能なワークフローという古いプレイブックは通用しません。システムの稼働中に新しいプレイブックを作成しています。
誰かが「私たちの実稼働AIシステムのデータを信頼し、理解しているか」と尋ねた時、ためらいを感じるなら、それこそが真のデータエンジニアリングの姿です。未知の既知事項の認識は、既知の既知事項に変えるための第一歩です。いかにして不確実性を軽減するか、正直な質問を1つずつ行うかです。
既知であることを知らない:わかりやすい場所に隠された回答
プロジェクトを停滞させる原因となる領域:自分は知らないが、他の誰かが知っている事柄です。
それらはあらゆる場所に現れます。
ベンダーのシステムは、性能が落ちるまで「最適化」を続けます。そして突然、ベンダーがマップを保持したまま、ブラインドデバッグを行うことになります。
上流チームはスキーマを変更しましたが、誰にもその事実を共有しませんでした。
チームは1年前に同じ問題を解決しましたが、共有はしていませんでした。
そのモデルは機能し続けますが、機能しなくなったとき、なぜそのように設計されたのかを誰も覚えていない、という事態に陥ります。
既知であることを知らない事項は、複雑性という隠れた負債なのです。知識が人々やチームに流れなくなったときに現れます。
問題は自動化ではなく、コミュニケーションです。質問をして他の人の意見に耳を傾け、早めに相談しましょう。時として、最も賢いデバッグツールは、「誰かこの事象を見たことがあるか」と尋ねることです。
仕事は規範を超えて共有する必要があります。エンジニアは技術的リスクを、プロダクト部門は顧客への影響を、セキュリティ部門は脅威を、ビジネス部門はコンプライアンスを見ています。ある人にとって予測できないことは、別の人にとっては明らかかもしれません。
どれほど多くの「AIの課題」が、既知であることを知らない、つまり最初から誰かの頭の中に静かに存在していた答えでしかなかったかを知れば、あなたは驚くでしょう。
未知であることを知らない:未来の見えない事項
これらは、私たちが目にすることのない驚きであり、後になって初めて明らかになります。
たとえば、AIエージェントが低価値と判断したテーブルを削除してパイプラインを「最適化」するとします。また、人間が対応しないうちに失敗するリアルタイム推論システムもあります。
これは目新しいことではありません。あらゆるテクノロジーの波はこのように始まります。クラウド移行もまた、予測不可能な形で破綻しました。例えば、テストでは完璧に見えた自動スケーリングが、本番環境の請求額が高騰するまで気づかない、といった具合です。私たちはそこから学び、ガードレールを構築しました。
AIは同じサイクルを、より迅速に進んでいます。未知であることを知らない事項を予測することはできませんが、備えはできます。とはいえ、どのような方法があるでしょうか。
失敗の設計:発生するかどうかではなく、いつ発生するかを前提に設計します。ロールバック、再試行、セーフティスイッチを含めて構築します。
波及範囲の想定:1つの不良モデルやエージェントによってプラットフォームがダウンすることは避けるべきです。
現場のエンパワメント:異変に気づいたエンジニアは、安心して行動を起こす必要があります。
インシデントからの学習:適切な事後分析は、実際に何が起きたのか、なぜ起きたのかを理解するのに役立ちます。
目標は完璧さではなく、レジリエンスです。予期しないことに対応し、適応できるシステムや文化を構築することです。
長期的な戦略
AIは、未知であることが知られていない、すなわち遠い理論上の存在として始まりました。今では馴染みのある言葉ですが、まだ十分に理解されていません。私たちの仕事は、既知の事項へと進化させることです。単純化するのではなく、説明可能で信頼性の高いシステムへと発展させることです。
AIによってより多くの作業が自動化されるにつれて、データエンジニアリングの技術は変化しています。次世代は、コンテキストとメンターシップを通じて学習することで、苦労して得た教訓を、単に受け継がれるものではなく、教えることのできるものへと変えていくでしょう。
原則はやはり重要です。反応をレジリエンスに、レジリエンスを永続的な進歩に変えることができます。
テクノロジーが変わっても、真のインフラはプラットフォームではなく、その基盤にあります。それは技術を構築、学習、進化を継続する人々です。
どの世代も、未来に向けて構築していると考えています。現実には、次のチームが、自分たちが残したものを受け継いでいくように構築するのです。私たちが残せる最善の贈り物は、明確な原則と学び続ける姿勢です。
免責事項:本稿で述べられている見解は、筆者の経験に基づく個人的なものであり、筆者の現在または以前の雇用主の見解を代表するものではありません。
