1. 必要な推論および処理ランタイムをローカルにバンドルする
2. 音声、視覚、翻訳モデルをデバイス上で実行する
3. ネットワーク呼び出しなしでリソースとパイプラインを管理する
4. すべての中間および最終結果をローカルに永続化する