さくらのAI EngineでKimi-K2.5を試す|マルチモーダルモデル3種を比較してみた
こんにちは、UOZUです。
さくらのAI Engineで、新しいマルチモーダルモデル「preview/Kimi-K2.5」が利用出来る様になっているようです!
https://cloud.sakura.ad.jp/news/2026/03/17/ai-engine-kimi-k2-5
新規追加モデル
画像やテキストを組み合わせた理解・生成が可能なマルチモーダルモデル「Kimi-K2.5」をパブリックプレビューとして提供します。
ドキュメント理解、コード生成、画像キャプション生成、マルチモーダルQAなど、高度なタスクへの応用をはじめ、幅広い用途でご活用いただけます。
提供モデル名
preview/Kimi-K2.5
価格
入力 10,000トークンあたり 0.6円 (税込)
出力 10,000トークンあたり 3円 (税込)
ちなみに「マルチモーダル」とは、テキストだけでなく画像などの視覚情報も同時に扱えるモデルのことです。
2026年3月18日現在、さくらのAI Engineではパブリックプレビュー版として「preview/Qwen3-VL-30B-A3B-Instruct」「preview/Phi-4-multimodal-instruct」、そして期待の新星「preview/Kimi-K2.5」の3種類がラインナップされる事になります。
せっかくですので、各マルチモーダルモデルを使い比べてみたいと思います!
マルチモーダルモデルの使い方について
さくらのクラウドのマニュアルにはまだ詳細なサンプルが少ないようですが、「さくらのAI検定 公式オンライン教材」には実際のcurlでも利用方法も詳しく書かれていましたので、実践方式で試していきます。(STEP3.1 さくらのAI Engine 実践 / マルチモーダルAPI実践)
画像をマルチモーダルで説明をさせてみる
画像認識の検証をしたいので、検証用にフリー画像を用意しました。

APIでは「URLを指定する」「base64でエンコードして画像をアップする」のどちらかが指定出来る様ですが、今回base64でアップロードして確認していきます。
また、一定のサイズ以上の画像(base64エンコード時に120,000字以上)では、そのままcurlにbase64で文字として乗せると文字数超過でエラーとなってしまうので、事前にbase64でエンコードしたファイルをJSONファイルに書き出し、ファイルとしてcurlに渡す方式を採用しました。
$ base64 -w 0 test.jpg > image.b64
まずは「preview/Phi-4-multimodal-instruct」で試してみます。
$ jq -Rs '
{
model: "preview/Phi-4-multimodal-instruct",
messages: [
{
role: "user",
content: [
{
type: "text",
text: "風船の数、壁に貼られた文字、風船に書かれた文字を、風景を含めて説明してください。"
},
{
type: "image_url",
image_url: {
url: ("data:image/jpeg;base64," + .)
}
}
]
}
],
temperature: 0.7,
max_tokens: 2000,
stream: false
}
' image.b64 > payload.json
$ curl -s -X POST "https://api.ai.sakura.ad.jp/v1/chat/completions" \
-H "Authorization: Bearer トークン文字列" \
-H "Content-Type: application/json" \
--data-binary @payload.json | jq -r '.choices[0].message.content'
風景はカーペットが敷かれた木製のテーブルで、カラフルな花や昼食のデザートが置かれたテーブルを中心に展開しています。テーブルの端にあるカーペットの端に、5つの風船が吊られ、空中に浮かんでいます。風船のうち、3つには「HAPPY BIRTHDAY」という大文字で「H」、「A」、「P」、「P」、「Y」、「B」、「I」、「R」、「T」、 「H」、「D」、「O」、「U」、「N」などの文字が書かれており、残りの2つは「HAPPY BIRTHDAY」には書かれていない上に「THL」や「DRS」などの文字があります。風船 には青や緑の色がかっており、色彩豊かな装飾が風景を彩っています。テーブルの中央には、風船が並ぶワイヤーで作られた「HAPPY BIRTHDAY」バサメントがあり、文字 は「H」、「A」、「P」、「P」、「Y」、「B」、「I」、「R」、「T」、「H」、「D」、「O」などが描かれています。このバサメントは、テーブルの端から約1メートル離れた場所に位置しており、視界を一望できます。風景は、テーブル周りに置かれた花や昼食のデザートが散りばめられた壁に向かって伸びています。テーブルの端には、 カーペットの下に置かれた小さな花瓶も見られます。
なんだか微妙ですね・・・デザートやカーペットはどこにあったんでしょうか。
投入先のモデルを「preview/Qwen3-VL-30B-A3B-Instruct」に切り替えてみます。
model: "preview/Qwen3-VL-30B-A3B-Instruct",
この画像には、誕生日を祝うための装飾が施された風景が写っています。背景は暖色系のベージュ色の壁で、質感のある壁紙が使われています。
装飾の中心には、白い紙に黒い文字で「HAPPY BIRTHDAY」と書かれたバナーが、上部と下部に二段に掛けられています。バナーの周りには、青いリボンが散らばっており 、祝祭的な雰囲気を盛り上げています。
右側には、いくつかの風船が浮かんでいます。風船の数は合計で **4** 個です。その中には、光沢のある青い風船、透明な風船、そして「Happy Birthday」と書かれた透明な風船が含まれています。透明な風船の中には、青いハートの形をした装飾が入っているものもあります。
壁に貼られた文字は、「HAPPY BIRTHDAY」というバナーの文字です。風船に書かれた文字は、「Happy Birthday」という文字です。
全体的に、青と白を基調とした落ち着いた色合いの誕生日パーティーの様子が描かれています。
かなり良くなったように見えます。では、最後に新モデル「preview/Kimi-K2.5」で試してみます。
model: "preview/Kimi-K2.5",
この画像は誕生日のお祝いの装飾を示しています。詳細を分析しましょう:
1. **風船(バルーン)の数**:
- 青い金属光沢の風船:1個(中央に大きく映っている)
- 「Happy Birthday」と書かれた透明な風船:1個(右上)
- 青い紙吹雪が入った透明な風船:2個(右下に見える)
- 合計:4個の風船が見えます
2. **壁に貼られた文字**:
- 「HAPPY BIRTHDAY」と書かれたガーランド(旗の連なり)
- 上部の旗:H, A, P, P, Y(5文字)
- 下部の旗:B, I, R, T, H, D, A, Y(8文字)
- 合計13文字の旗
- 青いリボンも壁に貼られています(装飾として)
3. **風船に書かれた文字**:
- 透明な風船の1つに「Happy Birthday」と黒い筆記体で書かれています
4. **風景・背景**:
- 茶色い布地または壁紙のような壁
- 誕生日パーティーの飾り付けの様子
- 青いリボンが壁に散りばめられている
これらを含めて日本語で説明します。 </think> この画像は、**誕生日のお祝い**を飾り付けた風景を捉えたものです。
## 風船の数と種類
合計**4個**の風船が写っています:
- **青いメタリック風船**:1個(中央に大きく配置され、光沢のある青色)
- **「Happy Birthday」と書かれた透明風船**:1個(右上、黒い筆記体で文字が入っている)
- **青い紙吹雪入りの透明風船**:2個(内部に青い星型やドットの紙吹雪が入っている)
## 壁に貼られた文字
壁には「**HAPPY BIRTHDAY**」と書かれた**ガーランド(旗の連なり)**が2段に吊り下げられています:
- 上段:H-A-P-P-Y(5文字)
- 下段:B-I-R-T-H-D-A-Y(8文字)
- 薄い水色の旗に黒い文字が印刷されており、青いリボンで壁に固定されています
## 背景と雰囲気
背景は**茶色いテクスチャのある壁**(布地や壁紙のような質感)で、ガーランドの周りには青いリボンの飾りが散りばめられており、爽やかで明るい誕生日パーティー の演出が施されています。青系統の統一感のある配色が特徴的です。
被写体の詳細な説明に加え、どの様な雰囲気の写真か、といった概要まで含めて回答してくれました。
モデル毎に画像認識・説明に、かなりの差が出ている様に見えますね!
各マルチモーダルの用途について
調べる限りは、各モデルは以下の様な特徴を持つ様です。
| モデル名 | 得意な用途 |
|---|---|
| Phi-4 | 基本的なOCR・表/グラフ理解・軽い画像比較を軽量に回す用途で強い。 |
| Qwen3-VL | UIの理解、空間認識。大量の画像や長文ドキュメントの解析。 |
| Kimi-K2.5 | 視覚からコード生成・複雑な文書理解・総合的な視覚推論で強みが出やすい。 |
今回のテスト画像ではKimi-K2.5がQwen3-VLより優位に見えましたが、軽量にサクサク回したい時はPhi-4、OCRによる文字起こしを大量に行うなら Qwen3といった形で、他のモデルの方が使いやすい場面がありそうです。
最後に
今回のテストでは Kimi-K2.5 の推論能力が光りましたが、モデルごとにトークン料金にも差があるため、コストパフォーマンスを考えた設計も忘れてはいけません。
サーバー運用一筋の私としては、画像でサーバー構成図を読み込ませて、自動で Terraform のコードを吐き出させる……なんて未来も想像してワクワクしてしまいます。
さくらの最新AI機能を活用したインフラ構築や、セキュアなAI連携についてお困りのことがあれば、ぜひネットアシストにご相談ください。
最後までお読みいただき、ありがとうございました!



