平素よりさくらインターネットに格別のご愛顧を賜り、誠にありがとうございます。
生成AI向け推論API基盤「さくらのAI Engine」において、「ドキュメント・RAG API」へ以下機能を追加しました。
・ドキュメントのアップロード時に、チャンク長を指定できる「chunk_size」パラメータの追加
・ドキュメント参照時のベクトル検索における距離関数として「ユークリッド距離」の選択対応
・ドキュメントの埋め込み処理を行うモデルとして「preview/Qwen3-Embedding-4B-FP16」の利用対応
チャンクサイズの指定
AI EngineのRAG APIにアップロードされたドキュメントは、指定したトークン長で分割し、ベクトル化したうえで格納されます。この分割単位をチャンク、その長さをチャンクサイズと呼びます。
本リリースにより、ドキュメントアップロード時のAPIリクエストにおいて「chunk_size」パラメータでチャンクサイズを指定できるようになりました。単位はトークンです。
ベクトル検索はチャンク単位で実施されるため、ドキュメントの特性に応じてチャンクサイズを調整いただくことで、RAG精度のさらなる向上が期待できます。
ユークリッド距離によるベクトル検索
AI EngineのRAG APIでドキュメントを参照する際、クエリに対するベクトルストア検索で利用する距離関数として、従来のデフォルトである「コサイン距離」に加え、「ユークリッド距離」が選択可能となりました。
クエリやドキュメントの特性に応じて距離関数を選択することで、検索精度および質問応答精度の向上が期待できます。
追加モデル「preview/Qwen3-Embedding-4B-FP16」
本リリースにより、 AI EngineのRAG APIにアップロードされたドキュメントを埋め込み処理するモデルとして「preview/Qwen3-Embedding-4B-FP16」が利用可能となりました。
用途に応じて利用モデルを選択いただくことで、RAG精度の向上やコスト効率の最適化が可能となります。
詳細は下記をご参照ください。
https://manual.sakura.ad.jp/cloud/ai-engine/03-operation-guide.html#rag-api
関連リンク
引き続き「さくらのAI Engine」をよろしくお願い申し上げます。


