音声モジュール

オンプレミスで、人間らしい日本語音声AIを証明する。

日本語音声AIは、Leomares のプライベートAI基盤から切り出せる一つの実装モジュールです。速いだけでは足りません。国内管理、PII、監査、尊敬語・謙譲語・丁寧語・美化語、SIP/IVR、割り込み、日本語文書のGraph RAGを同時に満たす必要があります。

検証対象は「クラウドで話せるデモ」ではなく、現場データを守りながら、電話基盤、コンタクトセンター、CRM、文書基盤へ接続できる導入可能な部品です。

100%オンプレミス

銀行、保険、公共、規制業務向けに、クラウド推論へ依存しない構成を前提にする。

国内データ管理

音声、文字起こし、文書、ログ、埋め込みを、日本管理下のインフラに保持できる。

100%監査可能

会話、ツール呼び出し、エスカレーション、墨消し、オペレーター判断を証跡化できる。

PII / DLPローカル

マイナンバー、電話、銀行、氏名、機密情報、独自ルールを外部APIなしで検知する。

人間らしい日本語

呼吸、ためらい、マイクロポーズ、声色の変化を、プロンプト装飾ではなく音声システムとして扱う。

閉域対応

インターネット接続やクラウド推論を許容しない環境でも使える設計にする。

人間承認

重要な操作は、担当者承認、タイムアウト方針、改ざんしにくい受領記録を要求できる。

敬語体系制御

尊敬語、謙譲語、丁寧語、美化語を役割と場面で制御し、混在をテスト対象にする。

自然な間

氏名、日付、お詫び、確認、規約説明の前後で、機械的ではないポーズを制御する。

数字読み上げ

円、日付、住所、電話番号、口座ID、数量を、毎回同じ読み方で発話する。

読み上げガード

表示文と発話文を分離し、LLMの表現ゆれで読み上げ品質が壊れないようにする。

<500ms目標

リアルタイムの日本語対応に必要な、会話の受け渡しと初回音声の速度を狙う。

割り込み <150ms

利用者が話し始めたら止まる。自然な日本語通話では必須の反応速度。

文節ストリーミング

全文生成を待たず、日本語の文節単位で発話開始を早める。

英日コードスイッチ

日本語、英語、外来語、会社名、混在したビジネス発話を扱う。

全角・半角対応

全角・半角、カナ、英数字、記号を正規化して検索漏れと表記ゆれを減らす。

Graph RAG検索

FAQ行の一致ではなく、企業文書に対するベクトル検索とグラフ文脈を組み合わせる。

権限付き文脈

検索された文脈にも、文書権限、引用、監査姿勢を維持する。

パートナー設定可能

声、敬語体系、速度モード、フロー、コンプライアンス、エスカレーションを設定として扱う。

SIP / IVR連携

既存PBX、SIP trunk、IVR、コンタクトセンター、CRMへ接続する前提で設計する。

複数スタック対応

Macハードウェア、NVIDIA GPU、オンプレサーバー、閉域ネットワーク、既存クラウドを要件で使い分ける。

日本語検索の難所

全角・半角、文字コード、表記ゆれまで、検索精度の一部として扱う。

正規化

全角・半角、カナ、英数字、句読点、Unicode差分を検索前にそろえ、表記ゆれによる取りこぼしを減らします。

文字コード

CP932、Shift-JIS、UTF-8 BOM、旧式Excel、PDF、日本企業の古いファイルを入力として扱います。

Graph RAG

意味検索、グラフ文脈、引用、権限を組み合わせ、FAQ行ではなく実際の業務知識から答えます。

検証プロトコル

公開する証拠。

速度

音声から音声までの時間、初回発話、割り込み反応、検索が遅い時のつなぎ方を測ります。

日本語品質

尊敬語、謙譲語、丁寧語、美化語、自然な間、数字読み上げ、氏名、住所、日付、金額を同じ条件で比較します。

統合

SIP、IVR、PBX、CRM、KMS、認証、権限、ツール承認、ローカルモデルルーティングを確認します。