業務現場で録られている音声・動画データ ── 通話、商談、教育面談、現場ヒアリング、作業動画 ── は、現場の判断力や対応の質がもっとも色濃く残るデータです。にもかかわらず、録音したまま誰にも見返されず、当事者本人の記憶と感覚に頼って蓄積が止まっているケースは少なくありません。
「声のトーンが落ちていた」「言葉に迷いがあった」「言われていないが、暗に困っていた」── テキストの文字起こしだけでは取りこぼされる感情・口調・迷い・文脈の意図・発話パターンを、現場では当事者の感覚で補っています。退職や異動でその感覚が失われると、品質のばらつきや判断の根拠が見えなくなります。
「録音はあるが活用しきれていない」「重要な兆候を見逃しているのではないか」── こうした課題に対して、Sentivox (センティヴォックス) という音声・動画から感情・文脈・潜在的懸念まで抽出し、議事録化 + 改善提案まで自動で出すアプリを開発しました。

Sentivox の概要
Sentivox は「録音・録画された音声を AI に渡すと、文字起こし + 感情分析 + 文脈分析を経て、議事録 + 品質レポート + 改善提案 まで自動で出てくる」システムです。すべての処理はローカルマシン上で完結し、音声データは外部に送信されません。
テキストの文字起こしだけでは取りこぼされる5 つの情報を引き出すことを狙いとしています:
- 感情: 怒り・悲しみ・喜び・恐れ など 9 感情ラベルでの定量化
- 口調: 声質・抑揚・話速の変化
- 迷い: 沈黙・言い直し・テキストと声の乖離
- 文脈の意図: 「言われていないが、暗に伝えていること」
- 発話パターン: 話題の展開、話者ごとの傾向
これらを実現する主な機能:
- 文字起こし: Faster Whisper (large-v3-turbo) による高精度な日本語音声認識
- 音声感情認識: emotion2vec+ large による9 感情ラベル分類
- 話者分離: pyannote-audio による話者識別 (2 話者対応)
- LLM 文脈分析: ローカル LLM (Ollama) でトピック分割・潜在的懸念・推奨アクションを抽出
- 議事録自動生成: 要点・決定事項・アクションアイテムを構造化して出力
- Aina’Ola クローンによる改善提案: 育成済クローンが会話の文脈を踏まえ、商談・面談の改善観点を提示
- レポート出力: HTML / PDF / CSV / JSON の各形式
バブルチャットで会話の流れを可視化
処理が終わったセッションは、バブルチャット形式で再生できます。発話ごとに感情ラベルに応じた色分けが入り、左パネルのトピック一覧から話題の切り替わり (例: 「品質管理ダッシュボードの提案」「システム詳細と価格に関する議論」「データセキュリティとデモ実施の合意」) に即座にジャンプできます。

「言葉」と「声」のズレを検出
テキストでは「フィットしそうです」と前向きに言っているのに、声のトーンには迷いや控えめさが乗っている ── このような音声とテキストの感情乖離は、表面的な合意の裏に潜むリスクサインです。商談での渋い顔、面談での無言の同意、ヒアリングでの言いよどみ ── 当事者の感覚でしか拾えなかった兆候を、AI が明示的にハイライトします。

感情の推移をグラフで一目に
会話全体を通した感情の推移は、Chart.js による折れ線グラフで表示されます。「中盤でneutralが支配的になった (=議論が固くなった)」「終盤に向けてhappyが増えた (=合意に向かった)」のような時系列の変化を一瞥でつかめます。これまで「何となく気になっていた」感覚を、グラフ上の具体的な時刻として特定できます。

LLM が「言われていないこと」まで拾う
Sentivox の中核は、ローカル LLM による文脈分析です。文字起こしと感情データを統合して LLM に渡し、以下の項目を構造化して出力します:
| 分析項目 | 内容 |
|---|---|
| トピック分割 | 話題の切り替わり基準で会話を区切り、全時間帯をカバー |
| 感情の流れ | トピックごとの感情変化を文章で要約 |
| 音声/テキスト乖離 | 音声感情とテキスト内容のズレが発生している箇所 |
| 潜在的懸念 | 相手が口にしていない不満・要望・抵抗感 |
| リスクレベル | 総合リスク判定 (high / medium / low) |
| 推奨アクション | 次回までに準備すべき具体的な対応策 |
| 総合評価 | 会話全体の総括 |
特に 潜在的懸念 ── 「言われていないが、文脈と感情から読み取れる困りごと」 ── は、当事者が聞き逃しても LLM が拾い上げる項目です。商談例では「タブレットの導入が現場の作業効率を低下させる可能性への懸念」「オンプレミス版でも、セキュリティに関する潜在的なリスクへの不安」「提案されたシステムが、既存の業務プロセスにスムーズに組み込めるかという疑問」 ── 顧客が直接は口にしなかった懸念が、商談直後にレポートとして手元に届きます。

議事録を自動生成 ── 要点・決定事項・アクションアイテム
会話の議事録も自動で生成されます。トピック別に議論内容を要約し、要点・決定事項・アクションアイテムまで構造化。商談や打ち合わせの直後に「議事録は今夜書きます」と言って後回しになりがちな作業を、AI が肩代わりします。

HTML / PDF レポートでチーム共有
処理結果は HTML レポート (Chart.js グラフ込み) や PDF として書き出せます。そのままメールや Slack で共有でき、部門内のレビュー・教育素材として使えます。

Aina’Ola クローンと組み合わせると「コーチ役」が会話に乗る
Sentivox の最大の特徴のひとつが、Aina’Ola という弊社の AI クローン基盤との直接連携です。処理を開始する際に「どのクローンに分析させるか」を選べる仕組みになっており、Aina’Ola 側で育成された分野特化のクローン人格に商談・面談を分析させることができます。

ここで言うクローン人格とは、Aina’Ola 側で構築・育成された personal clone (特定の人物の判断軸・口調・知識を AI に乗せたもの)のことです。Sentivox から呼び出すと、その人物ならどう振り返るか、どこを改善点と見るか を、商談・面談の具体的な文脈に対して提示します。

通常の AI チャットや汎用 LLM の分析と違うのは:
- 判断軸: 特定のベテランの癖や考え方を再現 ── 「あの人ならどう見るか」が反映される
- 文脈接続: 商談本文 + 感情データ + 潜在的懸念 をすべて踏まえて改善提案を出す
- 会話継続: 改善提案に対して「もっと具体的に」「この観点はどうか」とクローンとそのまま対話できる
- 多元参照: Aina’Ola 側で蓄積された Skills・Resources を引きながら回答 (参照根拠も透明化)
これにより、商談直後に「あのベテラン営業ならこの面談をどう振り返るか」を AI 経由で問える状態が、収録ファイル 1 つから自動的に立ち上がります。ロールプレイ研修の相手としても、退職後のノウハウ参照先としても使えます。
クローン人格の構築・育成方法や、Aina’Ola 基盤の詳細について詳しくは → Aina’Ola Project とは
想定される利用シーン
Sentivox は音声・動画が記録される業務シーン全般に適用できます。具体的には以下のような用途を想定しています:
| 用途 | 対象データ | 引き出される情報の使い方 |
|---|---|---|
| 顧客対応品質 | サポート通話・クレーム対応録音 | 対応品質のばらつき検出、リスク通話の自動抽出、潜在的不満の事前察知 |
| 商談・営業の振り返り | 商談録音・オンライン MTG 録画 | 渋い顔・言いよどみの可視化、議事録・アクション自動生成、トップセールスのクローン分析 |
| 教育面談の振り返り | 面談録音・1on1 録画 | 本音と建前の乖離検出、フォローすべき発言の抽出、面談者本人の振り返り材料 |
| 採用面接 | 面接録音・録画 | 応募者の感情変化・迷いの可視化、面接官バイアスの低減、複数面接官間の所感比較 |
| 現場ヒアリング分析 | 顧客現場での聞き取り、要件定義 MTG | 「言われていない要望」の抽出、ヒアリングの抜け検出、議事録の自動構造化 |
| 新人研修 | ベテランの応対録音 / 作業動画 | ベテランの判断癖の構造化、教育教材化、クローンと連携したロールプレイ |
とくに個人情報・機微情報を含むデータを扱う業務 ── 医療・金融・法務・製造などで外部 SaaS に音声を渡せない業界 ── でも、ローカル完結の構成でそのまま運用できます。
開発のポイント / 採用技術
Sentivox は以下の構成で開発しました:
| コンポーネント | 採用技術 |
|---|---|
| 文字起こし | Faster Whisper (large-v3-turbo) |
| 音声感情認識 | emotion2vec+ large (funasr) |
| 話者分離 | pyannote-audio 4.x |
| 音響特徴量 | openSMILE (eGeMAPSv02) |
| LLM (文脈分析・議事録生成) | Ollama (mistral-small3.1:24b / gemma3:12b 切替可) |
| クローン連携 | Aina’Ola 基盤 (OpenAI 互換 API 経由でクローンを呼び出し) |
| バックエンド API | FastAPI (Python 3.11+) |
| フロントエンド | HTML + JavaScript (Chart.js) |
| 音声処理 | ffmpeg / pydub / torchaudio |
もっとも重視したのは 完全ローカル処理 です。商談・面談・顧客対応には個人情報・取引情報・社内の機微情報が含まれます。文字起こしも感情認識も LLM 分析もクローン応答も、すべてローカルマシン上のモデルで完結する構成とし、音声・テキストを外部 API に送らないことを設計の基層に置きました。
もうひとつのこだわりは Aina’Ola クローンとの統合です。Sentivox 単体でも文脈分析・議事録生成は可能ですが、Aina’Ola 側で業務に特化したクローンを育てておくことで、汎用 LLM では出ない「あの人の視点」での改善提案が、Sentivox の中から直接受け取れる構成にしました。会話分析と AI クローンが分離した別アプリではなく、一連の振り返りフローとして繋がることを狙っています。
同じような社内ツールを構築したい方へ
「自社の通話・商談・面談の質を可視化したい」「録音・録画データから議事録を自動生成したい」「ベテランの視点を AI に乗せて新人の振り返りに使いたい」「外部に音声を送らずに分析を完結させたい」── こうしたご要望に応えて、業務に合わせた AI アプリの受託開発を行っています。
- 同様のツールを構築したい方は → お問い合わせ
- Aina’Ola 基盤について → Aina’Ola Project
- 他の AI / DX 開発事例 → AI/DX 実例カテゴリ
