[お願い|please]
- この開発は個人的好奇心と技術的スタックを目的に進めているものとなります。販売、配布を目的とした一切の営利行為を本プロダクトでは行いません。
- 本プログラムの大部分はgoogle社様、voicevox様、および小夜/Sayo様(さよなか様)のプロダクトを使用させていただいております。これらの権利は全て製作者様,権利管理者様に帰還するものでありますため、本プロダクトが当方の不注意で「権利者の利用規約に違反」もしくは、「好ましくない使い方をしている」と判断された場合はお手数ですがご連絡ください。適切な権利者であると確認次第、当方は全面的に指示に従い、封鎖、削除などの対処を行います。
- また、これら権利の有識者様で、ご不明な点や修正するべき点などあればお手数ですがご連絡ください。
このプロジェクトは、AIアシスタント「小夜(さよ)」のプロトタイプです。 Whisperによる音声認識、GoogleのGeminiモデルによる思考、VOICEVOXによる音声合成を組み合わせ、キャラクター性を持ったAIとの対話を実現することを目的としています。
現在は、2つのバージョンのCLI(コマンドラインインターフェース)アプリケーションが実装されています。
sayo_core_voice.py: マイクとスピーカーを使用した完全な音声対話バージョン。sayo_core_text.py: キーボード入力で対話を行う、軽量なテキストベースバージョン(応答は音声でも再生されます)。
AIとの対話がより身近になる中で、単なる情報検索ツールとしてだけでなく、日常に寄り添うパートナーのような存在が作れないかと考えました。google homeとかは精度が非常に悪く、限定された要素の返答しかしません。また特に、私は小夜がとても好きです。さよなかさんのファンでもあります。そのため、どうにかして小夜の声で対話型のaiもどき作れないかなぁ、と作成した次第になります。
- 思考エンジン: Googleの
gemini-2.5-flashモデルを使用。 - 音声合成: VOICEVOXと連携し、「小夜」の声で応答をリアルタイムに生成・再生。
- 会話ログ: 対話の履歴をSQLiteデータベース (
sayo_log.db) に自動で記録。 - 柔軟な終了:
exitコマンド(テキスト入力または音声)でいつでも安全に終了可能。 - 詳細なログ: 各処理の実行状況がタイムスタンプ付きでターミナルに表示され、動作を把握しやすい。
- 音声認識: OpenAIの
Whisper (smallモデル)を使用し、マイクからの音声をテキストに変換。 - ホットワード起動: 「さよ」または「さよち」と呼びかけることで会話を開始。
- 時報機能: 毎時0分に現在時刻を知らせます。#実装途中
- テキスト入力: キーボードから直接メッセージを入力して対話。
- 軽量動作: 音声認識処理がないため、より低スペックな環境でも動作します。
git clone <repository_url>
cd Sayo_smart_AI# プロジェクトルートディレクトリで実行
python3 -m venv backend/venv
source backend/venv/bin/activatepip install -r backend/requirements.txtbackendディレクトリに.envという名前のファイルを作成し、お使いのGemini APIキーを記述します。
backend/.env:
GEMINI_API_KEY="ここにあなたのAPIキーを貼り付け"
セットアップが完了し、VOICEVOXが起動していることを確認したら、以下のコマンドで各バージョンを実行します。
python backend/sayo_core_voice.py起動後、「さよ」または「さよち」と話しかけて会話を始めてください。
python backend/sayo_core_text.py起動後、ターミナルに直接メッセージを入力してEnterキーを押してください。