Documentation / Voice AGI Notepad Agent ベータ版発表のお知らせ

Voice AGI Notepad Agent ベータ版発表のお知らせ

Voice AGI Notepad Agent ベータ版発表のお知らせ

2026年4月1日

株式会社AokiApp(Chief Information Knowledge Officer 青木勇樹、以下「当社」)は、音声AIと会話しながらノートを取れるAIアプリ「Voice AGI Notepad Agent」のベータ版を発表いたします。 キーボード不要でAIと会話することができ、ノートパッド機能で文章を作成したり、複数のAIエージェントを起動し複雑なタスクを音声から実行させることができます。電話アプリのUIで、気軽にAIと通話をすることができます。

Voice AGI Notepad Agentとは?

Voice AGI Notepad Agentは、OpenAIのリアルタイムモデル gpt-realtime を基に構築された音声通話AIアプリです。音声AIの高度なエージェント機能を最大限に引き出すシンプルな通話アプリを目指して開発されました。単に音声通話をするだけでなく、ノートパッドの作成をはじめとした複雑なタスクを音声で制御することができます。

主な特徴

シンプルなUI

音声通話アプリのようなUIで、アプリを開いてすぐに、まるで人に電話をかけるような感覚でAIとの会話を開始することができます。また、電話帳アプリのようなUIで、複数のキャラクターや特性、専門性を持つAIを簡単に登録し呼び出すことができます。スマートフォンでの通話に慣れたユーザーであれば、操作説明は不要でしょう。

ノートパッド機能

音声会話には、「情報がまとまりづらく俯瞰しづらい」という課題があります。Voice AGI Notepad Agentは、音声AIにエージェンティックにノートパッドを操作させることで、この課題を解決します。単に音声の文字起こしをしたり、AIとブレインストーミングをしながらその要点を記載したり、AIにインタビューをしてもらいその評価を記載してもらったり、音声とテキストのマルチモーダルなインタラクションを体感できます。ノートパッドの内容はファイルとして保存され、他のセッションで共有することも簡単です。Markdownだけでなく、スプレッドシートにも対応しており、高度な表計算を行うことができ、確定申告のお手伝いまでしてくれます。

Recursive Agent

Voice AGI Notepad Agentは、音声AIのリアルタイム性と、テキストAIの高度な推論能力を組み合わせた、次世代のAIエージェントです。音声AIがテキストAIを呼び出すことができ、テキストAIと音声AIが相補的に動作します。それだけでなく、テキストAIがさらに別のテキストAIを呼び出すこともできます。このような再帰的なAIエージェントコールにより、音声AIによるインタラクティブな会話を行いながら、音声AI単体では成しえなかった複雑なタスクも音声で実行させることができます。

拡張可能なツール

Voice AGI Notepad AgentはAIから利用可能な多彩なツールを備えています。ノートパッド機能、スプレッドシート機能、計算機能、ファイル操作機能等をビルトインで備えており、これらを音声AIが利用することで、音声AI単体では成しえなかった複雑なタスクも音声で実行させることができます。また、今後ツールを拡充し、ファイルシステムを介したインターフェースや、MCPサーバー等にも対応していく予定です。

使用例

開発の背景

AIの日常への浸透は加速しており、人々がどんどんAIへの依存を高めていく中で、デスク上だけでなく、料理中、ウォーキング中、トイレの中でもAIが手放せなくなりました。そのような状況下でAIとの会話を継続するための課題として、

  • キーボードを配置するスペースが必要であること
  • キーボードと脳の帯域幅のギャップ――タイピング速度の遅さ
  • 手や腕の疲れ
  • 親指や小指の故障リスク を強く感じていました。したがって、キーボードに代わるヒューマン・AI・インターフェースが求められています。

代表的なインターフェースとして音声が挙げられますが、既存のソリューションである音声文字起こしサービスは、単に音声入力をテキストに変換するだけで、柔軟性に欠け、フィラー等もインテリジェントに処理してくれません。よりAIに特化した、Context-awareでRobustな音声インターフェースの必要性を感じていました。

また、文字によるコミュニケーションは脳内思考トークンが消費され、思考が深まる一方、突発的なアイデアや反射的な発想を阻害する側面もあります。それに対して音声によるコミュニケーションは生の思考や感情を発露しやすく、不完全性も許容され、思考が加速します。AIともそのようなフランクなコミュニケーションを取りたいという潜在需要は大きいと思います。

AIの活用の仕方も進化しました。単に質問に答えてもらうだけの「チャット」モデルから、自律的に複雑なタスクを実行する「エージェント」モデルへと進化しました。エージェントにジョブを投げ、結果を待ち、プロンプトを補正し、よりよい結果を得る、というループが当たり前になっており、コーディングエージェント中毒者も出ている始末です。そのようなエージェントプロンプトの操作をより気軽に行いこのループを加速したいという思いがありました。

AIが発展するにつれて、AIに追従が難しい層とのAIデバイドが広がっていくことが懸念されます。現状のキーボードと文字情報を前提としたAIの利用方法では、デジタル機器に不慣れな方や障害等でキーボードの利用が難しい方、読み書きを満足にできない方にとっては、AIの恩恵を十分に受けることができません。AIをより多くの人に、より気軽に使ってもらうためには、dead-simpleなインターフェースが不可欠です。

Voice AGI Notepad Agentは、これらの課題を解決するために開発されました。 キーボード不要で、物理的・身体的制約から自由になれます。 生の音声ストリームを直接解釈することで、フィラーまみれの未整理の思考、語尾の抑揚、間の取り方も、インテリジェントに分析し、エージェント機能により、ノートテイキングほか、会話だけでない高度なタスクも音声で実行させることができます。

また、複雑なエージェントプロンプトの調整も、音声を通じた対話的かつシームレスなフィードバックループへと置き換わります。「ちょっと違うな、こういう方向に修正して」と話しかけるだけで、AIは文脈を理解し、自律的にタスクを再実行・修正します。これにより、デスクでキーボードを叩き続けることなく、散歩中や家事の合間であっても、高度なエージェント・ワークフローを回し続けることが可能になります。

さらに、最も汎用的で親しみのある「電話」というユーザーインターフェースを採用したことで、タイピングスキルやITリテラシーへの過度な依存を排除しました。スマートフォンで通話ができる全ての人に対して、AGIの恩恵——高度な思考の整理や、複雑なタスクの代行——へのアクセスを開放し、AIデバイドを解消する第一歩となることを目指しています。

今後の展望

今回、Voice AGI Notepad Agentはエイプリルフール企画としてリリースされましたが、もともと私がずっとほしかったものであり、ドッグフーディングを通じて有用性を確信しており、今後も継続して開発していきたいと思っています。特に、確定申告のための決算処理においては、読み上げた金額を正確に記録し表にまとめてくれ、ストレスなく作業できました。実際の確定申告処理はVS Codeに手動でコピペで対応しましたが、今後、MCPサーバー等にも対応し、コード実行、ブラウザ操作、VS Code連携などに対応し、本アプリだけで確定申告まで完結できるようにしたいです。

また、現状大きな課題があり、AIから見えるツールの名前や引数の内容を発音しないとAIが思った通りに動作してくれず、直感的でないという問題があります。このような問題を解決し、初めて利用する方でも満足していただけるようなプロダクトに育てていきたいです。

Voice AGI Notepad Agentを試す

ランディングページ: https://vagina.tel/

Webアプリはこちら: https://vagina.app/

現状ログイン機能が間に合ってません!Azure OpenAI ServiceのAPIキーのBYOK方式のみご利用いただけます。近日中にAPIキーなしで誰でも使えるようにします!

Android: APK配信予定

iOS: App Storeに通るわけないので代替ストアを使いましょう。

DOCS