Cover Image for TAI AMAJ #04 - 音声AI / Voice AI
Cover Image for TAI AMAJ #04 - 音声AI / Voice AI
Avatar for Tokyo AI (TAI)

TAI AMAJ #04 - 音声AI / Voice AI

参加登録
過去のイベント
ようこそ!イベントに参加するには、以下で参加登録をしてください。
イベント詳細

Location

artience Co., Ltd.

〒104-0031 Tokyo, Chuo City, Kyōbashi, 2-chōme−2−1 京橋エドグラン

京橋エドグランに到着したら、3階から高速エレベーターで22階まで上がり、22階のゲートでQRコードをスキャンして29階へ進んでください。※QRコードはLumaのQRコードではなく、月曜日までに登録された方へメールで送られるQRコードです(それまでに登録されないと、このスペースのシステムに登録するのが難しくなりますのでご注意ください)。

Details

イベントの24時間前までに登録が必要です(会場の入場QRコードを生成するための時間が必要です)。

京橋エドグランに到着したら、3階から高速エレベーターで22階まで上がり、22階のゲートでQRコードをスキャンして29階へ進んでください。

Topic

Join us for our 4th event on Applied AI and ML in Japanese. Topics are about 「Voice AI」. Let us know if you want to be a speaker or have someone you'd like to hear from!

今回のイベントは​TAIの「応用機械学習と人工知能」の日本語セミナーシリーズの第4回となります。このセミナーでは、音声AIの基本概念とその実用性について解説します。音声AIは、人間の音声を解析・理解し、音声を生成するAIシステムで、音声認識や音声合成、対話型AIの実現、さらには音声翻訳や感情分析など、幅広い応用が可能です。本セミナーでは、音声AIの仕組み、最新の技術動向、具体的な応用例を紹介し、実践的な知識を身につけていただきます。AIの可能性を広げるこの分野に興味のある方は、ぜひご参加ください。

Our Community

​​​Tokyo AI (TAI) is a community composed of people based in Tokyo and working with, studying, or investing in AI. We are engineers, product managers, entrepreneurs, academics, and investors intending to build a strong “AI coreˮ in Tokyo. Find more in our overview: https://bit.ly/tai_overview

TAIは、AIに従事、研究、または投資している東京に拠点を置く人々から成るコミュニティです。私たちはエンジニア、プロダクトマネージャー、起業家、学者、投資家であり、東京に強力な「AIコア」となることを目指しています。このコアは一連のノード(私たち全員)で構成されており、知識の共有と相互のつながりを通じて各ノードの価値を高めたいと考えています。

Schedule

18:30 - 19:00 開場

19:00 - 19:25 増田尚建様「音声変換・音色変換の基礎と最新動向について」

19:25 - 19:50 Maxim Makatchev様「Pipecatを使った音声アプリケーションの構築」

19:50 - 20:15 内波生一様「おしゃべりAI Cotomo を作って知った音声対話型AIの仕組と未来」

20:15 - 21:00 発表者への質問と自由交流

Speakers

増田尚建様
略歴: 主に深層生成モデルによる音作りや機械学習・進化計算を用いた音楽制作支援システムについて研究。2023年に東京大学工学系研究科にて博士号を取得。
現在は株式会社Neutone・株式会社QosmoにてAIリサーチャー・エンジニアとして勤務。Neutoneでは音の音色をリアルタイムで変換する音楽制作プラグインNeutone MorphoのAIモデル開発に従事。
発表タイトル: 「音声変換・音色変換の基礎と最新動向について」
発表内容: 誰でも好きな声で話せる音声変換技術がRVCなどを始めとして注目されていますが、違和感が生じないレベルの低遅延音声変換には様々な課題が残っています。
Neutoneでは声のみならず、音楽制作の新たなツールとして楽器や様々な音を対象とした音色の変換にも取り組んでいます。デモを交えて音声変換・音色変換の原理や最新動向についてご紹介します。

Maxim Makatchev様
略歴: マキシム・マカチェフ氏は、対話システムと人間とロボットの相互作用の研究者として活躍されてきた経歴を持ち、カーネギーメロン大学でロボティクスの博士号を取得されています。これまで、Jibo(ボストン/サンフランシスコ)やVolley(サンフランシスコ)など、会話型AI分野に特化したスタートアップで、初期メンバーのエンジニアとしてご活躍されました。
現在は、大阪に拠点を置くスタートアップ「susuROBO」の創設者として、教育、顧客サービス、高齢者ケアにおけるユーザー体験の向上を目的とした会話型AIアバタープラットフォーム「AIROID」の開発を進めておられます。
発表タイトル: 「Pipecatを使った音声アプリケーションの構築」
発表内容: 現在、音声アプリケーションの構築はLLM時代以前よりも容易になっていますが、それでも音声認識、LLM、RAG、音声生成など、多くのモジュールを組み合わせる必要があります。では、応答遅延を最小限に抑えながらこれらのモジュールを統合する方法があったらどうでしょうか?
Pipecatは、まさにそれを可能にするオープンソースフレームワークで、最近注目を集め(GitHubで3,500以上のスター)、幅広い活用が期待されています。

内波生一様
略歴: ニュートリノ物理学を専攻、博士取得後、SIerやSaaS系スタートアップでエンジニアとして経験を積み、2023年4月よりStarley株式会社にておしゃべりAI Cotomoを開発。好きな映画は「十二人の怒れる男」
発表タイトル: おしゃべりAI Cotomo を作って知った音声対話型AIの仕組と未来
発表内容: 音声による自然な対話が可能なおしゃべりAI Cotomo というサービスを作っています。
今回の発表では、Cotomoの開発を通じて私が理解した、音声対話型AI特有の技術的課題やその未来について、Cotomoを例にしながらお話いたします。

Organizers

Henry Cui: AI entrepreneur with a Ph.D., MS, and BSc in Computer Science from the University of Tokyo. Extensive research experience at RIKEN AIP. Henry co-founded a university-based AI startup specializing in Computer Vision using deep learning, where he served as the CTO and worked on research and MLOps.

Shiro Takagi: Independent researcher specializing in Machine Learning, with an MS from the University of Tokyo and a BA in Economics from Keio University. Currently, Shiro is engaged in research and development to create an autonomous artificial researcher.

開催場所
artience Co., Ltd.
Japan, 〒104-0031 Tokyo, Chuo City, Kyōbashi, 2-chōme−2−1 京橋エドグラン
京橋エドグランに到着したら、3階から高速エレベーターで22階まで上がり、22階のゲートでQRコードをスキャンして29階へ進んでください。※QRコードはLumaのQRコードではなく、月曜日までに登録された方へメールで送られるQRコードです(それまでに登録されないと、このスペースのシステムに登録するのが難しくなりますのでご注意ください)。
Avatar for Tokyo AI (TAI)