「自分の声が嫌いだった」20歳の大学生社長が、月利用者20万人超のAI音声合成を生み出すまで
(写真は本人提供)
「デジタル後進国」「AI後進国」と言われて久しい日本。しかし、これから社会で活躍するZ世代には10代や20代でAIやスマホアプリを生み出した若者たちがいる。特集『それ私が作りました!〜AIやスマホアプリを開発したZ世代に聞いた』の2回目では、AI音声合成サービスを手がける20歳の現役大学生社長 早川尚吾さんに話を聞いた。
株式会社Yellston(エールストン)が4月23日にリリースした誰でも無料で使えるAI音声合成「CoeFont STUDIO(コエフォント・スタジオ)」はユーザー数がわずか3日で5万人を突破し、月間ユーザー数も20万人を達成した。
同社は7月28日には、500円・15分の収録という圧倒的な手軽さで、自分自身の声のAI音声合成を作成できる「CoeFont CLOUD(コエフォント・クラウド)」をリリースし、同じくSNS上などで大きな話題となった。
大ヒットの仕掛け人は現在、東京工業大学情報工学系に在学中の現役大学生で、株式会社Yellston 代表取締役社長を務める早川尚吾さん。2001年生まれの20歳だ。なぜ彼のような「若き天才」が生まれたのか?
「もともと自分の声が嫌いだった」──。そう語る彼の人生に迫った。
株式会社Yellston 代表取締役社長 早川尚吾さん
2001年東京生まれ。幼少期にイギリスで育つ。高校にて情報科学、特に、機械学習をスタンフォード大学の講義などで学ぶと同時に、個人事業主として働き始める。株式会社アースホールディングスと提携し、「AI Stylist(エーアイ・スタイリスト)」を企画・開発。2019年、「アプリ甲子園」にて、第3位に入賞。2020年、株式会社Yellstonを創業。現在は東京工業大学情報工学系に在学中。孫正義育英財団。Twitterアカウント。
※記事内ではCoeFont STUDIOとCoeFont CLOUDをあわせてCoeFontと表現しています。
「高2の夏休み明けからAIの会社で働き始めた」
早川さんが高校時代に開発したスマホアプリ「AI Stylist」
──プログラミングはいつ始められたのですか?
高校1年生の頃です。もともとは「ゲームを作ってみたい」と思ったのがきっかけです。少し前の話なので(記憶は曖昧な部分はありますが)、そのような感じのモチベーションだったと思います。
──機械学習はインターネットでスタンフォード大学の講義で学んだと聞きました。実際にビジネスに進出したのはいつ頃ですか?
スタンフォード大学の講義を受けたのは、高校2年生の4月頃でした。夏休み明けからはAIの開発・コンサルティングを手がける会社で業務委託のような形で働き始めました。株式会社ウォーカーという秋葉原にある会社です。
──大学生だとインターン生や業務委託でエンジニアをしている方はいると思いますが、高校生ではめずらしいですね。
確かに、同じような感じの人はあんまりいませんでした。でも、部活がない日とか暇じゃないですか(笑)。
アルバイトをしたことがなかったので、──というか生涯アルバイトをしたことがないのですが──「どのようにお金を稼ぐのだろう」という疑問もありました。「好きなことしてお金をもらえるのはすごいなあ」と思いながら、いろいろな開発に取り組みました。
──その会社ではどのような開発に取り組まれたのですか?
(TwitterやWikipediaなどの文章を学習した独自のAIが類似語を教えてくれる)「ルイタン」を開発しました。ほかにも、とある競技の運営による依頼で、何が優勝しやすいのか予測する機械学習モデルを開発したこともあります。
──高校3年の頃には、写真を撮るだけで、AIが似合う髪型を提案してくれるスマホアプリのAI Stylistを企画・開発されています。
開発のきっかけは自分自身の「自分の似合う髪型って何なの?」という疑問です。友達とか隣の席の女子とか、いろんな人に聞いてみたら、みんな同じように思っていることがわかりました。技術的にも研究的にはおもしろそうなのと、需要があるなら使ってもらえるのではないかという期待のもと開発しました。今のダウンロード数は約50万です。
開発のきっかけは「自分の声が嫌いだった」から
──現在のCoeFontは音声合成AIです。これまでの文字や画像とは少し違うジャンルのような気がします。取り組もうと思った理由は何かありますか?
もともと自分の声が嫌いだったからです。自分の声は自分の頭で考えているものと、カメラやマイクで収録したり、他人が聞いたりしている声は違います。僕の場合、その差が大きいのかはわかりませんが、録音した音を聞くときには「え。誰? コイツ」とずっと感じていました。今、ミーティングしていますが、自分の声が反響してくると、10分ぐらい気分が悪くなるほどです。
──そんなに嫌いだったんですね……。CoeFontのアイデアはいつ浮かんだのですか?
高校2年のときにはすでに、自分の声を全部「イケボ」にしたり、かわいくしたりしたら面白いのではないかというアイデアは浮かんでいました。「これで自分の声を聞かずに済む」と思い、いろいろ調べてみたのですが、良い論文は見つけられませんでした。たぶん、当時はまだ技術的に無理だったのだと思います。
実際に開発を始めたのは大学生になってからです。大学の先生にいろいろ話してみたら、開発を頑張れば、CoeFontのアイデアを実現できそうなところまで技術が発達しているとわかったので、やってみようと思いました。
──起業されたのは大学1年のときですよね。なぜ起業されたのですか?
別に「人生をかけて起業した」とか、そういったものではありません。もともと個人やまわりの知り合いでカチャカチャと作っていましたが、途中から「もしかして売れるのではないか?」と思い始めました。これまでは業務委託や個人事業主としてサービスを開発していましたが、もっと組織立ってやらないと作れないと思ったんです。取引先も多くなってきて、自分1人では管理できないですし。
──CoeFont STUDIOは無料、CoeFont CLOUDは500円・15分です。赤字にならないのですか?
現状でも、有料のCoeFont CLOUDがあるので、売上自体はそこそこ出ています。CoeFont STUDIOはどんどん無料で使って、いろんな創作活動に励んでいただければと思っています。
──クリエイターに自由に使ってもらうことに強いこだわりを感じます。
スティーブ・ジョブスがコンピューターにフォントを入れたら、出版物が10倍に増加したという話があります。フォントが果たした役割はハンコのようなものを作って押すのではなく、文字を打ち込むだけで済むようにしたことです。
インターネットに公開したり、出版社に持って行きやすくなったりしただけではなく、出版社もコストをかけずに印刷できるようになりました。CoeFontもフォントと同じような役割を果たすことで、動画や音声コンテンツの数が増えてくれると良いと思っています。
──CoeFontはすでに小学館とともにオーディオブックを作ったり、声帯摘出手術などにより声を失う可能性のある人々に無料公開したりされています。これ以外に意外な利用用途はありましたか?
大学の講義で流れていたという話はたまに聞きます。大学の先生が自分でしゃべるのが面倒くさいとか、自分の声よりCoeFontのほうが滑舌は良いとか思い、(CoeFontで使えるキャラクター)アリエルちゃんやミリアルちゃんを使っているのは面白いですよね。まったく想定外でした。
──ちなみに、ご自身でも使われていますか?
大学では普通にしゃべっていますが、会社では営業のプレゼンは音声を用意して流しています。そのほうが声はかっこいいから、営業が成功する確率が高いのではないかなと(笑)。
「赤字でも良い。でも、売上は必然的に上がってしまう」
(本人による提供)
──音声合成に関して、何か未来予想はありますか?
長期時に考えると、自動運転車がどんどん広まっていくのは確実だと思います。ハンドルを握る必要がなくなるので、「右に曲がってくれ」とか「コンビニに寄ってくれ」とか、そういった命令を出すのは、もしかしたら脳でつながっているかもしれませんが、おそらく声だと思います。
キムタク(木村拓哉さん)の声でカーナビができたら、あの声で「おまえ、ちょ待ってよ。そこ左だ」と言わせられます。自動運転車で好きな声でしゃべってくれる機能は、日産なども発売したら絶対に売れると思います。
──そのような未来が近づくなかで、CoeFontは何を目指しているのでしょうか?
従来、音声合成は電車などでよく使われていますが、仕方なく音声合成が使うといった使われ方だったと思います。CoeFontが目指しているのは、むしろ人よりも積極的に使いたいと思わせる音声合成です。いろんな種類があって自然で、その場に応じた声を提供できる。人より+αの声を実現できると良いと思っていています。
──さきほど価格設定の話を聞きましたが、今後も多くの人に使ってもらえれば、売上はそれほど大きく伸ばさなくても大丈夫というモチベーションですか?
個人的には、いろんなところで使われるものを作りたいので、赤字でも良いと思っています。でも、いろんなところで使われると、売上は必然的に上がってしまいます。あたかも悪いことのように言いましたが、売上が上がるのは良いことです。いろんなことところで使われるというビジョンを実現すると、その分売上も上がると思います。
──お話を聞いているとなかなかお忙しそうですが、大学のレポート提出の時期などは大変ではないですか?
大学の先生がたまにインタビュー取材の記事や番組を見ています。レポートを提出していないと、「あれ? アイツ、出てるやん。レポートまだ出していないから催促したろ」という感じで、先生からメールが来ることがあります。今回の記事もたまたま中間レポートの時期とかぶる可能性があるので、「早川くん、インタビューに答える暇あるの?」と言われそうだなと危惧しています(笑)。
──最後に会社ではなく個人としての目標を教えてください。
(会社のミッションとして掲げており、公式サイトのトップページに表示される)「Create exciting future with “erst” technology.(尖った技術でワクワクを創造する)」は一生やっていきたいです。
「ワクワク」と言っても、いろいろあると思います。僕が面白いもの、作ってみたいと思うものはいっぱいありますが、ほかの人から見ると『こんなの売れねーよ』『こんなもん使わないよ』『まったくおもしろくないじゃん』と思われるものも多いです。たぶん、世間の人も受け入れられるのは10個中1個ぐらいです。そんなにあるかもわかりません。
自分がおもしろいと思っているものと世間が面白いと思うものをなんとか折り合いをつける必要があります。「ワクワク」という言葉はすごく省略していますが、そんな意味を込めています。「人生100年時代」と言いますが、僕の場合は100歳マイナス20歳で、あと80年間は面白いものを作れると良いかなと思っています。
「AI:人工知能特化型メディア「Ledge.ai」」掲載のオリジナル版はこちら「自分の声が嫌いだった」20歳の大学生社長 月間ユーザー数20万人超のAI音声合成を生み出すまで2021/11/04
ソーシャルもやってます!