ゲーミング対応の低遅延をアピールするワイヤレスのイヤホンがいくつも登場している。それでもリズムゲーム、いわゆる「音ゲー」は満足に遊べないという結果が出ている。低遅延をアピールしても、なぜ人間にはわかってしまうのか。そのあたりを深堀してみていこう。
はじめに。映像のと音声のズレから”違和感”として遅延を感じる時間は0.1秒
はじめに、一般的に人間が映像と音声のズレを「遅延」として認識し、違和感や不自然さを感じる時間を確認してみよう。これについて、数多くの研究結果が出ているが、概ね100ms(0.1秒)をひとつの目安としていることが分かった。
今回参考にした研究結果は「Subjective Evaluation of Perception of Delay Time between Visual Information and Tactile Information」と題されるものだ。

出典:Subjective Evaluation of Perception of Delay Time between Visual Information and Tactile Information
この研究では主観評価として、映像と音声に意図的な遅延を発生させ、何秒の遅延で違和感を感じるかをモニタリングしたものだ。この評価基準の3.5が”感じてわずかに不自然である”を示す100ms(0.1秒)前後となっている。あくまで、人間というあいまいなターゲットを対象にした主観評価であることは念頭におこう。
そのため、多くの「ゲーミングモード」を搭載する機種が100ms以内の遅延に抑えている。その根拠がこの数字であり、理論的にはこれより遅延を抑えれば、遅延によって感じる不自然さが低減されることになる。
音ゲーにおいて、人間は常人離れした知覚パフォーマンスが出せる。その理由は「リズム効果」にあり
そんな中、リズムゲームに関する面白い講演が過去に行われていたことを思い出した。CEDEC2019にてバンダイナムコ未来研究所の森口氏が講演した『芯(シン)・遅延対策2020 ~ヒトのスペックから導かれる安定性重視とフレームレートのベストプラクティス』という題目だ。
この講演内では、人間のスペックに合わせたゲームの遅延対策として、バンダイナムコのゲームにて行ってきた対応や知見が語られた。前半は人間の知覚や反応に関するスペック、後半はそれに合わせたリフレッシュレート設定などでまとめられている。
講演内容から引用すると、一般的な人間の知覚は視覚で20ms(0.02秒)※、聴覚で2ms(0.002秒)の遅延を検知可能なこと。検知、処理、行動までの時間は200ms(0.2秒)であることに触れたうえで、以下のような内容だ。※最新の研究では視覚も8msという結果も出ている。
人間の知覚処理から脳を「プロセッサ」として仮定した場合、周波数でいうところの25~33Hzで動作するという。この1クロックで視覚、聴覚、触覚、記憶などを統合した検知処理が行われる。
個人差はあるものの、人間は1秒間あたり、25~33回の状態変化の検知が可能。このため、人間の知覚の分解能が30〜40msであること。脳の処理信号の分解能も同様であると説明している。
これ以上の細かい時間間隔は通常の人間の脳ではうまく処理できないという。

この知覚の分解能によって、我々は30fpsと60fpsの映像の滑らかさの差を多くの人が体感できる
さて、ゲームの中でも「リズムゲーム」では上述した人間の持つ知覚スペックの限界を超えてくることがあるという。これについて森口氏は「リズム同期」という効果を例に挙げている。
これは主に「音楽に合わせて体を動かす」ことで30msよりも細かい検知が可能になるという。イメージとして、音楽に合わせて体を動かすと「いつもより動く」と感じた経験はないだろうか。それに近いものだ。
リズム同期という名前から楽器奏者やダンサーに当てはまると思われるが、間合いが大切なスポーツにも当てはまる部分があるという。これは「慣れ」も含めた脳の強化学習の結果だとした。同じ楽曲を何度も遊んでいると目が慣れてくる、指が次のノーツの位置にあるといった自然な動きが強化学習の結果だ。

タイミング幅は「判定」と言われるもの
ちなみにゲームセンターで見かける「Dance Dance Revolution」「beatmania IIDX」の判定幅は16.67ms、割とポピュラーな「太鼓の達人」も高難易度では25msだ。上記のようなゲームでは、一般的な人間の検知幅である30msを超えたものになるため、常人向けではない「リズム同期ありきのゲーム設計」となっている。
高難易度の譜面をAll Perfectでクリアするには、楽器を演奏するのと同様の高度なトレーニングが必要となる。16.67msの判定幅が見えるというのは、「60fpsで描画された動画がフレーム単位で追える」というスキルだ。目で追うよりも体で感じるに近く、譜面を叩いているよりも「奏でている」が表現的には近い。
今回は割愛するが、端末側のハードウェアレイテンシーも関係する。プレイングに関係するタップ音やエフェクトについても、人間の脳内バッファ(メモリみたいなもの)が100msまでは許容してくれるとしている。
この辺りはゲームエンジンの関係で難しいものもあるそうだが、設計ではこの値以内で処理することが望ましいとしている。参考までにピアノでは、打鍵から出音まで50msほどの遅延があると言う。
スマホ向け音ゲーの判定幅は40ms。ここから考える「遅延の無いワイヤレスイヤホン」の要件とは
スマートフォン向けコンテンツでは前述の「リズム効果」を前提にしたゲーム設計ではあまりに高難易度設定すぎるという。一般的な知覚処理を考慮すると、タイミング幅は40ms幅の設定で作ることが最適だとしている。これよりも判定幅を短くすると難易度がかなり高くなるため、スマホ向けでは高難易度でも概ね40msのタイミング幅を基準にしてゲーム設計を行っているようだ。
ここに端末のハードウェア固有の遅延も加わるため、過度に難易度を攻めると機種によるプレイング環境に大きな差がでてしまう。機種の差分をうまく落とし込むという意味でも、40msほどに調整しているのだろう。いわゆる音ゲーマーが「スマホ向けコンテンツは簡単」と指摘する背景はこの部分が理由だ。
スマートフォン向けのリズムゲーム「プロジェクトセカイ カラフルステージ! feat. 初音ミク」や「バンドリ! ガールズバンドパーティ!」では、ノーツ幅は41.67msとなっているようだ。DeemoやMuse Dush、ミリシタで50ms、デレステは60msとなっている。(推測値のため、厳密な数字は不明)

スマートフォン向けコンテンツでは前述のこともあってか、概ね40msのタイミング幅を基準にしてゲーム設計を行っているようだ。
タイミング幅はいわゆる「判定幅」とも言えるもの。例に挙げるとリズムゲームのスコアはざっくりで「Perfect」「Great」「Good」「Fast/Slow」「MISS」の5段階となる。仮に全て40ms幅でゲーム構成をした場合、以下のようになるはずだ。
Perfect 0〜-20ms※
Great -21〜-60ms
Good -61〜-100ms
Slow -101〜-140ms
MISS -141ms〜
※Perfectはプラス側にもあるため。
全てのリズムゲームがこうだと断定できないが、仮にもバンドリやプロセカが約40msの判定幅とした場合、Perfect幅は遅延方向のマイナス側で20msしかない。
そのため、端末固有の遅延を含めた有線イヤホンでのプレイングと0を仮定した場合、ほぼ同等の感覚を得るには、ワイヤレスイヤホン側の音声遅延は20ms(0.02秒)以下に抑えねばならないことになる。
仮にタイミング調整を行った場合でも、理論的にはノーツ幅の40msまでの遅延がギリギリだ。これよりも遅延が大きいものは、遊べてもどこか違和感を覚えるプレイングになる。
ワイヤレスイヤホンで音ゲーを遊ぶ!遅延なしは無理だが、許容限界はタイミング調整をして40ms
ある意味ここからが本題だ。実際に筆者がリズムゲーム「ミリシタ」で検証した。端末はXperia 1 IVを使用し、脳が環境に慣れることを防ぐため、各プレイ毎にiPhoneで一度プレイし、感覚をリセットした状態で検証した。(PERFECTのタイミング幅50ms、マイナス側で25ms)

Xperia 1 IV 有線イヤホンでのリザルト
Anker VR P10(遅延約30ms)でのリザルト
フルコンボで叩けたのはこの2つだけだった。Anker VR P10ではPERFECTの精度が95%を超えていて、有線でのプレイングにかなり近いものであった。それでも”近い感覚”で、有線イヤホンでのプレイと全く同じ感覚にはならなかった。

ASUS ROG CETRA Ture Wireless(AAC 遅延約70ms前後)でのリザルト

Final ZE3000(aptX Adaptive 遅延約100ms前後)でのリザルト
Edifer Neobuds Pro(LDAC 遅延約300ms前後)でのリザルト
その他の機種ではこのようになった。全般的にミスが目立ち、精度が下がっていることが分かる。ゲーミングをアピールする低遅延のイヤホンですら、本来正しいタイミングで叩いても、常に体感できるだけの遅延がある。そのため、Great判定も増える形となる。
また、遅延が100msを超えると明らかに違和感を覚えることもわかった。リザルトの通りMISSも増え始め、このレベルの遅延があるワイヤレスイヤホンでは音ゲーをまともに遊ぶことが難しくなるのだ。
音ゲーを快適に遊ぶためのワイヤレスイヤホン側の遅延は40ms以下。現時点で達成は難しい
ここまで人間が違和感を感じる遅延時間と、リズムゲームの設計におけるノーツのタイミング幅について説明してきた。ワイヤレスイヤホンでリズムゲームを満足に遊ぶためには、タイミング幅よりもイヤホン側の遅延が短くなければならないのだ。
主要な完全ワイヤレスイヤホンの遅延をチェックしてみると概ね以下のようになる。なお、一般的な完全ワイヤレスイヤホンは250〜400msの遅延があるようだ。
Apple AirPods Pro 第2世代:130ms
SONY WF-1000XM4:100ms(理論値)
Razer Hammerhead True Wireless:60ms(ゲーミング)
BlackShark JoyBuds Pro:55〜60ms(実測値 ゲーミング)
EPOS GTW-270 Hybrid:50ms(aptX LL ゲーミング)
JBL Quantum TWS:40ms
Anker VR P10:30ms(ゲーミング)
これを考えると普通の機種はもちろん、ゲーミングをアピールするワイヤレスイヤホンでもリズムゲームにおいてかなり厳しいことが分かる。音声遅延が抑えられている「ゲーミング」をアピールする機種でも遅延は55〜60msはある。近年では40msクラスのものも出ているが、ラボスコアがほとんどで実測値はこれより劣るものが多い。
Bluetoothのコーデック的にはaptX LL(Low Latency)が規格上の遅延が40msとしており、Bluetooth規格でこれよりも遅延を抑える事はかなり難しいと考えられる。このコーデックは対応機種がかなり限られているため、本来の性能を発揮するのはかなり難しい。
ちなみにJBL Quantum TWSとAnker VR P10はBluetoothではなく、専用ドングルを用いた2.4GHz帯通信を採用している。これによって音声遅延をかなり抑えられているが、それでも最新のVR P10の30msが現時点での最高峰だ。
ただ”リズム効果”によって、人間のスペックを超える細かい感覚の検知が可能になっている状態では、遅延というより違和感を感じることがあるはずだ。

現時点の最高峰となるAnker VR P10。30msの遅延は、タイミング調整次第で有線イヤホンにかなり近いプレイングが可能だ。
これを見てワイヤレスイヤホンでリズムゲームを満足に遊ぶことが、かなり難しいということが分かったはずだ。もしも無線のイヤホンで「リズムゲームを遊びたい」といった際の参考になれば嬉しいところだ。