日本音響学会誌50巻12号(1994),pp.1011−1016
このページの転載・複製を禁じます。 

仮想座談会
「聴覚の情景分析」
−−カクテルパーティー問題を越えて

柏野牧夫 (NTT基礎研究所)
中島祥好 (九州芸術工科大学)
佐々木隆之(宮城学院女子大学)
津崎実  (ATR人間情報通信研究所)
(ABC順)  

1 「聴覚の情景分析」とは?

司会者 : 「聴覚の情景分析(auditory scene analysis)」という用語について、まずは、解りやすい手がかりがあるとありがたいのですが。
中島: 我々が二つの耳を使って体験するのは、「音の高さ」や「音色」や「音の到来方向」などではなく、「家族の話し声」、「車の警笛」、「蛙のコーラス」などの具体的な音です。「どんな音が、どこで、どんな風に鳴ってて、他の音との関係はどうなっているのか」を把握する働きが「聴覚の情景分析」だと言ってよいでしょう。この用語は、Bregman 先生の著書1)(本誌48巻10号に書評)の題名に使われて以来、急速に広まりました。Bregman 先生の一派は、1970年代から「音脈分凝(auditory stream segregation)」の研究を精力的に進めてきたことで有名です。
司会者: 音脈分凝について解説をお願いします。
津崎: 方便になりますが、「聴覚による音源分離」と言えば解りやすいかもしれません。ただ、我々がこの言葉から普通思い浮かべるのは、もっと限定された実験室的な状況です。典型的なのは、周波数の高い音Aと、それよりもずっと(例えば2オクターブ)周波数の低い音Bとからなる音列が、比較的速いテンポ(例えば10音/秒)でABABAB−−と呈示された場合で、高い音の音脈(stream)A−A−A−−と、低い音の音脈B−B−B−−とが、はっきりと分かれて聴こえます。つまり、ABAB−−という順番ではなく、AのかたまりとBのかたまりとが、並行して聴こえます。A、Bの周波数が離れているほど、また、Aの始まりから次のBの始まりまでの時間間隔が短いほど、この現象は起こりやすくなります。
佐々木: 音脈分凝は、音の高さだけでなく、音の空間的な位置、音色、音の大きさなど、さまざまな知覚特性を手がかりとして生じますね。
津崎: そうなんです。似ていない音は、別々のまとまり、つまり音脈を形作りやすいわけです。
佐々木: 聴覚系は、このような過程を通じて、複雑な音の絡み合いから、意味のある情報を抽出し、さらに音どうしの関係を把握するわけですから、これは確かに「情景分析」です。オーケストラの音の中から特定の楽器の音を聴きとり、音楽全体の中に位置づけるような状況を考えればよいでしょう。特定の音を聴きとるという点では、いわゆるカクテルパーティー問題にも通じる状況です。耳に届いた様々な聴覚信号は、一旦ばらばらの神経信号になりますが、聴覚系は、それらを人の声や、楽器音などの組合せとして、再構成しなければなりません。このときに、いろいろな原則や文法のようなものを用います。Bregmanのグループが、このような事柄に関する研究を進めるに当たって、絶好の題材となったのが、音脈分凝と言う知覚現象だったわけです。
司会者: 中島さんは、Bregman 先生の研究室を見学されたそうですね。
中島: はい、1990 年に10日間だけモントリオールに滞在し、マッギル大学に出入りさせていただきました。メンバーは皆忙しいのに、なごやかな雰囲気に溢れた研究室でした。マッギルのシステムを使うと、コンピューターのマウスを用いて、スクリーンの上で発振器、ミキサー、シーケンサーなどをつなぐことができ、色々な面白い音刺激パターンを、ゲーム感覚で作ることができます。私も、聴きたい音を次から次へと作らせていただき、獲れたての音をその場で討論のまな板に載せると言う、Bregman 研究室の活力を体験させていただきました。ところで、Bregman 先生が音脈分凝の研究を始められたのと同じ頃に、オランダの van Noorden(ファンノールデン)さんが関連の深い研究をしています。この方は、何と「日曜心理学者」で、本職は電話関係のエンジニアです。Bregman先生は、van Noordenさんの研究を高く評価され、何回も引用しておられます。もう一人、Bregman 先生がよく引用される研究者は、アメリカのRichard Warren 先生で、この方は、Bregman 先生のよきライバルに当たります。Warren 先生は、やたらと新発見をされる方ですが、連続聴効果(continuity effect)を始めとする、聴覚誘導(auditory induction)の研究が特に有名ですね。

 

2 連続聴効果をめぐって

柏野: 連続聴効果は、1950 年に Miller と Licklider2)が報告した現象ですね。Miller たちは、純音と広帯域雑音とを 50 ms ごとに交替させました。純音も雑音も物理的に断続しているわけですが、純音のほうが、連続しているように聴こえたのです。Miller たちは、この連続性の知覚を、垣根越しに景色を見た場合になぞらえています。
佐々木: その数年後に Thurlow は、この現象を聴覚の「図−地効果(ずじこうか)」として発表しています。この呼びかたからも、視覚における情景分析が連想されますが、当時、情景分析という概念はなかったと思います。聴覚におけるこの現象の重要性は、Warren たちによる「聴覚誘導」の研究によって確立します。
柏野: Warren 先生は、連続聴効果が数百ミリセカンド以上の比較的長い中断に対して、明瞭に生じることを示されました。物理的に切れているのに、知覚の上で補完されてしまう音は、別に純音や狭帯域雑音である必要はありません。Warren 先生は、音声信号の知覚的補完、すなわち音素修復(phonemic restoration)を発見され、その後、純音や雑音に生じる連続聴に興味を広げられたのですが、どちらも、マスキング可能性の法則(後出)などの共通の法則に支配されることを示されました。音楽信号の知覚的補完を発見されたのは佐々木さんです。Warren 先生は、これらの現象を包括する「聴覚誘導」と言う名前を提案され、関連する話題を「Auditory Perception」3)という本にまとめられました。この本には、数々の珍しい聴覚現象が、独自の視点から取りあげられています。
佐々木: 分厚さでは Bregman1)に負けていますが、味のあるいい本ですね。
津崎: 分厚いと言えば、Handel先生の「Listening」4)もユニークな本です(本誌48巻10号に書評)。この本は、一章ごとに読みきりになっておりまして、聴覚の情景分析を試しにかじってみたい方にもお奨めです。Bregman 先生や Warren 先生の本には詳しく出ていないリズム知覚について、まとまった解説があるのもいいですね。
中島: 最近、若手の McAdams 先生と Bigand 先生が編集された本5)には、研究現場の便利情報がぎっしりと詰まっています。それから、10年ほど前に Diana Deutsch 先生の編集された「The Psychology of Music」6)にも、参考になる部分があります。この Deutsch 先生は、音階の錯覚 (scale illusion)などの研究においてゲシタルト心理学の考えかたを導入し、聴覚研究に大きな影響を及ぼされた方です。ちなみに、いま挙げた2冊の本にも、リズム知覚の話が詳しく出ています。
津崎: 聴覚の情景分析に時間的な要因が重要であることは、音脈分凝の例を見ても明らかですが、単なる時間的近接性だけでなく、リズムの側面、あるいは時間的規則性、周期性の問題については、重要性が充分に認識されていないかもしれません。Jones 先生7)は、周期性が重要であることを指摘され、我々の注意機構が周期的に働くとの考えを、ある種の音脈分凝の現象を説明することにまで広げてゆかれました。この音脈分凝の件に関しては、周波数の近接の原理を重視する Bregman 先生と意見の対立があるようです。とは言っても、我々が日常耳にする音に関して、周期性が重要な意味を担いうることに、異論はないでしょう。私の研究グループでは、音声事象を中断し、そこを雑音で埋めるという実験を続けています。雑音のおかげでつながって聴こえるようになった音声は、短めの長さに知覚されることがあります。しかし、日本語の場合、モーラ構造という強い等拍性のスキーマ(schema=図式)があることを考えに含める必要を感じています。「等拍」と言っても、言語音声の場合、完璧に同じ物理現象が、完璧に同じ時間間隔で到来することはまれです。音声もどきの信号音などを作って聴いてみると判るのですが、どうも我々の聴覚系は、等間隔の完璧な繰り返しには、かなり特殊な対応をするようです。
中島: Warren 先生は、周期的な繰り返しを知覚する仕組みが、音の高さを知覚する仕組みの一部と重なっている、との見解を発表されましたが3)、広く認められているわけではありません。時間に関する研究は、本当に話が複雑です。
佐々木: 私たちが最近行った実験の結果ですが、同一周波数で強さの異なる二つの純音を、強い音、弱い音の順で隣接させて呈示すると、二番めの弱い音の時間長が過大評価されます。これは、聴覚誘導を時間的な側面から捉えた現象ではないかと考え、検討を進めています。
柏野: 聴覚誘導によって、中断された音の時間長が伸張して知覚されることについては、Warren先生の研究室で、昔から研究がなされています。時間長の伸張が極限にまで達したものが、連続聴だと考えるわけです。佐々木さんたちのデータは、このような時間長の伸張を最小の文脈で示したものであり、興味深いと思います。
中島: この伸張現象については、弱いほうの音の始まりが、手がかりとしては与えられない、あるいはマスクされているので、聴覚系がそれを補ったと考えることができます。「終り」があるのに「始まり」がないのでは、辻褄が合わないので、聴覚系が辻褄を合わせるのではないでしょうか。
津崎: ただ、連続聴効果そのものは、そういう「辻褄」などを持ち出さなくても、よい連続の原理、近接の原理などの、ゲシタルト原理(Gestalt principles)によって捉えることができますね。
中島: それはそうです。Ciocca 先生と Bregman 先生の論文8)では、周波数変化音に生ずる連続聴が報告され、おっしゃったようなゲシタルト原理が導入されています。周波数軸が何を意味するかについては、注意が必要ですが。
佐々木: 連続聴効果を利用して、聴覚系の周波数選択特性を求めるのに成功したのは、Houtgast(ハウトハスト)です。ある音を中断したときに、該当する聴覚末梢系の興奮パターンが落ち込まなければ、その音はつながって聴こえると考えたのです。この考えかたは、いわゆる「マスキング可能性の法則(masking potential rule)」を別の言い方で述べたものとも考えられます。(Houtgastの研究については、Plomp の「Aspects of Tone Sensation」9)に、要領よくまとめてあります。)

 

3 マスキング可能性の法則

司会者: 「マスキング可能性の法則」とは何のことでしょうか?
柏野: 連続聴ないし聴覚誘導は、純音でも複合音でも雑音でも周波数変化音でも、言語音声でも音楽でも、実に様々な音に対して起こりえます。ただし、連続した感じが生じるには、これから申しあげるような条件が満たされていなければなりません。Aと言う音が中断され、中断によってできた無音部分にBと言う音が挿入されたとします。まず、AとBとの間に50 msに達するような無音区間があると、連続聴は起こりません。さらに、Aが連続して聴こえるためには、挿入された音Bのスペクトルに、「マスキング可能性」という条件が求められます。それは、「AとBとが仮に同時に存在していたとしても、BがAをマスクするであろうような条件」です。「Aが連続していないと言う証拠が明示されておらず、かつ、Aが連続していたとしても不合理ではない」ような状況では、聴覚系は、Aが連続していると解釈します。
中島: 何かしら、裁判所の判決文のようですね。
津崎: でも、判決は裁判所よりもずっと迅速に下されますね(笑)。「早とちり」もありますが。
佐々木: 「早とちり」かどうか分かりませんが、聴覚誘導が起きれば連続的に聴こえるはずの音が、実際に連続していると、結合音などのせいできれいに連続しては聴こえず、むしろ、実際には途切れているときのほうが、きれいな連続に聴こえると言うことがあります。聴覚の情景分析の仕組みは、必ずしも実際に連続した音をうまく見つけるようにはできていないのです。また、ある音が連続していないと言う証拠が明示されており、連続に聴こえることがありえない場合でも、「マスキング可能性」と言う条件が満たされることで、実際にはない音が聴こえる例もあります。その代表が、van Noorden10)の報告したロール効果(roll effect)です。スペクトルの形が等しく強さの異なる二種類の短音が、時間的空隙を挟んで交替するような条件で、強いほうの音が鳴っているときに、大きい音と同時に小さい音も聴こえることがあります。つまり、小さいほうの音が二倍のテンポに聴こえます。この現象を、連続聴と呼ぶことはできませんから、より一般的な「聴覚誘導」という言葉が不可欠になります。
柏野: 「誘導」と言うのは、もともと発生学における用語で、ある特定の組織が隣接する組織の分化に影響することを指すようです。「聴覚誘導」とは、刺激パターンのある部分がどのように分かれて聴こえるかが、前後の部分に影響されることなのです。言語音声や音楽における知覚的補完の事例が明らかになってゆくにつれて、連続的な音に限らないより広い現象も、聴覚誘導として包括されるようになりました。佐々木さんが指摘されたロール効果は、中でも面白い例だと思います。どのような聴覚誘導についても、マスキング可能性の法則が、必要条件です。
津崎: 耳に与えられる一つの音が、その音自体と、それにマスクされてしまうもう一つの音との、二つの音が存在する証拠として使われるわけですが、Bregman 先生などは、マスキングのことはあまり考えず、一かたまりの音エネルギーが、聴覚系によって二面的に解釈されるのだと考えています。このような多面的な解釈がしばしば生じるのは、聴覚の情景分析に見られる特徴です。ある帯域のスペクトル成分が、フォルマントを示すことによって音韻知覚の一端を担うと同時に、その部分だけが浮き出して音声ではない変な音としても聴こえる、と言う「二重知覚(duplex perception)」の現象に注目する研究者が多いのも、このためです。

4 これからどうする?

司会者: 次から次へと新しい現象が出てくるようですが、そのうちに臨界帯域説のような定量的なモデルができあがるのでしょうか。
中島: 今は、定量化などは考えずに、もっと沢山の新しい現象を見つけてゆくことが大事だと思います。大まかな情報を山ほど集めて並べなおし、じっと眺めれば、聴覚の全体像がぼんやりと見えてくるはずです。個々の知覚現象の生ずる細かい仕組みは解らなくても、我々の知覚系がどうなっていれば「楽」で「得」になるのかを考えれば、事実が整理され、新たな事実の発見につながることさえあります。音の出どころを正しく聴き分けることは、聴覚系の大事な役割であり、そのためには、連続した音を素早く聴き出す仕組みがあれば大変役に立ちます。たまに「早とちり」を生み出すような手段を用いても、ともかくすぐに何らかの「意見」を出して、総合的な知覚的解釈に役立てることができるならば、全体としては得です。例えば、近い、あるいはつながりのよいスペクトル成分をひとまとめに捉えることは、有効な手段であり、しかも、楽に実現できるでしょう。Ciocca 先生たちが考えられたようなゲシタルト原理は、ここで現れるのだと思います。一方、知覚的解釈に明白な不整合の生ずることを防ぐ手段を持たなければ、知覚系は環境に素早く適応するために役立ちません。音の「終り」があるのに「始まり」がないなどと言うことを許せば、その音を現実の環境の中に位置づけることができず、大事であるかもしれない情報を捨ててしまうことになるでしょう。そこで、不整合を禁止するような「知覚の文法」が必要になります。それも、単純なものでなければ、楽に素早く使えません。
柏野: ゲシタルト的なアプローチも含めて、情景分析の研究というのは、文法の研究だと言ってもよいでしょう。多義性をはらんだ複雑な文を、さまざまな文法を当てはめて合理的に解釈する過程を研究するのが心理言語学ですが、その「文」を「音響信号」に置き換えれば、そのまま聴覚の情景分析になります。一方、そのような構文解析が人間の聴覚系のなかでどのように実現されているのか、そのメカニズムを理解しようとすれば、精神物理学の力が不可欠です。精神物理学というのは、聴覚フィルターの研究に代表されるように、主として線形伝送理論の道具を用いて、その枠内で仕事をするわけです。ところが、情景分析の研究は、ゲシタルトという言葉からして非線形を意味するわけですから、伝統的な精神物理学とは相性がよくありません。しかし、本来人間の聴覚は一つのものであり、その要素的な特性と統合的な機能との間には、密接なつながりがあってしかるべきです。私が一番やりたいと思っているのは、まさにここの統一的理解です。そのためには、情景分析という機能を計算理論的に定式化することも必要でしょう。それによって、個々の要素的過程が何のためにあり、また、どうなっていれば合理的なのかが明確になります。ところが、実際の生物は最適に設計されているわけではありませんし、正確さを犠牲にしても速くて簡単な道を選ぶことがあります。それでいて、大局的に見れば情景分析ができると言うことを理解するためには、精神物理学による事実の積み上げが必要なのです。
中島: この場合、精神物理学と言っても、「音の大きさ」、「音の高さ」、「到来方向」といった要素的特性の測定から始まって、安直な情報処理モデルの構築や、近似式の提案などで終わってしまうのでは意味がありませんね。どのような生物学的な制約の中で、何のためにそのような情報処理がなされるのかと言う観点が大切です。
柏野: 近年、共変調マスキング解除(co-modulation masking release)という 現象が注目を集めていましたが、これなどは、うまくやれば、精神物理学的な手法で情景分析にアプローチできる、あるいは、情景分析的な問題意識が精神物理学を導く、好例になりうるでしょう。
津崎: 精神物理学的なアプローチと、情景分析的なアプローチとの対立は、根が深いものです。極端な例を挙げますと、精神物理学においては、交替速度の異なる二つの二音交替系列を被験者に呈示し、違いを聴き分けたかどうかと言った単純な判断を求めます。このようなパラダイムにおいて、音脈分凝が生じたか否かは、問題としにくいわけで、被験者が、交替速度の違いを手がかりにしていようが、音脈分凝の有り無しを手がかりにしていようが、弁別されたかどうかだけが問題となります。これに対して、情景分析的なアプローチでは、知覚する主体が外界をどのように記述するかが、本質的に重要です。同じ弁別と言う行為が成立しても、それが単なる交替速度の違いによるものなのか、それとも、一方では音脈分凝が生じ他方では生じないと言うことによるものなのかを論じます。すなわち、カテゴリー化に興味があるわけで、その点では言語音声の研究に通じるものがあります。ただし、扱っている刺激は精神物理学的研究で使ってきた刺激に近いものが多いので、精神物理学との接点も見いだされるはずです。このように考えれば、「情景分析」こそ、精神物理学と言語音声研究とのあいだを行き来するための鍵を握るものかもしれません。
柏野: 高次のレベルにおける言語音声の研究と情景分析の研究というのは、構文解析を意識している点で互いに近い面があります。一方、言語音声の研究と、精神物理学との相性の悪いことは、我々も経験ずみです。この際、「ばらばらに行われているものを何とかまとめる。」と言う発想が求められます。
中島: 音響学会で、「聴覚」と、「聴覚・音声」とが、別々のセッションになっているのは、便利である反面、ばらばらになるのを助けているかもしれません。まとめる努力が必要ですね。

 

5 研究の姿勢

司会者: 柏野さん、少し Warren 先生の研究室の雰囲気についてお聞かせ願えますでしょうか。
柏野: 私は、 1992 年秋から約1年間、ウィスコンシン大学ミルウォーキー校の Warren 先生の研究室で研究させていただきました。先生の研究の進めかたは独特で、最初は相当ギャップを感じましたが、大変勉強になりました。私も含めて、最近の若手の知覚研究者は、「仮説(ないしモデル)−実験による検証」と言うプロセスで研究を進める傾向があります。ところが、Warren 先生の場合、「観察の反復−実験−法則化」と言う形を積み重ねてゆかれるので、一見「理論」がありません。しかしよく見ていると、どういう状況でどのような知覚が生じるかを予測できるような法則が得られているのです。つまり、単なる事実の羅列を越えたものが生まれるのです。マスキング可能性の法則がよい例です。このような現象主導の方法は、理論主導の方法と相補う形で、ますます重要性を増してゆくでしょう。このような立場を取る場合、いかなる現象を取り上げ、どのように観察するのかを、適切に決定することが重要です。Warren 研究室には、この点に関する職人芸の持ち主が揃っています。実験装置はアナログ中心ですが、彼らはこの環境で、最も効率よくやりたいことができるようです。
司会: ロール効果を発見した van Noorden さんは、日曜心理学者と言うことでしたね。
佐々木: 我々から見れば、平日でも重要人物です(笑)。彼の書いた論文は、数にするとそれほど多くなく、音脈分凝に関する研究の主要な部分は、雑誌論文や本ではなく、趣味(!)で書いた博士論文に載っているだけです。世界中に、この博士論文のコピーが出回っています。この中で、彼は、二音交替系列を用い、周波数の差や、時間間隔を変化させて、分裂(fission)すなわち音脈分凝を聴こうとしても聴くことのできなくなる「分裂境界(fission boundary)」と、一連性 (temporal coherence)を聴こうとしても一連には聴こえなくなる「一連性境界 (temporal coherence boundary)」とを求めています。私も、二音交替系列の聴こえに興味を持って、特に分裂と一連性との間に生じる聴こえの自発的反転を取り上げ、それぞれの出現時間を測定しした。知覚の自発的反転と言うのは、「ネッカーの立方体」や「ルビンの壷」に関連して、視覚の分野では常識となっていますが、聴覚の分野では盲点になりがちです。実験の計画の段階で、ドルドレヒトという街にある van Noorden の自宅を訪問し、二階の勉強部屋兼実験室で、ケーキをいただきながら意見を交換しました。昨年は、van Noordenのほうが仙台を訪問してくれました。彼は、エンジニアとしての仕事の合間を縫って、面白いことを見つけては、自宅の限られた設備で研究しているわけですが、その発想と洞察の鋭さは、尊敬に値します。
津崎: 面白い現象に出会っても、あれっと感ずる好奇心がなければ、通り過ぎてしまいますね。
中島: 学生諸君にそんな話をしたら、「いろいろ外にやることも多いので、ずばり好奇心のポイントを教えてほしい。」と注文する人が出てきます(笑)。 そう言う人にも、我々の回りくどいメッセージが伝わればよいのですが。
津崎: ここまでつきあってくれた人は大いに見込みありですよ。ともかく、興味の対象を、言語音声だけとか、音楽だけとかに限定しないこと。食わず嫌いをしないでどんな音でも聴いてみることでしょうね。純音でも、結合音でも、コオロギでも、アイドル歌手でも、F1のエンジン音でも−−。聴覚の情景分析に関して、まだ核となるような理論は存在しません。しかし、「音脈」という知覚像の概念が提出され、重要な研究課題が設定されました。それは、聴覚システムにとって、いわゆる「ひとつの音」とは何か、それがいかに構築され、いかに我々の体験の中に位置づけられるのか、を解明することです。カクテルパーティー問題は、この大きな問題の、ほんの入口であったことが解ります。心理屋四人が全国から集まったふりをしてでかい口を叩きましたが、各分野の研究者が競いあって、聴覚研究が盛り上がるといいですね。私ども心理屋も、ここは一丸となって−−。
一同: (口々に喋りはじめ、一人一人の声が聴き取れない。)

 

謝辞

河原英紀、加藤宏明、河原一彦、西村明の各氏を初め、多くの方々から貴重な御助言を頂きました。  

 

文献

1) Bregman, A. S., Auditory Scene Analysis: The Perceptual Organization of Sound (Cambridge, MA: The MIT Press, 1990)

2) Miller, G.A. & Licklider, J.C.R., J. Acoust.Soc.Am. 22,167-173 (1950)

3) Warren, R.M., Auditory Perception: A New Synthesis (New York: Pergamon, 1982)

4) Handel, S., Listening: An Introduction to the Perception of Auditory Events (Cambridge, MA: The MIT Press, 1989)

5) McAdams, S. & Bigand, E. (Eds.), Thinking in Sound: The Cognitive Psychology of Human Audition (Oxford: Oxford University Press, 1993)

6) Deutsch, D. (Ed.), The Psychology of Music (New York: Academic Press, 1982) −−「音楽の心理学(上・下)」(西村書店) 

7) Jones, M.R. et al. J.Exp.Psychol.: Hum. Percept.Perform. 7, 1059-1073 (1981)

8) Ciocca, V. & Bregman, A.S., Percept. Psychophys. 42: 476-484 (1987)

9) Plomp, R., Aspects of Tone Sensation (London: Academic Press, 1976)

10) van Noorden,L.P.A.S. Temporal coherence in the perception of tone sequences. Unpublished doctoral dissertation. Technische Hogeschool Eindhoven, Eindhoven, The Netherlands)