カテゴリー: テクノロジー

music hack day tokyoにいくよ

昨日の続き。
５～６年前につくった奴で、マルチもにっとというものがある。
遠隔操作型の多脚戦車だのにエアガンとカメラを積んで、ロボでサバゲというのをやってる人の要望でYoutubeやustreamのモニターを１画面で読み込めるようにした何かだ。自分の技術系のブログのほうのドメインをうっかりロストしたあげく、業者に拾われてしまったのでこっちに最低限サルベージしておく。

http://kuippa.com/sandbox/multimonit/

画面のちょっとあれなアイコンをクリックすると全部同時に再生が始まる。止めるには左上のメニューから。
下部の動画をクリックするとメインモニタを切り替えることができる。

何年も前のyoutubeAPIやらustreamやらをつかっているので、動くもんかわからなかったけど動くもんだね。
すごいんだぜ、prototype.jsがでてきたんだぜ。jquery前のテクノロジーだ。
ActionScriptのFlex2か3あたりを使用しているのだけど、同じことをhtml5でやろうとしても、API側がプレイヤーをiflameで読み込ませるだけなので残念ながら同じことを再現するのはまだまだタフなことだとおもう。youtubeやustreamがhtml5のvideoタグ’video/mp4’あたりで対応してくれる未来があるならそのほうがいいと思うのだけど、まだちょっとむずかしい。あと何年かすればそうなるとは思うけど……

さて、話しが少しそれた。なんでこれを紹介したかというと、今年になってYoutube自身がその実験サイトでChooseYourViewというプレイヤーの実証をはじめたからだ。

https://www.youtube.com/user/MadilynBailey/ChooseYourView

まあ、コンセプトは一緒。
最近はフェスだの、ライブだのだと海外だと撮影自由なのでみんながステージに向かってカメラを構えている。
何か事件や事故があるとみんなが持っているスマートフォンで撮影をおこなう。
多視点映像が溜まってきた。
多視点視聴のソフトが必要になってきているんじゃないかと思ってね。

前述のは前時代的であるので、もっと現代風であるべきかとは思うんだけど。
それがオキュラスに流すとか、そういうものかもしれないけど。
まあChooseYourViewも結構だけど、もっと未来テクノロジーの鱗片を味わいたかった。
SxSWのperfumeのスムースモーフィング（PerfumeのSXSWライブでうにーっとなる謎の技術分析
）、あれと同じことが多視点映像がたまるとできるんじゃないかなと思っている。

プレイヤーの未来

楽器の習熟は幼少期からの絶え間ない反復練習。でもソフトウエア音源や自動演奏は一流プレイヤーでさえ再現できないような演奏もできるようになった。
かつてはペッラペラのMIDI音源だったものは、多くの人間が生音と区別ができないレベルにまで音情豊かになってきている。

正確さを競うという点で、人間はもはや敵う余地はなくなった。
しかし、上原ひろみのようなグルーヴが機械に出せるかはまだ別である。
サンプリング音源をいかに集めるかとか、カオスパッド的なものでゆらぎをあえて作るというような工夫はあるが、音楽のプレイヤーの重要度は下がり、パフォーマーの価値があがる一方である。残念ではあるが。

誰にでもできるようにするのが技術の目指す方向である以上、ぶつかりあうのはいたしかたのないこと。
科学技術の発展度合いを考えると、ピアノの発明と同程度のインパクトを持つ楽器の登場があってもよいと思うが、いまのところ決め手はない。

次の主軸はDJツールのようなものだろうか？
いずれにしろ非予見性、偶発性を残してくれる電子楽器のいずれかだろう。
ダンスをすることで音が奏でられるとか、もしかしたら、音を出させる指示というインターフェイスの部分での変化が一番直近の変化なのかもしれない。

クリエイターにまっているもの

ワトソンが作曲してくれる未来は既に来ている気がして、シンガー・ソングライターの作曲は数年前で既にあれだったし、Music Xrayのようなヒット曲を予測してくれる人工知能（実際登録するとスパムばかりきて参ってしまうサービス）なんてものも登場してきている。
正直クリエイターサイドの未来はよくわからない。あまり変わらないとも、まったく変わってしまうともなんとも予測がつかない。
作曲の段階で聴かせるためだけの創作じゃだめなのかもしれないね。
オペラとかそういう、どういうふうに聴かせるかというシチュエーションまで含めて創作なのかも。ゲーム・ミュージック的な。

で、なにつくるの？

なにしよう？
抽選が激しかったらしく、前回一緒のチームを組んだメンバーは半数以上が落選してしまった。
これからAPI眺めます。

上の、マルチモニットと同じ年代につくったNetvocaloidのswfは動かなくなってた(´・ω・｀)…。
というかflexのコンパイル環境とかないし。せっかくasでvxmlの変換クラスつくったのにな。
アイディアソンでYamahaさんが6人ぐらい上京してきてて、netduettoやらnetvovaloidつくってた時代と同じぐらい気合はいってるらしいので期待大。

2015年8月20日
PerfumeのSXSWライブでうにーっとなる謎の技術分析

SXSW(サウス・バイ・サウスウエストでPerfumeのライブがあり、その様子がustreamで公開されたようです。SXSWとは「毎年3月にアメリカテキサス州オースティン市で行なわれる、音楽祭・映画祭・インタラクティブフェスティバルなどを組み合わせた大規模イベント」by wikipedia

このステージの生配信された冒頭部分がYouTubeで1カ月間限定公開されいます。
まー、まだ見てないひとは見てください。みたほうがいぃょ。まちげぇねぇ。

おらぁ、ぽかーんとしたね。
すごすぎて意味がわかんねぇや。なんで、答え合わせのない分析でもいっちょやってみたいと思う。技術のほうのブログに書こうとおもったんだけどドメイン失効してたからさ・・・放置されたピケティ連作のブログに紛れ込ませるんだよ！

数年前おこなわれた拡張仮想

渋谷ヒカリエのこけら落としか何かでPerfumeがやったライブで、フロントに貼ったフィルムに3Dホログラフィックを投影されたのがあった。指先につけたメタマテリアルかなにかのマーカーを拾ってそのフィルム上にリアルタイムで描画していくという数年経った今でもぶっとびの魔法のごときテクノロジー。
モニタ越しに覗きこむのがAR：仮想空間拡張なら、Perfumeがやってることは仮想の中でおきていることを現実世界になんとかしてひっぱってきて表現しようという、拡張仮想だよね。なんてことを、前に書いたことがあるんだけど（ドメインごとネットの藻屑に消えたｗ）、今回のライブのように仮想も現実もまぜごちゃにされると、もう脳みそついていけないよねって感じですよな。

AR？

まずわかりやすいところで13秒のところあたりにみえるAR（拡張現実）っぽいなにか。

赤い太線で囲った部分ね。おそらく現実のライブ会場に居る人達には見えないもので、配信映像上で合成された地平のパース線なのではないかな。
これは実にARっぽいんだけど、ステージ上のどこかのマーカーに標準をあわせてるとかでやっているのかな？人などの障害物を認識しているようにも見えるので、Kinect的な赤外線センサーとかで、奥行きぐらいはとっているかもしれない。

・・・と、まあ、これが単純なARだったら、誰もおどろいちゃくれねぇよ。
ARだけでは説明がつかない。

シームレスなモーフィング

次に、音楽に併せて多視点カメラの切り替えで、ほんげーーーぇぇえ！？？ってなるんだけど、このカメラスイッチングがリアルタイム、シームレスモーフィングなんですよ。もう横文字すぎてなんのこっちゃって感じですが。

ひとつひとつ解説をしていきます。

多視点：これはライブを撮影している据え付け型のカメラが複数台あるということです。

スイッチング：カメラの切り替えってやつです。モニタールームで肩にセーターかけたディレクターさんが３カメーとか叫んでるやつですね（？）。これでどこのカメラ映像を使うかはディレクターが決めて、文字通りスイッチングしていくわけですが、普通のカメラワークであればスイッチングを頻繁にやり過ぎると意味がわからなくなるので、アップの絵だったり引きの絵だったり大抵３秒とか５秒づつぐらいは使われます。・・・が、今回はなんと音楽にあわせて１小節とか４分音符ごとにカメラパンパンしてます。酔っちゃう！

モーフィング：で、視点をただパッッパと切り替えるとテレビのリモコンでザッピングしているような感じになっちゃうはずなんですが、今回はカメラ同士の映像の途中をつなぐ中間画像をいくつもつくってモーフィングしてから繋げてるわけですね。

モーフィングというと、Michael Jackson の Black Or Whiteでいろんな人の顔が次々に変わっていくというのの印象が深いかもしれません。

5:28〜のところ。

人の顔は目の位置や鼻の位置など同じパーツがあるので、数値化しやすい。左右の目が４ｃｍ離れた人を５．５ｃｍ離れた人に１０段階で近づけていくには１．５mmづつ離していってやればいいわけだ。黒人の肌を白人のそれにするには色の中間色を経過音的にいれてやればいい。中間画像が一杯あるほど、むにゅーんと変化する顔がつくれるわけです。

実際には異なる２つの画像をつなぐ中間画像を細かくつくっていくことで、変化の変わり目をわかりにくくさせるやり方です。なので、このように左右の視点で同じ人の顔を捉えることで、擬似的な３Ｄ合成にもつかえる。

でも、今回モーフィングしてんのは顔じゃぁああないんだよ！

このシーンをみていただきたい。
シーンA:

シーンB:

シーンAからBに切り替わるわけだけど中間ってなんだ！？？？
特徴点分析をかけて特徴量ごとにQuadrangulationみたくメッシュ化して・・・できんの？？

これはコマ送りで、抜き出した画像。

AとBの中間にあらわれるこの映像。
AとBを合成したってこんな、正面からの撮影映像はでるわけがないんだよ・・・
こんな画像がでてきちゃった時点でモーフィングだけでは説明がつかない。

超多視点撮影

アメリカ人気のSuperbowl では、超多視点のEyeVisionなどが導入されている。
サッカーとかでも使われているのを見たのでだいぶ一般化してきたのかもしれない。

↑
こういうの。２０〜３５秒ぐらいの部分を参照。
元画像から推測して合成なんてだるいこと言ってないで、その中間になる部分の映像も撮影すればいいじゃないの、といういかにも物量にものを言わせるアメリカ流。

ライブステージは固定なので、アメフトのようにカメラワークを連動させる必要はない。
もっと少ない台数と、低い設備投資で超多視点撮影と同じような効果を得ることができる。これなら、動いている絵をもとにモーフィングする必要がない。

でもね、

・・・。客いねぇな・・・・・・。

こんなの、スポーツ中継でつかわれるようなマルチアングル撮影のシームレススイッチングだけでは説明がつかないじゃないのさ・・・。説明がつかないことだらけ。

リハーサル時の3Dモデルとブレンド

Perfumeのダンスの細密な再現度があってこそなんだろうけど、予め３Ｄモデルに落とし込んだデータが用意されているであろうことは、カメラ視点がホークアイぶっとびの俯瞰になっていることからもわかる。

多視点撮影なのも間違いない。でも、その中間をつなぐのは仮想データなのではないか。
言い換えれば、仮想空間のライブに、現実空間で撮影したライブのほうの映像を合成している。だからカメラアングルは自由自在に、カメラを動かした映像として出力できる。
同時にステージ上に展開しているプロジェクションマッピングも制御できるし一石二鳥だね！

ってな具合で、分析したつもりだけど、ほんとなんのこっちゃだよね。少なくとも中間画像はなんらかの形で作られていると思うんだけど、お手上げだよ。これ、静止画じゃないんだよ、カメラスイッチング中も客席が動いてるんだよ・・・。リアルタイムで、こんな速度でできるのかね？

予めリハーサル動画のほうで中間画像を合成していおいてるのかなとおもったんだけど、そんなちゃっちなもんじゃないんだよね・・・。
しかもこれが録画じゃなくストリーミングされたってのが、もう未来すぎて、絶句ですわ。
SxSWだし謎のテクノロジーがつかわれてるんだろうなと納得させるしかないのでありました。

推測結論

複数台のいろいろなアングルからのカメラからの撮影動画を、切り替えるときに、途中経路のカメラ映像を差し込んでカメラ間のスイッチングをスムーズモーフィングにしている。
その時、繋ぎ目を分かり難くするために仮想空間上の３Dモデルからの映像を混ぜることでシームレスにしている。
中間画像合成まではせずに、アルファブレンドの透過度を変更し、視覚効果をまぜることでぼかしている。

どこかで答えあわせ期待したいですね。

ちなみに

あーちゃん派です

追記

現地でみてた人の段によればカメラは１０台ぐらいだったってYO！

2015年3月20日