FC2ブログ
 

AVX2対応デコーダーはなぜ3倍も高速化できたのか

端的に言えばAVX2を使っているからとなりますが、AVX2による性能向上は(理論上の)最大でも2倍までなのでもう一つの要因としてSIMD化があげられます。

AMV2MTのY2設定には4つの圧縮パターン(AからD)があり、最少処理単位(2x2画素,32bit分のデータ)に対しどのパターンか調べて対応するデコード処理を行うのですが、32bit版はパターンAならAの処理、パターンBならBの処理と条件分岐で処理を分けて必要な処理のみを行うようになっています。

それに対し、AVX2版は圧縮パターンが何かにかかわらず4通りすべての処理をAVXレジスタ上に並べて行います(これをSIMD化と言います)。
そして、処理が終わったらシャッフル命令で必要なデータだけをAVXレジスタの下位に移動させます。

simd.png


32bit版と比べ条件分岐を行わないためその部分のパフォーマンス低下がないメリットの反面、計算が不要な場合でもすべての圧縮パターンを処理するため必ず(無駄な)計算を行うことになります。
例えば、圧縮パターンAは「参照データ(左の画素や1フレーム前の画素)と完全に一致する」なので参照データをコピーするだけで計算する必要はないのですが、この場合でもAVX2版は他のパターンの計算を行います。
結局、条件分岐しないメリットと無駄な計算をするデメリットとのトレードオフになりどちらが有利かと言うところで、今までは条件分岐の方を採用していましたが、今回ようやくSIMD化で好い結果がでた次第です。

simd_avx2.png

もう少し詳しく書くと、256bitのAVXレジスタにより、2セット分を同時にSIMD処理できるようになったことと、処理の最後に必要となるシャッフル命令がSSE2縛りでは複雑な処理になってしまっていたのが、AVX2命令一つで可能になったこと、さらにパターンCとDを同時に計算できるようになったことが高速化の決め手となりました。

1) 256bitレジスタによるSIMD処理により2セット同時に処理できるようになった
2) それにより、分岐命令を使わなくなった
3) シャッフル命令による特定のデータ抽出が1命令で可能になった
4) パターンCとDの同時計算ができるようになった

ちなみに、エンコード処理の方は2008年10月に公開したVer2.11aから条件分岐を無くしSIMD化できています。すでにSSEレジスタにより高速なエンコード処理を実現しているため、さすがに3倍は無理ですがAVXレジスタを使って2倍程度までエンコード処理を早くすることは可能です。




条件分岐による処理と、SIMDによる処理とではベンチマーク結果にも異なる特徴が見て取れます。

32bit版
bench_cmp.png
32bit版の方は条件分岐による分岐予測の成否や計算の必要なパターンか、計算の不要なパターンかの違いによりフレームごとにデコード時間にばらつきが生じます(2066フレーム目は2.8ms、2071フレーム目は2.2msと約0.6ms差があります)。
また、最後の2079から2082フレームまでの4フレームは0.9msと著しく早くなっています。これはテストに使った動画の最後4フレームが2078の画像と完全に一致するためであり、その場合はパターンAの「参照データをコピーする処理」ばかりが実行されます。
このようなケースでは、分岐予測も高い確率で成功し、高速、かつ、ばらつきの少ない結果が出ます。


AVX2版
bench_simd.png
一方、AVX2版は分岐予測や計算の有無による差が出ないため、どのフレームもほぼ同じ時間でデコードすることができ、
最後の4フレームも特別早い結果とはならないことがわかります。


 
 
あまラボへようこそ
このブログでは自作ソフトの最新情報やtips、PC動画に関する話題を掲載していきます。各記事へは下にあるカテゴリからアクセスして下さい。

ファイルのダウンロードはホームページの方でお願い致します。

質問・要望・不具合報告はこちら
アマレコTV
アマミキ!
アマレココ
アマレコ・ライト
ファンタジーリモート
AMVコーデック



ホームページ
カテゴリ
最新コメント
カレンダー
01 | 2014/02 | 03
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 -
最新記事
最新トラックバック
ブログ内タグ

アマレコTV ビデオキャプチャ AMVコーデック アマレココ アマミキ! コーデック SC500 動画配信 ファンタジーリモート アマレコVR アマレコライト プラグイン AMV4 Oculus Unity ライブ機能 SC512 AVX2 デスクトップキャプチャ gQuest Quest 質問コーナー リモートソフト 4K FAQ GO DirectShow HDキャプチャ ニコニコ動画 解説動画 LEGO 遅延 可変再生速度 組み換え レゴ GV-USB2 XL2420T アマステ 液晶モニター PS4 120Hz AMV2MT Pro 倍速液晶 Intensity ベンチマーク MonsterX3A デインターレース SD-USB2CAP4 designs 31006 ffmpeg 32ZP2 Alternate RDT233WX-Z XCAPTURE-1 VideoKeeper2 Pico GV-USB RYZEN AVX Shadow UtVideo T2 G2 Rift WindowsMR RGBキャプチャ Play 31024 シンクライアント プレビュー 擬似NTSCキャプチャ IntensityPro SD-USB2CUP4 キャプチャーツール イベント DirectShowFilter Livetube DC-HD1 リプレイ機能 倍速駆動 モノステ AtomでHDキャプチャ MonsterXU3.0R SSE SKnet GV-USB3 キャプチャカード Kabelake XCapture-1 音ズレ 録画 オーバーレイ 可逆圧縮 GPU使用率 VR動画 フレーム間圧縮 VRコントローラー MR SteamVR Tweaker LAVFilters Preferred Filter フィギュア 31021 ゲームスムーズモード 音遅延 LameACM MP3 倍速補完処理 ZP3 32ZP32 額縁遅延 REGZA Haswell 電源オプション インストール MPC ハイパースレッディングテクノロジー HT OBS NVEnc HDCP HDMI QSV 液晶テレビ 

ブログ内検索
月別アーカイブ
アマレココに関するリンク
お世話になっているソフトのリンク
RSSリンクの表示
管理画面
  • 管理画面