fc2ブログ
 

連載1 高速なメモリーコピー その2

「キャッシュの制御もポイントの一つ」と言うコメントをいただきました。
確かにキャッシュの制御も超重要なポイントとなりますね。ありがとう御座います。という事で、ポイントは一つ増えて3つです。

・SSE命令を使う
・メモリーアライメントを制御する
・キャッシュを制御する

で、最初のSSE命令ですが私が扱えるSSE2命令までだと次の3つがあります。

命令

読み・書き

アライメント

備考

MOVDQU両方可そろえる必要なし制限のゆるい汎用命令。
MOVDQA 両方可そろえる必要ありアライメントの制限がある代わりに早いらしい。
MOVNTDQ書き込みのみ可そろえる必要ありアライメント制限に加え、書き込みのみの専用命令。
    
何れも128bitを一度に処理できますが、制限が厳しいものほど高速に動作するらしいです。厳密なデータは取っていませんが、私のAthlon64X2だと、MOVDQUMOVDQAに代えてもあまり効果は得られない印象ですが、MOVDQAの書き込みをMOVNTDQに代えると30%くらいは早くなった気がします。
なので、「MOVDQAで128bit読み込んで、MOVNTDQで書き込む」というのを繰り返していくのが理想となります。

但し、この2つの命令はメモリーアライメントの制約がありまして、単純にmemcpyの代わりにはなってもらえません。

また、MOVNTDQが高速な理由と言うのが、「キャッシュを使わずに書き込みを行う※」という事らしいので早速3つ目のポイントも出てきます。

メモリーアライメントについては次回書くとして、キャッシュ制御について先に書いちゃいますね。

キャッシュ制御には読み込みを高速化するプリフェッチ(先読み)と、上記の様に書き込みを高速化するものがあります。
そこで、読み書き両方を高速化したらベストなのかなと考えますが、どうも違うようです。理由は現在のパソコンの事情から読み込み処理より書き込み処理の方が時間がかかる(ハードウエアの都合で理論上2倍の時間がかかるのかな、この辺は自信がありませんがベンチマークテストすると大体2倍くらい違いますよね)ので、プリフェッチにより読み込みを高速化しても書き込み処理が追いつかず、結局読込み処理は(書き込み処理が終わるまで)待たされてしまうことになるからです。

いきなり結論になってしまいますが、私は書き込み速度で頭打ちされているなと感じたので結局メモリーコピーでプリフェッチは行わないことにしました。

ちなみに、プリフェッチは書き込みよりも読み込みに負担がかかるハーフサイズ処理で大きな効果がありました(Athlonの場合だけの高速化、且つ、アライメントの問題で結局アマレココには採用しませんでしたが)。
続く...

※キャッシュの汚染を最小にとどめる・・・と言う解説なので、キャッシュを絶対に使わないってわけではないかもしれません。キャッシュの事は気にしないで書き込みだけなら誰にも負けない高速な命令と私は理解しています。
関連記事


コメントの投稿

 
 
あまラボへようこそ
このブログでは自作ソフトの最新情報やtips、PC動画に関する話題を掲載していきます。各記事へは下にあるカテゴリからアクセスして下さい。

ファイルのダウンロードはホームページの方でお願い致します。

質問・要望・不具合報告はこちら
アマレコTV
アマミキ!
アマレココ
アマレコ・ライト
ファンタジーリモート
AMVコーデック



ホームページ
カテゴリ
最新コメント
カレンダー
02 | 2024/03 | 04
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 - - - - - -
最新記事
最新トラックバック
ブログ内タグ

アマレコTV ビデオキャプチャ アマレコVR AMVコーデック Oculus アマレココ Quest アマミキ! コーデック gQuest SC500 動画配信 Pico GO ファンタジーリモート 4K アマレコライト Unity プラグイン G2 AMV4 oculus SC512 ライブ機能 パススルー機能 Passthrough デスクトップキャプチャ AVX2 リモートソフト FAQ アセット機能 質問コーナー DirectShow HDキャプチャ ニコニコ動画 Asset 120Hz 背景透過 レゴ 遅延 可変再生速度 組み換え 解説動画 LEGO MetaQuest Meta VR GV-USB2 2 XL2420T Pico4 Quest3 液晶モニター 倍速液晶 AMV2MT デインターレース ベンチマーク アマステ Pro 背景透過V3 PS4 VRonVR MonsterX3A Intensity VideoKeeper2 designs インストール Alternate AVX XCAPTURE-1 31024 GV-USB SD-USB2CAP4 ffmpeg 32ZP2 31006 RDT233WX-Z 画像処理 60fps Robust Matting RGBキャプチャ Rift Video Shadow Play WindowsMR RYZEN UtVideo T2 HDMI NVEnc HDCP QSV LameACM OBS 音遅延 MP3 Haswell 電源オプション 音ズレ 録画 オーバーレイ XCapture-1 MonsterXU3.0R フィギュア ハイパースレッディングテクノロジー HT 31021 MPC 液晶テレビ DirectShowFilter プレビュー 擬似NTSCキャプチャ SD-USB2CUP4 Livetube AtomでHDキャプチャ キャプチャーツール シンクライアント イベント IntensityPro DC-HD1 額縁遅延 REGZA ZP3 倍速補完処理 32ZP32 Kabelake リプレイ機能 モノステ 倍速駆動 ゲームスムーズモード LAVFilters SkyBox Hand Tracking 2.0 ファイルマネージャプラス pytorch APIパススルー機能 API python ハンドジェスチャー パカラーススルー機能 アルファ付き動画 アルファ付きVR動画 RVM クロマキー ダウンロード AssetBundle 物理処理 download passthrough 検証 Preferred Filter Tweaker SteamVR GPU使用率 可逆圧縮 SKnet GV-USB3 キャプチャカード VR動画 フレーム間圧縮 新プレイヤー機能 AMPlayer 60Hz 新アマレコVR 90Hz VRコントローラー MR Windows SSE 

ブログ内検索
月別アーカイブ
アマレココに関するリンク
お世話になっているソフトのリンク
RSSリンクの表示
管理画面
  • 管理画面