fc2ブログ
 

連載1 高速なメモリーコピー その3

いよいよ最後のポイント、メモリーアライメントについてです。

メモリーには一定のバイト毎に区切りを示す境界がありまして、その区切りをまたぐ読み書きのアクセスを行うと大体半分くらいまで処理速度が低下してしまいます。
理由は判りませんが、何となく境界の前方と後方の両ブロックに対して処理しなければいけないとかそんなふうに私は理解しています。
また、SSE命令の場合は境界をまたいだアクセスが許されている命令と、アクセスが許されていない命令がありまして、許されていない命令で(境界をまたいだ)アクセスを行うとプログラムは強制終了されると言ったペナルティーまであります。

さらに、境界の間隔は命令(セット?)によって変わってきます。最初に示しましたmemcpy()の場合は2バイトか4バイト毎の境界となるようです(ちょっとどっちか判らないですが)、それに対してSSE命令は16バイト(128bit)毎と丁度レジスタのサイズと同じ間隔で境界が設定されています。

このような理由から高速な処理を行おうとした場合、どの命令を使うにしても結局アライメントは揃えないとベストな結果は得られないので、「高速なメモリーコピー処理」の肝は如何にしてアライメントをそろえるかと言う話に終始します。

アライメントさえ揃えてしまえば後は前回の「MOVDQAで128bit読み込んでちょこちょこっとやってMOVNTDQで書き込む」だけで簡単にベストな結果が得られます。
なんだそんなの簡単じゃんって思う方もいらっしゃると思いますが今回はここまで、続く...

MOVNTQならアライメント制限なし」これはどうですか?とコメントを頂きました。

この命令はMMXレジスタを使ってメモリに書き込みを行う「書き込み専用命令」で、MOVNTDQと同様?にキャッシュを汚染しないのが特徴のようですね。
また、MMX全般に言えますがアライメントによる制限を受けずその点がMOVNTDQと異なるのでそこに利点があるかどうかでしょうか(って頂いたコメントのまんまですね^^

ちょっと比較したことが無いので結論は先送りさせていただきますが(今度AMV2コーデックを作るときに試してみようと思います)、エラーは出ないけど境界をまたいだ処理は遅くなるであろうという予測と、SSEレジスタを使った命令が全般的に高速化されていて、MMXを2命令使うよりSSEを1命令で済ませた方が速度面で期待できる(これはIntel系(core2duo以降?)のみです。
AMD系(Athlon64X2)ではMMXニ個とSSE一個がほぼ同じ時間で処理されるようです)という2点から見込みは薄いと思います。
関連記事


コメントの投稿

 
 
あまラボへようこそ
このブログでは自作ソフトの最新情報やtips、PC動画に関する話題を掲載していきます。各記事へは下にあるカテゴリからアクセスして下さい。

ファイルのダウンロードはホームページの方でお願い致します。

質問・要望・不具合報告はこちら
アマレコTV
アマミキ!
アマレココ
アマレコ・ライト
ファンタジーリモート
AMVコーデック



ホームページ
カテゴリ
最新コメント
カレンダー
08 | 2023/09 | 10
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
最新記事
最新トラックバック
ブログ内タグ

アマレコTV ビデオキャプチャ アマレコVR AMVコーデック Oculus アマレココ Quest アマミキ! コーデック gQuest SC500 動画配信 Pico GO ファンタジーリモート 4K アマレコライト Unity プラグイン G2 AMV4 oculus ライブ機能 SC512 パススルー機能 デスクトップキャプチャ Passthrough AVX2 リモートソフト FAQ 質問コーナー アセット機能 ニコニコ動画 HDキャプチャ DirectShow 背景透過 120Hz Asset レゴ 遅延 解説動画 組み換え 可変再生速度 Meta LEGO MetaQuest VR GV-USB2 XL2420T 2 Pico4 倍速液晶 液晶モニター デインターレース ベンチマーク アマステ Intensity VRonVR AMV2MT MonsterX3A Pro PS4 VideoKeeper2 designs インストール Alternate AVX XCAPTURE-1 RDT233WX-Z GV-USB SD-USB2CAP4 31024 32ZP2 31006 ffmpeg 画像処理 60fps Robust Matting RGBキャプチャ Rift Video Shadow Play WindowsMR RYZEN UtVideo T2 HDMI NVEnc HDCP QSV LameACM OBS 音遅延 MP3 Haswell 電源オプション 音ズレ 録画 オーバーレイ XCapture-1 MonsterXU3.0R フィギュア ハイパースレッディングテクノロジー HT 31021 MPC 液晶テレビ DirectShowFilter プレビュー 擬似NTSCキャプチャ SD-USB2CUP4 Livetube AtomでHDキャプチャ キャプチャーツール シンクライアント イベント IntensityPro DC-HD1 額縁遅延 REGZA ZP3 倍速補完処理 32ZP32 Kabelake リプレイ機能 モノステ 倍速駆動 ゲームスムーズモード LAVFilters SkyBox Hand Tracking 2.0 ファイルマネージャプラス pytorch APIパススルー機能 API python ハンドジェスチャー パカラーススルー機能 アルファ付き動画 アルファ付きVR動画 RVM クロマキー ダウンロード AssetBundle 物理処理 download passthrough 検証 Preferred Filter Tweaker SteamVR GPU使用率 可逆圧縮 SKnet GV-USB3 キャプチャカード VR動画 フレーム間圧縮 新プレイヤー機能 AMPlayer 60Hz 新アマレコVR 90Hz VRコントローラー MR Windows SSE 

ブログ内検索
月別アーカイブ
アマレココに関するリンク
お世話になっているソフトのリンク
RSSリンクの表示
管理画面
  • 管理画面