エッジベースのデバイスを使用した人間の活動の認識
21142
post-template-default,single,single-post,postid-21142,single-format-standard,bridge-core-1.0.4,translatepress-ja,bridge,ajax_fade,page_not_loaded,,qode_grid_1200,qode-content-sidebar-responsive,wpb-js-composer js-comp-ver-5.7,vc_responsive
 

エッジでの人間活動認識

エッジでの人間活動認識

25 9月20

ハー

エッジでの人間活動認識

ヒューマンアクティビティレコグニション(HAR)は、マイクロコントローラーを備えたスマート電子デバイスを使用して、多くの業界で勢いを増し続けています。これらのデバイスには、ウェアラブル、ファッションエレクトロニクス、スマートフォンセンサーなどがあります。 HARは、医療、教育、エンターテインメント、監視、スポーツ、セキュリティシステム、スマートホーム、およびその他のさまざまな分野で使用され、人間の活動と行動分析を提供しています。

エッジコンピューティングを実装すると、計算がデータソースに近づき、クラウドサーバーへの依存が減少するため、通信の待ち時間とネットワークトラフィックが減少します。ただし、エッジデバイスのリソースの制約により、高い計算能力が制限されます。低レイテンシと低計算アーキテクチャアルゴリズムの組み合わせは、HARアプリケーションのエッジデバイスでの展開に適しています。

HAR入力ソース

HARシステムは、外部デバイスまたはウェアラブルセンサーのいずれかを使用して展開されます。

監視デバイスなどの外部デバイスは、固定された場所に設置され、ユーザーの操作を拾うことが期待されています。 HARの外部入力のもう1つの例は、ビデオカメラの設置などのインフラストラクチャサポートを必要とするビジョンベースの入力です。コストが非常に高いだけでなく、ユーザーが視野角を外れている場合、カメラはデータをキャプチャできません。

加速度計、ジャイロスコープ、磁力計などのウェアラブルセンサーは、人間の動きを信号パターンに変換することでHARをサポートします。組み込みセンサー技術の最近の進歩により、今日のスマートデバイスがユーザーのアクティビティを効果的に監視することが可能になりました。

エッジレベルの展開のためのスケーリングされたアルゴリズム

深層学習アルゴリズムは、HARシステムで高いパフォーマンスを発揮しています。ただし、これらのアルゴリズムは大量の計算を必要とし、エッジデバイスに展開するには非効率的です。行動認識と空間的手がかりだけでなく、時間的ダイナミクスも考慮する必要があります。空間情報には、ピクセル強度、パターンなどが含まれます。時間ダイナミクスは、ビデオ全体のシーンの過去と現在の状態間の関係です。

ConvNetsなどのディープネットワークは、長期的な時間変動をモデル化することができず、通常、リカレントニューラルネットワークまたは長期短期記憶ネットワークに依存して、シーンに存在する時間情報をエンコードします。このアプローチでは、通常、ビデオシーケンスの10または15フレームのみに膨大な計算能力が必要です。 HARの既存のアーキテクチャのほとんどはトリミングされたビデオ用に設計されており、トリミングされたシーケンスには5〜10秒しか続かないアクションがあります。トリミングされたシーケンスでの作業は、実際の使用例と互換性がありません。

これらの課題を克服する

A robust—edge-based—framework is required to overcome these challenges. This process is in its infancy and several research studies have reported solutions to overcome the high computational challenge with variations of deep networks on the edge with sparse sampling techniques aggregating information present in different parts of videos.

Temporal Segment Networksは、小規模な基本アーキテクチャーでも機能します。ディープネットワークのライトバージョンは、同等の精度を維持しながら、テスト時のメモリ使用量を削減できます。一部の調査研究では、浅いリカレントニューラルネットワーク(RNN)と長期短期記憶(LSTM)ディープラーニングアルゴリズムを組み合わせると、精度、精度、再現率、f値、および混同行列の点で優れたパフォーマンスを発揮できることが示されています。

人間の活動を認識するために、Inflated 3D ConvnetまたはI3DやTemporal Segment Networksなどのディープネットワークの軽量バージョンを、許容可能なレベルの精度を維持しながら、より小さなベースモデルとして適用できます。これらのアルゴリズムは、エッジデバイスで実行するために非常に重要なメモリ使用量の削減に成功しています。

Human Activities on edge devices reduce communication latency, cost, and network traffic. The deep edge networks being developed today can also support multi-sensor data which is a common requirement for edge-based solutions.