Fast R-CNN

記事数:(2)

深層学習

高速物体検出:Fast R-CNN

近年、計算機による画像認識技術がめざましい発展を見せており、中でも画像内の対象物を探し出す技術は目覚ましい進歩を遂げています。この技術は、写真や動画の中から特定のものを探し出し、それが何であるかを判断するものです。例えば、自動運転の分野では、周囲の車や歩行者、信号などを認識するために必要不可欠です。また、医療の現場では、レントゲン写真から異常箇所を発見する際に役立っています。さらに、製造業では、製品の欠陥を自動で見つける検査工程に活用されています。このように、対象物を探し出す技術は、暮らしの様々な場面で利用されており、ますます重要度を増しています。 この技術は、大きく分けて二つの段階で処理を行います。まず、画像の中から対象物らしきものが写っている場所を大まかに特定します。そして、特定された場所について、それが本当に目的の対象物であるかどうか、また、それが何であるかを詳しく調べます。このような処理を行うことで、画像全体をくまなく調べるよりも効率的に対象物を探し出すことができます。 今回紹介する「高速領域畳み込みニューラルネットワーク(高速領域畳み込みニューラル網)」は、このような対象物検出技術の中でも、特に処理速度の速さに重点を置いた手法です。従来の手法では、画像の中から対象物らしき場所を一つずつ切り出して調べていましたが、この手法では、画像全体を一度に処理することで、大幅な高速化を実現しています。この高速化により、動画のような連続した画像に対してもリアルタイムで対象物を検出することが可能になり、自動運転やロボット制御など、様々な応用が期待されています。この手法の詳しい仕組みについては、次の章で詳しく説明します。
深層学習

高速物体検出:Fast R-CNN

近ごろ、機械にものを見分ける力をつける研究がとても盛んです。写真や動画に写っているものを認識して、それが何で、どこにあるのかを正確に特定する技術は「もの体の検出」と呼ばれています。この技術は、自動で車を走らせる、街を見守る、病院で病気を見つけるなど、様々な場面で使われています。しかし、正確にものを見分けるには、とてもたくさんの計算が必要で、時間がかかってしまうという問題がありました。そこで登場したのが「速い領域畳み込みニューラルネットワーク」、略して「速い領域たたみこみ神経網」という技術です。これは、従来の「領域たたみこみ神経網」という技術を改良したもので、処理速度を飛躍的に向上させました。 従来の「領域たたみこみ神経網」では、まず写真の中から、ものがありそうな場所をたくさん見つけ出し、それぞれの場所について、それが何なのかを判断していました。このため、同じものを何度も調べることになり、無駄な時間がかかっていました。「速い領域たたみこみ神経網」では、まず写真全体を一度だけ見て、ものがありそうな場所を大まかに特定します。そして、全体像から一度に判断することで、同じ場所を何度も調べる手間を省き、処理を速くしました。 「速い領域たたみこみ神経網」の登場は、もの体の検出技術を大きく進歩させました。処理速度が向上したことで、これまで難しかった動画のリアルタイム処理も可能になり、応用範囲がさらに広がりました。例えば、自動運転では、周りの状況を素早く正確に把握することが重要です。「速い領域たたみこみ神経網」によって、歩行者や他の車を素早く検出し、安全な運転を支援することができるようになりました。また、防犯カメラの映像から不審者を自動的に見つける、工場で不良品を検査するなど、様々な分野で活用が進んでいます。今後も、更なる高速化・高精度化の研究が進み、私たちの生活をより便利で安全なものにしていくと期待されています。