{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "provenance": [], "toc_visible": true }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "markdown", "source": [ "# Эвристика для поиска ROI" ], "metadata": { "id": "LgshDm2DqAmo" } }, { "cell_type": "markdown", "metadata": { "id": "khm0Es5F0Wqf" }, "source": [ "Вместо того, чтобы применять классификатор \"наобум\", можно для начала выбрать те области изображения, в которых вероятность нахождения объекта наиболее высока, и запускать классификатор лишь для них." ] }, { "cell_type": "markdown", "metadata": { "id": "7RzPUMzm0Wqg" }, "source": [ "
Source: Detection and Segmentation
Source: Object Detection
Source: YOLO9000:\n", "Better, Faster, Stronger
\n" ] }, { "cell_type": "markdown", "metadata": { "id": "f4COD-ny0WrG" }, "source": [ "$c_{x} , c_{y}$ — это координаты верхнего левого угла default box,\n", "\n", "$p_{w} , p_{h}$ — это ширина и высота default box,\n", "\n", "$t_{x} , t_{y}$ — предсказанные смещения для центра,\n", "\n", "$t_{w} , t_{h}$ — предсказанные корректировки для ширины и высоты,\n", "\n", "$b_{x} , b_{y}, b_{w}, b_{h}$ — координаты центра, ширина и высота финального предсказанного bouning box (значения в процентах от ширины и длины исходного изображения),\n", "\n", "$\\sigma(x) $ — сигмоида,\n", "\n", "$e$ — число Эйлера.\n", "\n", "Сторона каждой клетки равна $1$, так как это просто порядковый номер элемента в строке и столбце." ] }, { "cell_type": "markdown", "metadata": { "id": "lvVI7G0X0WrH" }, "source": [ "### Почему не предсказывать абсолютные значения?\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "id": "t9mJxr0y0WrH" }, "source": [ "Как видно по схеме, не предсказываются абсолютные значения смещений. Почему вместо того, чтобы в понятной регрессионной задаче предсказать 4 числа, предсказываются коэффициенты, с которыми затем происходят неочевидные преобразования?\n", "\n", "Чтобы ответить на этот вопрос, вспомним про нормализацию данных. Мы нормализуем входные данные и центрируем их вокруг нуля." ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "id": "2MHKrvs90WrH", "colab": { "base_uri": "https://localhost:8080/", "height": 447 }, "outputId": "bcadc92c-7913-4808-e4f5-cc6bec21060c" }, "outputs": [ { "output_type": "display_data", "data": { "text/plain": [ "