# NumPy

![NumPy](https://i.imgflip.com/6mv4z9.jpg)

[источник изображения](https://i.imgflip.com/6mv4z9.jpg)

## Введение в NumPy

In [None]:
import numpy as np

Модуль `NumPy` позволяет удобно и быстро работать с однородными многомерными массивами. Такие данные особенно часто встречаются для академических задач.

Базовым объектом в данном модуле является `ndarray`. Он является (многомерной) таблицей элементов одного и тоже же типа. Чаще всего элементами таких таблиц являются числа. Координаты элементов таких многомерных таблиц называются *индексом*. Целые числа, нумерующие размерности таблицы называются `axes`.


Например, массив `[1, 2, 3]` имеет единственную размерность (`axes`). Давайте рассмотрим более сложный пример, создав уже двухмерный массив -- матрицу:

In [None]:
a = np.arange(15).reshape(3, 5)
a

Обратите внимание, что `numpy.array` — это не то же самое, что класс `array.array` стандартной библиотеки `Python`, который обрабатывает только одномерные массивы и предлагает меньшую функциональность. Более важными атрибутами объекта `ndarray` являются:

**`ndarray.ndim`**
        
        количество "осей" (`axes`), то есть размерность массиваndarray.shape

In [None]:
a.ndim

**`ndarray.shape`**
        
- Количество элементов вдоль каждой из осей. Например, для матрицы из $n$ строк и $m$ столбцов форма будет кортежем `(n, m)`. Длина данного кортежа равна количеству осей, т.е. `ndim`

In [None]:
a.shape

**`ndarray.size`**
        
- Общее число элементов во всем массиве. Очевидно, оно просто равно произведению элементов кортежа `shape`

In [None]:
a.size

**`ndarray.dtype`**
        
- Данный объект соответствует типу элементов в numpy массиве. `dtype` может соответствовать как одному из встроенных Python типов, так и является внутренними типами numpy (`numpy.int32`, `numpy.int16`, `numpy.float64`, ...)

In [None]:
a.dtype

**`ndarray.itemsize`**
        
- Количество байт информации, необходимое для записи одного элемента данного массива. Например, массив с типом (`ndarray.dtype`) `float64` будет обладать `itemsize` $8$ (=64/8). Эквивалентно `ndarray.dtype.itemsize`

In [None]:
a.itemsize

### Создание массивов

Существует несколько способов создания массивов.

Например, можно создать массив из обычного списка Python или кортежа, используя функцию `array`. dtype получившегося массива выводится из типа элементов в переданной методу `array` последовательности.

In [None]:
a = np.array([2, 3, 4])
print(a, a.dtype)

In [None]:
b = np.array([1.2, 3.5, 5.1])
print(b, b.dtype)

Типичная ошибка при создании numpy массива при помощи метода `np.array` заключается в том, что пользователь пытается передать данному методу не готовую последовательность, а просто набор элементов такой последовательности в виде позиционных аргументов.

In [None]:
a = np.array(1, 2, 3, 4)    # WRONG
a

In [None]:
a = np.array([1, 2, 3, 4])  # RIGHT

`array` преобразует последовательности последовательностей в двумерные массивы, последовательности последовательностей последовательностей в трехмерные массивы и так далее.

In [None]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

Тип массива также может быть явно указан во время создания:

In [None]:
c = np.array([[1, 2], [3, 4]], dtype=complex)
c


Часто элементы массива изначально неизвестны, но известен его размер. NumPy предлагает несколько функций для создания массивов с начальным содержимым-заглушкой. Это сводит к минимуму необходимость динамически изменять размеры массивов, что является дорогостоящей операцией.

Функция `zeros` создает массив, полный нулей, функция `one` создает массив, полный единиц, а функция `empty` создает массив, начальное содержимое которого является случайным и зависит от состояния памяти. По умолчанию `dtype` создаваемого массива — `float64`, но его можно указать с помощью аргумента ключевого слова `dtype`.

In [None]:
np.zeros((3, 4))

In [None]:
np.ones((2, 3, 4), dtype=np.int16)

In [None]:
np.empty((2, 3))

Для создания последовательностей чисел NumPy предоставляет функцию `arange`, аналогичную встроенному в Python `range`, но возвращающую массив.

In [None]:
np.arange(10, 30, 5)

In [None]:
np.arange(0, 2, 0.3)  # it accepts float arguments unlike range

Когда `arange` используется с нецелыми аргументами, как правило, невозможно предсказать точное количество полученных элементов из-за особенностей операций сравнения чисел с плавающей запятой. По этой причине обычно лучше использовать функцию `linspace`, которая получает в качестве аргумента количество элементов, которое мы хотим, вместо шага:

In [None]:
np.linspace(0, 2, 9)                   # 9 numbers from 0 to 2

In [None]:
x = np.linspace(0, 2 * np.pi, 6)        # useful to evaluate function at lots of points
f = np.sin(x)
f

Рекомендуем ознакомиться со страницами документации NumPy, посвященным различным способом создания массивов:
- [`array`](https://numpy.org/devdocs/reference/generated/numpy.array.html#numpy.array)
- [`zeros`](https://numpy.org/devdocs/reference/generated/numpy.zeros.html#numpy.zeros)
- [`zeros_like`](https://numpy.org/devdocs/reference/generated/numpy.zeros_like.html#numpy.zeros_like)
- [`ones`](https://numpy.org/devdocs/reference/generated/numpy.ones.html#numpy.ones)
- [`ones_like`](https://numpy.org/devdocs/reference/generated/numpy.ones_like.html#numpy.ones_like)
- [`empty`](https://numpy.org/devdocs/reference/generated/numpy.ones_like.html#numpy.ones_like)
- [`empty_like`](https://numpy.org/devdocs/reference/generated/numpy.empty_like.html#numpy.empty_like)
- [`arange`](https://numpy.org/devdocs/reference/generated/numpy.arange.html#numpy.arange)
- [`linspace`](https://numpy.org/devdocs/reference/generated/numpy.linspace.html#numpy.linspace)


### Печать NumPy массивов в стандартный вывод

Когда вы печатаете массив, NumPy отображает его аналогично вложенным спискам, но используется следующее соглашение о порядке следования значений из различных размерностей:

- последняя размерность печатается слева направо,
- предпоследняя размерность печатается сверху вниз, 
- остальные размерности также печатаются сверху вниз, при этом каждый фрагмент отделяется от следующего пустой строкой.


Таким образом, одномерные массивы печатаются как строки, двумерные как матрицы и трехмерные как списки матриц.

In [None]:
a = np.arange(6)                    # 1d array
print(a)

In [None]:
b = np.arange(12).reshape(4, 3)     # 2d array
print(b)

In [None]:
c = np.arange(24).reshape(2, 3, 4)  # 3d array
print(c)

Если массив слишком велик для печати, NumPy автоматически пропускает центральную часть массива и печатает только элементы, которые соответствуют краям каждой из размерностей:

In [None]:
print(np.arange(10000))

In [None]:
print(np.arange(10000).reshape(100, 100))

Чтобы отключить это поведение и заставить NumPy печатать весь массив, вы можете изменить параметры печати с помощью `set_printoptions`.

In [None]:
import sys
np.set_printoptions(threshold=sys.maxsize)  # sys module should be imported

### Простейшие операции с NumPy массивами

Арифметические операторы к массивам применяются поэлементно. Новый массив создается и заполняется результатом.

In [None]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
c = a - b
print(c)

In [None]:
b**2

In [None]:
10 * np.sin(a)

In [None]:
a < 35

В отличие от многих матричных языков, оператор произведения * работает с массивами NumPy поэлементно. Произведение матриц может быть выполнено с помощью оператора @ или функции или метода `dot`:

In [None]:
A = np.array([[1, 1],
              [0, 1]])
B = np.array([[2, 0],
              [3, 4]])
A * B     # elementwise product

In [None]:
A @ B     # matrix product

In [None]:
A.dot(B)  # another matrix product

Некоторые операции, такие как `+=` и `*=`, могут быть использованы для изменения существующего массива, а не для создания нового. 

In [None]:
rg = np.random.default_rng(1)  # create instance of default random number generator
a = np.ones((2, 3), dtype=int)
b = rg.random((2, 3))
print(a)

In [None]:
print(b)

In [None]:
a *= 3
print(a)

In [None]:
b += a
b

In [None]:
a += b  # b is not automatically converted to integer type

При работе с массивами разных типов тип результирующего массива соответствует более общему или точному типу (upcasting).

In [None]:
a = np.ones(3, dtype=np.int32)
b = np.linspace(0, np.pi, 3)
b.dtype.name

In [None]:
c = a + b
c

In [None]:
c.dtype.name

In [None]:
d = np.exp(c * 1j)
d

In [None]:
d.dtype.name

Многие унарные операции, такие как вычисление суммы всех элементов массива, реализованы в виде методов класса `ndarray`.

In [None]:
a = rg.random((2, 3))
a

In [None]:
a.sum()

In [None]:
a.min()

In [None]:
a.max()

По умолчанию эти операции применяются к массиву, как если бы он был списком чисел, независимо от его формы. Однако, указав параметр `axis`, вы можете применить операцию вдоль указанной оси массива:

In [None]:
b = np.arange(12).reshape(3, 4)
b

In [None]:
b.sum(axis=0)     # sum of each column

In [None]:
b.min(axis=1)     # min of each row

In [None]:
b.cumsum(axis=1)  # cumulative sum along each row

### "Универсальные функции" в NumPy

`NumPy` предоставляет знакомые математические функции, такие как `sin`, `cos` и `exp`. В `NumPy` они называются «универсальными функциями» (`ufunc`). В `NumPy` эти функции работают с массивом поэлементно, создавая массив в качестве вывода.

In [None]:
B = np.arange(3)
B

In [None]:
np.exp(B)

In [None]:
np.sqrt(B)

In [None]:
C = np.array([2., -1., 4.])
np.add(B, C)

Таких функций в `NumPy` существует целое множество. Для более подробного знакомства с ними отсылаем вас к [соответствующей странице документации](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs).

### Индексирование, взятие срезов и итерирование по NumPy массивам

Одномерные массивы можно индексировать, брать срезы и итерироваться по ним, как по уже рассмотренному нами встроенному типу `list` Python.

In [None]:
a = np.arange(10)**3
a

In [None]:
a[2]

In [None]:
a[2:5]

In [None]:
# equivalent to a[0:6:2] = 1000;
# from start to position 6, exclusive, set every 2nd element to 1000
a[:6:2] = 1000
a

In [None]:
a[::-1]  # reversed a

In [None]:
for i in a:
    print(i**(1 / 3.))

Многомерные массивы имеют по одному целочисленному индексу на каждую свою размерность. Эти индексы записывают в кортеже:

In [None]:
def f(x, y):
    return 10 * x + y
b = np.fromfunction(f, (5, 4), dtype=int)
b

In [None]:
b[2, 3]

In [None]:
b[0:5, 1]  # each row in the second column of b

In [None]:
b[:, 1]    # equivalent to the previous example

In [None]:
b[1:3, :]  # each column in the second and third row of b

Когда указано меньше индексов, чем количество осей массива, по отсутствующие индексам неявно задаётся срез:

In [None]:
b[-1]   # the last row. Equivalent to b[-1, :]

Выражение в квадратных скобках в `b[i]` обрабатывается как `i`, за которым следует столько экземпляров `:`, сколько необходимо для представления остальных осей. `NumPy` также позволяет вам писать это, используя многоточие как `b[i, ...]`.

Многоточие (`...`) заменяет собой столько столько двоеточий, сколько необходимо для создания полного кортежа с индексами по всем осям массива. Например, если `x` представляет собой массив размерности `5`, то

- `x[1, 2, ...]` эквивалентно `x[1, 2, :, :, :]`,

- `x[..., 3]` эквивалентно `x[:, :, :, :, 3]` и

- `x[4, ..., 5, :]` эквивалентно `x[4, :, :, 5, :]`.

In [None]:
c = np.array([[[  0,  1,  2],  # a 3D array (two stacked 2D arrays)
               [ 10, 12, 13]],
              [[100, 101, 102],
               [110, 112, 113]]])
c.shape

In [None]:
c[1, ...]  # same as c[1, :, :] or c[1]

In [None]:
c[..., 2]  # same as c[:, :, 2]

Итерирование по многомерным массивам выполняется относительно первой размерности:

In [None]:
for row in b:
    print(row)

Если необходимо выполнить операцию над каждым элементом массива, можно использовать атрибут `flat`, который является итератором для всех элементов массива:

In [None]:
for element in b.flat:
    print(element)

## Работа с формой массивов

### Преобразование формы массивов

Массив имеет форму, заданную количеством элементов вдоль каждой оси:

In [None]:
a = np.floor(10 * rg.random((3, 4)))
a

In [None]:
a.shape

Форму массива можно изменить с помощью различных команд. Обратите внимание, что все следующие три команды возвращают измененный массив, но не изменяют исходный:

In [None]:
a.ravel()  # returns the array, flattened

In [None]:
a.reshape(6, 2)  # returns the array with a modified shape

In [None]:
a.T  # returns the array, transposed

In [None]:
a.T.shape

In [None]:
a.shape

Функция `reshape` возвращает свой аргумент-массив с измененной формой, тогда как метод `ndarray.resize` изменяет сам массив "in-place":

In [None]:
a

In [None]:
a.resize((2, 6))
a

Если последний размер задан как `-1` в операции изменения формы, другие размеры рассчитываются автоматически:

In [None]:
a.reshape(3, -1)

### "Штабелирование" разных массивов друг относительно друга

In [None]:
a = np.floor(10 * rg.random((2, 2)))
a

In [None]:
b = np.floor(10 * rg.random((2, 2)))
b

In [None]:
np.vstack((a, b))

In [None]:
np.hstack((a, b))

Функция `column_stack` объединяет одномерные массивы в виде столбцов в двумерный массив. Это эквивалентно `hstack` только для 2D-массивов:

In [None]:
np.column_stack((a, b))  # with 2D arrays

In [None]:
a = np.array([4., 2.])
b = np.array([3., 8.])
np.column_stack((a, b))  # returns a 2D array

In [None]:
np.hstack((a, b))        # the result is different

In [None]:
from numpy import newaxis
a[:, newaxis]  # view `a` as a 2D column vector

In [None]:
np.column_stack((a[:, newaxis], b[:, newaxis]))

In [None]:
np.hstack((a[:, newaxis], b[:, newaxis]))  # the result is the same

С другой стороны, функция `row_stack` эквивалентна `vstack` для любых входных массивов. На самом деле `row_stack` — это псевдоним `vstack`:

In [None]:
np.column_stack is np.hstack

In [None]:
np.row_stack is np.vstack

В общем случае, для массивов с более чем двумя измерениями `hstack` складывается по их вдоль второй размерности, `vstack` складывается по их вдоль первой размерности. Также стоит упомянуть метод [`concatenate`](https://numpy.org/devdocs/reference/generated/numpy.concatenate.html#numpy.concatenate) которому можно передать номер размерности, вдоль которой должно происходить объединение массивов.

### Разбивание массива на фрагменты

Используя `hsplit`, вы можете разделить массив вдоль его горизонтальной оси (второй размерности), либо указав количество возвращаемых массивов одинаковой формы, либо указав столбцы, после которых должно происходить деление:

In [None]:
a = np.floor(10 * rg.random((2, 12)))
a

In [None]:
# Split `a` into 3
np.hsplit(a, 3)

In [None]:
# Split `a` after the third and the fourth column
np.hsplit(a, (3, 4))

[`vsplit`](https://numpy.org/devdocs/reference/generated/numpy.vsplit.html#numpy.vsplit) позволяет разбить массив вдоль вертикальной (первой) оси, а array_split позволяет указать конкретный номер оси, по которой хочется разбить исходный массив.

## Копирование массивов и "Views"

При работе с массивами их данные иногда копируются в новый массив, а иногда нет. Это часто является источником путаницы для начинающих. Есть три случая:

### Когда копирование не происходит

Простые присваивания не копируют объекты или их данные.

In [None]:
a = np.array([[ 0,  1,  2,  3],
              [ 4,  5,  6,  7],
              [ 8,  9, 10, 11]])
b = a            # no new object is created
b is a           # a and b are two names for the same ndarray object

Python передает изменяемые объекты как ссылки, поэтому вызовы функций от массива не создают новый массив по-умолчанию.

In [None]:
def f(x):
    print(id(x))

id(a)  # id is a unique identifier of an object 

In [None]:
f(a)

### Так называемое View или "поверхностная копия"

Одни и те же данные могут использоваться разными экземплярами класса массив. Метод `view` создает новый экземпляр массива, который просматривает те же данные (одни и те же данные физически хранятся в памяти).

In [None]:
c = a.view()
c is a

In [None]:
c.base is a            # c is a view of the data owned by a

In [None]:
c.flags.owndata

In [None]:
c = c.reshape((2, 6))  # a's shape doesn't change
a.shape

In [None]:
c[0, 4] = 1234         # a's data changes
a

Взятие среза массива возвращает его `view`:

In [None]:
s = a[:, 1:3]
s[:] = 10  # s[:] is a view of s. Note the difference between s = 10 and s[:] = 10
a

### Глубокое копирование массивов

Метод `copy` делает полную копию массива и его данных.

In [None]:
d = a.copy()  # a new array object with new data is created
d is a

In [None]:
d.base is a  # d doesn't share anything with a

In [None]:
d[0, 0] = 9999
a

Иногда `copy` следует вызывать после взятие среза, если исходный массив больше не требуется. Например, предположим, что `a` — это огромный промежуточный результат, а окончательный результат `b` содержит лишь малую часть `a`, при построении `b` путём взятия среза следует сделать глубокую копию:

In [None]:
a = np.arange(int(1e8))
b = a[:100].copy()
del a  # the memory of ``a`` can be released.

Если же написать просто `b = a[:100]`, `a` будет ссылаться на `b` и соответствующая массиву память не будет освобождена даже после `del a`.



## Продвинутое индексирование

NumPy предлагает больше возможностей для индексирования, чем обычные последовательности Python. Помимо индексации целыми числами и срезами, как мы видели ранее, массивы можно индексировать массивами целых чисел и массивами логических значений.

### Индексирование массивов при помощи массивов индексов

In [None]:
a = np.arange(12)**2  # the first 12 square numbers
i = np.array([1, 1, 3, 8, 5])  # an array of indices
a[i]  # the elements of `a` at the positions `i`

In [None]:
j = np.array([[3, 4], [9, 7]])  # a bidimensional array of indices
a[j]  # the same shape as `j`

Когда индексированный массив `a` является многомерным, единственный массив индексов относится к первому измерению `a`. В следующем примере показано это поведение:

In [None]:
palette = np.array([[0, 0, 0],         # black
                    [255, 0, 0],       # red
                    [0, 255, 0],       # green
                    [0, 0, 255],       # blue
                    [255, 255, 255]])  # white
image = np.array([[0, 1, 2, 0],  # each value corresponds to a color in the palette
                  [0, 3, 4, 0]])
palette[image]  # the (2, 4, 3) color image

Мы также можем указать индексы для более чем одного измерения. Массивы индексов для каждого измерения должны иметь одинаковую форму.

In [None]:
a = np.arange(12).reshape(3, 4)
a

In [None]:
i = np.array([[0, 1],  # indices for the first dim of `a`
              [1, 2]])
j = np.array([[2, 1],  # indices for the second dim
              [3, 3]])
a[i, j]  # i and j must have equal shape

In [None]:
a[i, 2]

In [None]:
a[:, j]

В Python `arr[i, j]` имеет тот же смысл что и `arr[(i, j)]` — поэтому мы можем сразу поместить `i` и `j` в кортеж, а затем выполнить индексацию с ним.

In [None]:
l = (i, j)
# equivalent to a[i, j]
a[l]

Однако мы не можем сделать это, поместив `i` и `j` в массив, потому что этот массив будет интерпретирован как индексирующий первое измерение `a`.

In [None]:
s = np.array([i, j])
# not what we want
a[s]

In [None]:
# same as `a[i, j]`
a[tuple(s)]

Еще одно распространенное использование индексации с помощью массивов — поиск максимального значения ряда, зависящего от времени:

In [None]:
time = np.linspace(20, 145, 5)  # time scale
data = np.sin(np.arange(20)).reshape(5, 4)  # 4 time-dependent series
time

In [None]:
data

In [None]:
# index of the maxima for each series
ind = data.argmax(axis=0)
ind

In [None]:
# times corresponding to the maxima
time_max = time[ind]
time_max

In [None]:
data_max = data[ind, range(data.shape[1])]  # => data[ind[0], 0], data[ind[1], 1]...
data_max

In [None]:
np.all(data_max == data.max(axis=0))

Вы также можете использовать индексирование с массивами в качестве "цели" для операции присвоения:

In [None]:
a = np.arange(5)
a

In [None]:
a[[1, 3, 4]] = 0
a

Однако, когда список индексов содержит повторения, присваивание выполняется несколько раз, оставляя после себя последнее значение:

In [None]:
a = np.arange(5)
a[[0, 0, 2]] = [1, 2, 3]
a

Это достаточно разумно, но будьте осторожны, если вы хотите использовать конструкцию Python `+=`, так как она может не делать того, что вы ожидаете:

In [None]:
a = np.arange(5)
a[[0, 0, 2]] += 1
a

Несмотря на то, что `0` встречается в списке индексов дважды, `0`-й элемент увеличивается только один раз. Это связано с тем, что в Python `+= 1` эквивалентно `a = a + 1`.

### Индексирование массивами из логических значений

Когда мы индексируем массивы массивами (целочисленных) индексов, мы предоставляем список индексов для выбора. С булевыми индексами подход другой; мы явно выбираем, какие элементы в массиве нам нужны, а какие нет. Можно назвать это "маскируем".

Самый естественный способ, который можно придумать для логического индексирования, — это использовать логические массивы, которые имеют ту же форму, что и исходный массив:

In [None]:
a = np.arange(12).reshape(3, 4)
b = a > 4
b  # `b` is a boolean with `a`'s shape

In [None]:
a[b]  # 1d array with the selected elements

Это свойство может быть очень полезным в операциях присваивания:

In [None]:
a[b] = 0  # All elements of `a` higher than 4 become 0
a

Второй способ индексации с логическими значениями больше похож на целочисленную индексацию; для каждого измерения массива мы даем одномерный логический массив, выбирая нужные нам срезы:

In [None]:
a = np.arange(12).reshape(3, 4)
b1 = np.array([False, True, True])         # first dim selection
b2 = np.array([True, False, True, False])  # second dim selection

In [None]:
a[b1, :]                                   # selecting rows

In [None]:
a[b1]                                      # same thing

In [None]:
a[:, b2]                                   # selecting columns

In [None]:
a[b1, b2]                                  # a weird thing to do

Обратите внимание, что длина логического 1D массива  должна совпадать с длиной измерения (или оси), которую вы хотите разрезать. В предыдущем примере `b1` имеет длину `3` (количество строк в `a`), а `b`2 (длиной `4`) подходит для индексации второй оси (столбцов) `a`.

Булево индексирование может нам помочь нарисовать красивый фрактал:

In [None]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

def mandelbrot(h, w, maxit=20, r=2):
    """Returns an image of the Mandelbrot fractal of size (h,w)."""
    x = np.linspace(-2.5, 1.5, 4*h+1)
    y = np.linspace(-1.5, 1.5, 3*w+1)
    A, B = np.meshgrid(x, y)
    C = A + B*1j
    z = np.zeros_like(C)
    divtime = maxit + np.zeros(z.shape, dtype=int)

    for i in range(maxit):
        z = z**2 + C
        diverge = abs(z) > r                    # who is diverging
        div_now = diverge & (divtime == maxit)  # who is diverging now
        divtime[div_now] = i                    # note when
        z[diverge] = r                          # avoid diverging too much

    return divtime
plt.clf()
plt.imshow(mandelbrot(400, 400))
plt.show()

# Простейшая визуализация данных при помощи `matplotlib`

![matplotlib](https://img.ifunny.co/images/fcd298bb355a4b5c09bb8960aad5d13ce875f4830dc9b978f88887db2b0a9613_1.jpg "matplotlib")

[источник изображения](https://img.ifunny.co/images/fcd298bb355a4b5c09bb8960aad5d13ce875f4830dc9b978f88887db2b0a9613_1.jpg)

Большинство утилит `Matplotlib` находятся в подмодуле `pyplot` и обычно импортируются под псевдонимом `plt`:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

Сразу рассмотрим простой пример. Давайте нарисуем прямую:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.plot([1, 2, 3, 4])
plt.ylabel('some numbers')
plt.show()

Вам может быть интересно, почему ось `X` находится в диапазоне от 0 до 3, а ось `Y` — в диапазоне от 1 до 4. Если вы предоставляете один список или массив для построения графика, `matplotlib` предполагает, что это последовательность значений `y`, и автоматически генерирует для вас значения `x`. Поскольку диапазоны `Python` начинаются с 0, вектор `x` по умолчанию имеет ту же длину, что и `y`, но начинается с 0. Следовательно, данные `x` равны `[0, 1, 2, 3]`.

`plot` — универсальная функция, которая может принимать произвольное количество аргументов. Например, чтобы построить график зависимости `x` от `y`, вы можете написать:

In [None]:
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])

### Форматирование стиля вашего графика

Для каждой пары аргументов `x`, `y` существует необязательный третий аргумент, который представляет собой строку формата, указывающую цвет и тип линии графика. Буквы и символы строки формата взяты из MATLAB (если вдруг это система вам будет более знакома). Строка формата по умолчанию — `"b-"`, сплошная синяя линия. Например, чтобы нарисовать вышеприведенное с красными кругами, вы должны ввести:

In [None]:
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'ro')
plt.axis([0, 6, 0, 20])
plt.show()

См. документацию к объекту [`plot`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html#matplotlib.pyplot.plot) для получения полного списка стилей линий и знакомства с возможным описанием вида форматных строк. Функция [`axis`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.axis.html#matplotlib.pyplot.axis) в приведенном выше примере принимает список `[xmin, xmax, ymin, ymax]` и указывает область просмотра осей.

Если бы `matplotlib` был ограничен работой со встроенными списками, он был бы совершенно бесполезен для сложной визуализации числовых данных. Как правило, для хранения однородных числовых данных используются массивы `numpy`. Пример ниже иллюстрирует построение нескольких строк с разными стилями формата в одном вызове функции с использованием массивов.

In [None]:
import numpy as np

# evenly sampled time at 200ms intervals
t = np.arange(0., 5., 0.2)

# red dashes, blue squares and green triangles
plt.plot(t, t, 'r--', t, t**2, 'bs', t, t**3, 'g^')
plt.show()

## График с категориальными переменными

Также возможно создать график с использованием категориальных переменных. `Matplotlib` позволяет передавать категориальные переменные напрямую многим функциям построения графиков. Например:

In [None]:
names = ['group_a', 'group_b', 'group_c']
values = [1, 10, 100]

plt.figure(figsize=(9, 3))

plt.subplot(131)
plt.bar(names, values)
plt.subplot(132)
plt.scatter(names, values)
plt.subplot(133)
plt.plot(names, values)
plt.suptitle('Categorical Plotting')
plt.show()

## Управление свойствами линий на графике

Линии имеют множество атрибутов, которые вы можете установить: ширину линии, стиль тире, сглаживание и т. д.; см. [`matplotlib.lines.Line2D`](https://matplotlib.org/stable/api/_as_gen/matplotlib.lines.Line2D.html#matplotlib.lines.Line2D). Есть несколько способов задать свойства линии:


- использовать именованные (keyword) параметры:

```
plt.plot(x, y, linewidth=2.0)

```

- Используйте setter методы уже существующего экземпляра `Line2D`. В этом случае нужно учитывать что `plot` возвращает список объектов `Line2D`. Например:

```
line1, line1 = plot(x1, y1, x2, y2)
``` 
В приведенном ниже коде мы предположим, что у нас есть только одна строка, поэтому возвращаемый список имеет длину 1. Мы используем распаковку кортежа, чтобы получить первый элемент этого списка:

```
line, = plt.plot(x, y, '-')
line.set_antialiased(False) # turn off antialiasing
```

- использовать [`setp`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.setp.html#matplotlib.pyplot.setp). В приведенном ниже примере функция [`setp`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.setp.html#matplotlib.pyplot.setp) используется в MATLAB-стиле для установки нескольких свойств в списке линей.
```
lines = plt.plot(x1, y1, x2, y2)
plt.setp(lines, color='r', linewidth=2.0)
plt.setp(lines, 'color', 'r', 'linewidth', 2.0)
```

Чтобы получить список устанавливаемых свойств линии, вызовите функцию `setp` с одной линией или со списком линей в качестве аргумента.

In [None]:
lines = plt.plot([1, 2, 3])
plt.setp(lines)

## Работа с несколькими фигурами и координатными осями

`MATLAB` и `pyplot` имеют концепцию текущей фигуры и текущих координатных осей. Все функции построения графика применяются к текущим осям. Функция [`gca`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.gca.html#matplotlib.pyplot.gca) возвращает текущие оси (экземпляр класса [`matplotlib.axes.Axes`](https://matplotlib.org/stable/api/axes_api.html#matplotlib.axes.Axes)), а [`gcf`](https://matplotlib.org/stable/api/figure_api.html#matplotlib.figure.Figure) возвращает текущую фигуру (экземпляр [`matplotlib.figure.Figure`](https://matplotlib.org/stable/api/figure_api.html#matplotlib.figure.Figure)). Обычно вам не нужно об этом беспокоиться, потому что обо всем позаботятся за кулисами. Ниже приведен сценарий для создания двух подзаголовков.

In [None]:
def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t)

t1 = np.arange(0.0, 5.0, 0.1)
t2 = np.arange(0.0, 5.0, 0.02)

plt.figure()
plt.subplot(211)
plt.plot(t1, f(t1), 'bo', t2, f(t2), 'k')

plt.subplot(212)
plt.plot(t2, np.cos(2*np.pi*t2), 'r--')
plt.show()

Вызов `plt.figure()` здесь является необязательным, потому что фигура будет создана автоматически при её отсутствии. Точно так же, как будут созданы координатные оси, если их до этого не существовало. Вызов [`subplot`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplot.html#matplotlib.pyplot.subplot) позволяет явно указать число `numrows` и `numcols`, f а также `plot_number`, где `plot_number` находится в диапазоне от `1` до `numrows*numcols`. Запятые в вызове подзаголовка необязательны, если `numrows*numcols<10`. Таким образом, `subplot(211)` идентичен `subplot(2, 1, 1)`.

Вы можете создать произвольное количество подграфиков и координатных осей. Если вы хотите разместить координатные оси вручную, т. е. не на прямоугольной сетке, используйте метод [`plt.axis`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.axes.html#matplotlib.pyplot.axes) который позволит вам указать положение новой координатной оси вручную в виде списка координат (`plt.axis([left, bottom, width, height])`), где все значения являются дробными (от 0 до 1 ) относительными координатами в пределах одной фигуры. 

Рекомендуем внимательно посмотреть [демо-код использования данного метода в документации](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/axes_demo.html).

Вы можете создать несколько фигур, используя вызовы нескольких [`plt.figure`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure) с увеличивающимся номером. Каждая фигура может содержать сколько угодно координатных остей  осей и и подграфиков.

In [None]:
import matplotlib.pyplot as plt
plt.figure(1)                # the first figure
plt.subplot(211)             # the first subplot in the first figure
plt.plot([1, 2, 3])
plt.subplot(212)             # the second subplot in the first figure
plt.plot([4, 5, 6])


plt.figure(2)                # a second figure
plt.plot([4, 5, 6])          # creates a subplot() by default

plt.figure(1)                # figure 1 current; subplot(212) still current
plt.subplot(211)             # make subplot(211) in figure1 current
plt.title('Easy as 1, 2, 3') # subplot 211 title

### Работа с текстом


[`plt.text`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.text.html#matplotlib.pyplot.text) может использоваться для добавления текста в произвольное место, а [`plt.xlabel'](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xlabel.html#matplotlib.pyplot.xlabel), [`ylabel`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylabel.html#matplotlib.pyplot.ylabel) и [`title'](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.title.html#matplotlib.pyplot.title) используются для добавления текста в различные элементы легенды на графике.

In [None]:
mu, sigma = 100, 15
x = mu + sigma * np.random.randn(10000)

# the histogram of the data
n, bins, patches = plt.hist(x, 50, density=1, facecolor='g', alpha=0.75)


plt.xlabel('Smarts')
plt.ylabel('Probability')
plt.title('Histogram of IQ')
plt.text(60, .025, r'$\mu=100,\ \sigma=15$')
plt.axis([40, 160, 0, 0.03])
plt.grid(True)
plt.show()

Все текстовые функции возвращают экземпляр ['matplotlib.text.Text'](https://matplotlib.org/stable/api/text_api.html#matplotlib.text.Text). Как и в случае с линиями выше, вы можете настроить свойства.

In [None]:
t = plt.xlabel('my data', fontsize=14, color='red')

## Использование математических выражений в тексте

`matplotlib` принимает выражения уравнения `TeX` в любом текстовом выражении. Например, чтобы написать выражение $\sigma_i = 15$ в заголовке, вы можете написать выражение TeX, окруженное знаками доллара:

In [None]:
plt.title(r'$\sigma_i=15$')

## Логарифмические и другие нелинейные оси

`matplotlib.pyplot` поддерживает не только линейные школы координатных осей, но также логарифмические и логитные шкалы. Это обычно используется, если данные охватывают много порядков. Изменить масштаб оси легко:

```
plt.xscale('log')
```

Ниже показан пример четырех графиков с одинаковыми данными и разными масштабами по оси `Y`:

In [None]:
# Fixing random state for reproducibility
np.random.seed(19680801)

# make up some data in the open interval (0, 1)
y = np.random.normal(loc=0.5, scale=0.4, size=1000)
y = y[(y > 0) & (y < 1)]
y.sort()
x = np.arange(len(y))

# plot with various axes scales
plt.figure()

# linear
plt.subplot(221)
plt.plot(x, y)
plt.yscale('linear')
plt.title('linear')
plt.grid(True)

# log
plt.subplot(222)
plt.plot(x, y)
plt.yscale('log')
plt.title('log')
plt.grid(True)

# symmetric log
plt.subplot(223)
plt.plot(x, y - y.mean())
plt.yscale('symlog', linthresh=0.01)
plt.title('symlog')
plt.grid(True)

# logit
plt.subplot(224)
plt.plot(x, y)
plt.yscale('logit')
plt.title('logit')
plt.grid(True)
# Adjust the subplot layout, because the logit one may take more space
# than usual, due to y-tick labels like "1 - 10^{-3}"
plt.subplots_adjust(top=0.92, bottom=0.08, left=0.10, right=0.95, hspace=0.25,
                    wspace=0.35)

plt.show()

## Некоторые избранные примеры графиков

### График когерентности двух сигналов


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Fixing random state for reproducibility
np.random.seed(19680801)

dt = 0.01
t = np.arange(0, 30, dt)
nse1 = np.random.randn(len(t))                 # white noise 1
nse2 = np.random.randn(len(t))                 # white noise 2

# Two signals with a coherent part at 10Hz and a random part
s1 = np.sin(2 * np.pi * 10 * t) + nse1
s2 = np.sin(2 * np.pi * 10 * t) + nse2

fig, axs = plt.subplots(2, 1)
axs[0].plot(t, s1, t, s2)
axs[0].set_xlim(0, 2)
axs[0].set_xlabel('time')
axs[0].set_ylabel('s1 and s2')
axs[0].grid(True)

cxy, f = axs[1].cohere(s1, s2, 256, 1. / dt)
axs[1].set_ylabel('coherence')

fig.tight_layout()
plt.show()


### График с оценкой ошибок

In [None]:
import numpy as np
import matplotlib.pyplot as plt


fig = plt.figure()
x = np.arange(10)
y = 2.5 * np.sin(x / 20 * np.pi)
yerr = np.linspace(0.05, 0.2, 10)

plt.errorbar(x, y + 3, yerr=yerr, label='both limits (default)')

plt.errorbar(x, y + 2, yerr=yerr, uplims=True, label='uplims=True')

plt.errorbar(x, y + 1, yerr=yerr, uplims=True, lolims=True,
             label='uplims=True, lolims=True')

upperlimits = [True, False] * 5
lowerlimits = [False, True] * 5
plt.errorbar(x, y, yerr=yerr, uplims=upperlimits, lolims=lowerlimits,
             label='subsets of uplims and lolims')

plt.legend(loc='lower right')

### Сгруппированная гистограмма с метками

In [None]:
import matplotlib.pyplot as plt
import numpy as np


labels = ['G1', 'G2', 'G3', 'G4', 'G5']
men_means = [20, 34, 30, 35, 27]
women_means = [25, 32, 34, 20, 25]

x = np.arange(len(labels))  # the label locations
width = 0.35  # the width of the bars

fig, ax = plt.subplots()
rects1 = ax.bar(x - width/2, men_means, width, label='Men')
rects2 = ax.bar(x + width/2, women_means, width, label='Women')

# Add some text for labels, title and custom x-axis tick labels, etc.
ax.set_ylabel('Scores')
ax.set_title('Scores by group and gender')
ax.set_xticks(x)
ax.set_xticklabels(labels)
ax.legend()

ax.bar_label(rects1, padding=3)
ax.bar_label(rects2, padding=3)

fig.tight_layout()

plt.show()

### Контурный график неравномерно распределённых данных

In [None]:
import matplotlib.pyplot as plt
import matplotlib.tri as tri
import numpy as np

np.random.seed(19680801)
npts = 200
ngridx = 100
ngridy = 200
x = np.random.uniform(-2, 2, npts)
y = np.random.uniform(-2, 2, npts)
z = x * np.exp(-x**2 - y**2)

fig, (ax1, ax2) = plt.subplots(nrows=2)

# -----------------------
# Interpolation on a grid
# -----------------------
# A contour plot of irregularly spaced data coordinates
# via interpolation on a grid.

# Create grid values first.
xi = np.linspace(-2.1, 2.1, ngridx)
yi = np.linspace(-2.1, 2.1, ngridy)

# Linearly interpolate the data (x, y) on a grid defined by (xi, yi).
triang = tri.Triangulation(x, y)
interpolator = tri.LinearTriInterpolator(triang, z)
Xi, Yi = np.meshgrid(xi, yi)
zi = interpolator(Xi, Yi)

# Note that scipy.interpolate provides means to interpolate data on a grid
# as well. The following would be an alternative to the four lines above:
# from scipy.interpolate import griddata
# zi = griddata((x, y), z, (xi[None, :], yi[:, None]), method='linear')

ax1.contour(xi, yi, zi, levels=14, linewidths=0.5, colors='k')
cntr1 = ax1.contourf(xi, yi, zi, levels=14, cmap="RdBu_r")

fig.colorbar(cntr1, ax=ax1)
ax1.plot(x, y, 'ko', ms=3)
ax1.set(xlim=(-2, 2), ylim=(-2, 2))
ax1.set_title('grid and contour (%d points, %d grid points)' %
              (npts, ngridx * ngridy))

# ----------
# Tricontour
# ----------
# Directly supply the unordered, irregularly spaced coordinates
# to tricontour.

ax2.tricontour(x, y, z, levels=14, linewidths=0.5, colors='k')
cntr2 = ax2.tricontourf(x, y, z, levels=14, cmap="RdBu_r")

fig.colorbar(cntr2, ax=ax2)
ax2.plot(x, y, 'ko', ms=3)
ax2.set(xlim=(-2, 2), ylim=(-2, 2))
ax2.set_title('tricontour (%d points)' % npts)

plt.subplots_adjust(hspace=0.5)
plt.show()


# Практикум

## Задача A. Базовая работа с NumPy

- импортируйте библиотеку NumPy под псевдонимом `np`

In [None]:
# Your code here

- создайте одномерный массив из нулей длины 10

In [None]:
# Your code here

- создайте одномерный массив длины 10, где все элементы кроме третьего равны нулю, а третий равен $-42$

In [None]:
# Your code here

- создайте массив, в котором записаны последовательно числа с $10$ по $49$

In [None]:
# Your code here

- создайте единичную $3 \times 3$ матрицу 

In [None]:
# Your code here

- создайте массив $3 \times 3 \times 3 $ из случайных чисел

In [None]:
# Your code here

- создайте массив $10 \times 10$ и найдите для него минимальное и максимальное значения

In [None]:
# Your code here

- Создайте линейный массив из 10 элементов, значения которого равномерно распределены в интервале $(0,1)$

In [None]:
# Your code here

- создайте линейный случайный вектор длины 10 и отсортируйте его

## Задача B. Работа с NumPy средней сложности

- Предположим у вас есть два двуемрных массива (матрицы). Как получить результат умножения первой матрицы на вторую?

In [None]:
# Your code here

- предположим у вас есть произвольный массив с двумя измерениями. Как поменять две строки такого массива местами?

In [None]:
# Your code here

- предположим у вас есть произвольный массив размерности 10, заполненный случайными числами. Как получить n-ый наибольший элемент 

In [None]:
# Your code here

- Как конвертировать массив массивов в один линейный массив?

In [None]:
arr1 = np.arange(2,8)
arr2 = np.arange(3,9)
arr3 = np.arange(4,10)

arrr_to_conver = np.array([arr1, arr2, arr3])
arrr_to_conver

In [None]:
# Your code here

- замените все нечётные элементы в массиве `arr` при помощи значения `-1`, не изменив значения остальных элементов массива:

пример ввода:
```
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
```

Пример вывода:
```
np.array([ 0, -1,  2, -1,  4, -1,  6, -1,  8, -1])
```

In [None]:
# Your code here

- создайте 3-мерный массив `arr` формы (100, 3, 32, 32) из случайных целых чисел. Нормируйте массив так, чтобы среднее значение элементов сечения `arr[100, i, ...]` было равно `0.75`, `0.50` и `0.25` для `i` принимающим значения `2`, `1` и `0` соответственно. 

In [None]:
# Your code here

## Задача C. Padding в NumPy

При решении задач автоматической обработки изображений мы часто будем сталкиваться с необходимостью обрамить несколькими строками и столбцами чёрных (равных нулю) пикселей данное нам изображение. Такая процедура называется паддингом. Совсем скоро у вам предстоит познакомится с разработкой решений на основе свёрточных нейронных сетей -- давайте же попробуем познакомиться с этой небольшой технической задачей заранее.

Загрузим изображения из галереи библиотеки [scikit-image](https://scikit-image.org/docs/stable/auto_examples/index.html) содержащей примеры изображений. 

In [None]:
from skimage import data 
import matplotlib.pyplot as plt

img = data.cat()

Посмотрим на него

In [None]:
plt.figure()
plt.title('cat')
plt.imshow(img)

plt.show()

Посмотрим на тип данных и размер массива.

In [None]:
print(type(img))

In [None]:
print(img.shape)

In [None]:
print(img.dtype)

Задача: разобраться с тем, как хранится изображение, создать массив, в котором данное изображение будет обрамлять черная рамка толщиной в 5 пикселей и отрисовать его.

In [None]:
# Your code here

## Задача D. Кручу-верчу: revisited

На прошлом занятии мы писали функцию, которая поворачивала квадратную картинку. В `numpy` есть функция, которая может сделать это за нас. Вам предлагается эту функцию в документации, разобраться как пользоваться данной функций, после чего мы попросим развернуть картинку кота и нарисовать её.

In [None]:
help(np)

In [None]:
from skimage import data 
import matplotlib.pyplot as plt

img = data.cat()

## Задача E. Линейная регрессия

Дан датасет, в котором показана зависимости оценки за тест для различных студентов от времени, затраченного на подготовку. Постройте простейшую модель линейной регрессии, которая будет находить оценку зависимости оценки за тест, как функции времени подготовки.

In [None]:
# Тут мы загружаем датасет с сервера и переводим его в numpy
# pandas будем изучать на следующем занятии
import pandas as pd

dataset = pd.read_csv("https://edunet.kea.su/repo/EduNet-web_dependencies/L02/student_scores.csv")

x = dataset['Hours'].to_numpy()
y = dataset['Scores'].to_numpy()

In [None]:
# Псомотрим на данные 

import matplotlib.pyplot as plt

plt.scatter(x, y)
plt.title("Hours vs Percentage", size=15)
plt.xlabel("Hours Studied", size=15)
plt.ylabel("Percentage Score", size=15)

plt.show()

Найдите зависимость $y = f(x)$, сделав линейную аппроксимацию данных методом наименьших квадратов. О методе наименьших квадратов можно почитать по [ссылке](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BD%D0%B0%D0%B8%D0%BC%D0%B5%D0%BD%D1%8C%D1%88%D0%B8%D1%85_%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%BE%D0%B2) (обратите внимание на раздел “Простейшие частные случаи”). 

Напечатайте зависимость в виде: `f"y = {b}x + {a}"` и интерпретируйте получившийся результат.

In [None]:
# Your code here

import numpy as np

n = len(x)

b = (n*np.sum(x*y) - np.sum(x)*np.sum(y)) /  \
    (n*np.sum(x**2)-(np.sum(x)**2))
a = (np.sum(y) - b*np.sum(x))/  \
     n

print(f"y = {b}x + {a}")

Нарисуйте на одном графике исходные данные и результат линейной аппроксимации. 

In [None]:
# Your code here

import matplotlib.pyplot as plt

plt.scatter(x, y)
plt.title("Hours vs Percentage", size=15)
plt.xlabel("Hours Studied", size=15)
plt.ylabel("Percentage Score", size=15)

x_points = np.linspace(min(x), max(x), 100)
y_points = b*x_points + a

plt.plot(x_points, y_points, label="y = %.2fx+%.2f" % (b, a), color='r')
plt.legend()
plt.show()