UCB algorithm #
theorem
Bandits.gap_ucbArm_le_two_mul_ucbWidth
{α : Type u_1}
{mα : MeasurableSpace α}
{ν : ProbabilityTheory.Kernel α ℝ}
{t : ℕ}
[Fintype α]
[Nonempty α]
{c : ℝ}
{μ : α → ℝ}
{N : α → ℕ}
(h_best : ∫ (x : ℝ), id x ∂ν (bestArm ν) ≤ μ (bestArm ν) + ucbWidth c N t (bestArm ν))
(h_ucb : μ (ucbArm c μ N t) - ucbWidth c N t (ucbArm c μ N t) ≤ ∫ (x : ℝ), id x ∂ν (ucbArm c μ N t))
:
theorem
Bandits.N_ucbArm_le
{α : Type u_1}
{mα : MeasurableSpace α}
{ν : ProbabilityTheory.Kernel α ℝ}
{t : ℕ}
[Fintype α]
[Nonempty α]
{c : ℝ}
{μ : α → ℝ}
{N : α → ℕ}
(h_best : ∫ (x : ℝ), id x ∂ν (bestArm ν) ≤ μ (bestArm ν) + ucbWidth c N t (bestArm ν))
(h_ucb : μ (ucbArm c μ N t) - ucbWidth c N t (ucbArm c μ N t) ≤ ∫ (x : ℝ), id x ∂ν (ucbArm c μ N t))
: