Промишленост новини

Заслужава ли си АлфаЗеро да свири?

2018-06-02

DeepMind, компания за изкуствен интелект, собственост на Google, пусна нова хартия, която описва как екипът използва системата за машинно обучение на AlphaGo за изграждането на нов проект, наречен AlphaZero. AlphaZero използва AI технология, наречена укрепване на ученето, което използва само основни правила, без човешки опит, тренировки от самото начало, преместени на борда игра AI.

AlphaZero първо завладя Go и избухна друга дъска: при същите условия системата имаше осем часа тренировка и победи първата AI, която победи хората - Li Shishi версия AlphaGo; след 4 часа тренировка, AI Elmo победи най-силната шахматна игра AI Stockfish и победи най-силния (японски шах) AI Elmo за 2 часа. Дори най-силният играч на Go, AlphaGo, не беше пощаден. Обучен за 34 часа, AlphaZero победи AlphaGo Zero, който тренира 72 часа.

Графика / брой равенства, рисунки или загуби в играта от гледна точка на AlphaZero (от екипа на DeepMind Team)

Укрепването на ученето е толкова мощна. Какво е?

Adit Deshpande, известен блогър на AI от Калифорнийския университет в Лос Анджелис (UCLA), публикува в своя блог серия от статии за проучването Deep Learning Research, което обяснява силата зад победата на AlphaGo. В статията си той посочва, че областта на машинното обучение може да бъде разделена на три категории: контролирано учене, безконтролно учене и обучение за укрепване. Усъвършенстването на ученето може да научи различни действия в различни ситуации или среди за постигане на най-добри резултати.

Блогът на Photo / Adit Deshpande Дълбочинно проучване на изследванията на изследването Седмица 2: Усъвършенстване на обучението

Представяме си малък робот в малка стая. Ние не програмирахме този робот да се движи, да ходи или да предприеме някакви действия. Той просто стои там. Искаме да се премести в ъгъла на стаята, да получи точки за възнаграждение, когато стигнете до там и да губите точки всеки път, когато отидете. Надяваме се, че роботът ще достигне определеното място доколкото е възможно, а роботът може да се движи в четири посоки: изток, юг, запад и север. Всъщност роботите са много прости. Какво поведение е най-ценно? Разбира се, това е определено място. За да получим най-голямата награда, можем само да позволим на роботите да използват действия, които увеличават максимално стойността.
Блогът на Photo / Adit Deshpande Дълбочинно проучване на изследванията на изследването Седмица 2: Усъвършенстване на обучението

Каква е стойността на експлозията на AlphaZero за човешки шахматни игри?

AlphaGo Zero е пробив, също е AlphaZero? Чуждестранни експерти анализираха, че последната има четири пробиви в технологиите:

На първо място, AlphaGo Zero се оптимизира според съотношението на печалбите, отчита само победата, отрицателни са два вида резултати; И AlphaZero е в съответствие с резултата да продължи оптимизацията, е взела под внимание възможността като вратовръзка.

На второ място, AlphaGo Zero ще промени посоката на борда за укрепване на обучението, докато AlphaZero няма. Go board е натрупан, докато шах и шах не са, така че AlphaZero е по-гъвкав.

Три, AlphaGo Zero ще продължи да избира най-добрата версия на честотата на заместване, докато AlphaZero актуализира само невронна мрежа, намалявайки риска от тренировка на лоши резултати.

4. Хиперпарамерите в секцията за търсене на AlphaGo Zero се получават чрез Bayesian оптимизация. Изборът ще има голямо влияние върху резултата от оценката. AlphaZero използва повторно същия хипер-параметър за всички игри, така че няма нужда да правите конкретни настройки за играта.

Четвъртата парадигма на старши машина за обучение архитект Ту Weiwei каза Geek парк, че AlphaZero има пробиви и ограничения:

Първо, DeepMind В основата на тази теза е да се докаже гъвкавостта на стратегията AlphaGo Zero по шахматния проблем; няма специален акцент в метода. AlphaZero всъщност е разширена версия на стратегията AlphaGo Zero от Go to други подобни игри на борда и удря другата технология, основана на AI борда на игра. Те бяха най-добрите преди това.

Второ, AlphaZero е само "универсална" двигател за подобни игри на борда, които имат добре дефинирана и перфектна информационна игра. AlphaZero все още ще се изправи пред трудности при по-сложни други проблеми.

По-рано, когато Ryukyu Sun Jian тълкува AlphaGo Zero, той каза: "Укрепваното обучение може да бъде разширено до много други области и не е толкова лесно да го използвате в реалния свят. Например ученето за укрепване може да се използва за изследване на нови лекарства и нови лекарства. Структурата трябва да бъде претърсвана. След търсенето, той се превръща в лекарство. Тогава как наистина да тествате лекарството е ефективно. Тази цена на затворена цикъл е много скъпа и много бавна. Много е трудно за вас да го направите толкова просто, колкото и да играете шах. "

На трето място, AlphaZero също се нуждае от много компютърни ресурси за решаване на сравнително "прости" шахматен проблем, а цената е много висока. Според географските паркове, DeepMind заявява в статията, че са използвали 5000 TPU от първо поколение за генериране на игри за самозащита и са използвали 64 TPU от второ поколение за обучение на невронни мрежи. Преди това някои експерти казаха на определена медия, че въпреки че представянето на TPU е невероятно, цената ще бъде много висока. Някои инвеститори на международна организация за рисков капитал също се сприятелиха в този кръг. Едно от думите е: "Този скъп чип, аз просто гледам ..."

Четвърто, настоящият AlphaZero може да бъде на разстояние от "Go God" на Го. Печелившите хора не представляват Бог. Настоящата структура на мрежата и стратегията за обучение не са оптимални. Всъщност си струва да продължите да проучвате.

Въпреки че съществуват известни ограничения, сценариите му за приложение са на стойност изкопаване. Има много други изследователски области, които си заслужават да обърнат внимание в посоката на изследване, което прави машинното обучение по-общо, като AutoML, ученето за миграция и т.н. В същото време е достойно да се обърне внимание и на по-нататъшното получаване на по-общ двигател с по-ниска себестойност (изчислителни разходи, експертни разходи на домейни) и повишаване на интелигентността в практическите приложения.

Капките за капки са специална зона. Според диджей паркове DJ-ите използват технология на изкуствения интелект, за да напасват шофьорите и пътниците от неразумни права разстояния (вероятно през реките) до задания. Пътниците с най-малко време, прекарано на автомобили, имаха много техническа оптимизация. Те също така срещат проблеми и работят усилено за тях: Когато тренират системи за изкуствен интелект, могат да се използват технологии като GPU клъстерите. Въпреки това, когато водачите и пътниците са съгласувани, е необходима ефективност в реално време и конфигурацията е намалена. Ето защо, как да се гарантира точността е и изследване. Персоналът проучва този въпрос.

Но Tu Weiwei утвърждава усилията на DeepMind в посока на "универсален изкуствен интелект".