Оценки весов персептронов тема автореферата и диссертации по математике, 01.01.06 ВАК РФ

Подольский, Владимир Владимирович АВТОР
кандидата физико-математических наук УЧЕНАЯ СТЕПЕНЬ
Москва МЕСТО ЗАЩИТЫ
2009 ГОД ЗАЩИТЫ
   
01.01.06 КОД ВАК РФ
Диссертация по математике на тему «Оценки весов персептронов»
 
Автореферат диссертации на тему "Оценки весов персептронов"

Московский государственный университет имени М. В. Ломоносова Механико-математический факультет

На правах рукописи УДК 510.52+519.714.27

003486034

Подольский Владимир Владимирович

ОЦЕНКИ ВЕСОВ ПЕРСЕПТРОНОВ (ПОЛИНОМИАЛЬНЫХ ПОРОГОВЫХ БУЛЕВЫХ ФУНКЦИЙ)

01.01.06 - математическая логика, алгебра и теория чисел

-3 ДЕК 2009

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Москва, 2009

003486034

Работа выполнена на кафедре математической логики и теории алгоритмов Механико-математического факультета Московского государственного университета имени М. В. Ломоносова.

Научный руководитель: доктор физико-математических наук,

профессор

Николай Константинович Верещагин. Официальные оппоненты: чл.-корр. РАН,

Защита диссертации состоится 11 декабря 2009 г. в 16 ч. 45 мин. на заседании диссертационного совета Д.501.001.84 при Московском государст-венном университете имени М. В. Ломоносова по адресу: Российская Федерация, 119991, Москва, ГСП-1, Ленинские горы, д. 1, Московский государственный университет имени М. В. Ломоносова, Механико-математический факультет, аудитория 14-08.

С диссертацией можно ознакомиться в библиотеке Механико-математического факультета МГУ имени М. В. Ломоносова (Главное здание, 14-й этаж).

Автореферат разослан 11 ноября 2009 г.

Учёный секретарь диссертационного совета

доктор физико-математических наук Александр Александрович Разборов;

кандидат физико - математических наук, Михаил Николаевич Вялый.

Ведущая организация: Санкт-Петербургское отделение

Математического института имени В. А. Стеклова РАН

Д.501.001.84 при МГУ,

доктор физико-математических наук,

профессор

Общая характеристика работы.

Актуальность темы. Работа относится к области сложности вычислений, одному из разделов математической логики и теории алгоритмов. Более конкретно, мы исследуем некоторый способ реализации булевых функций многочленами и вопросы сложности такой реализации.

Реализация булевых функций действительными многочленами играет важную роль в теории сложности, начиная от сложности вычислений и заканчивая квантовыми вычислениями и теорией обучения1,2,3,4. В диссертации мы рассматриваем один из таких способов реализации, а именно пороговые элементы и связанные с ними меры сложности: пороговую степень, пороговый вес и пороговую длину.

Булева функция /: {0,1}" —> {0,1} называется знаковой функцией целочисленного многочлена р степени d от п переменных, если

f(x) = 1 =» р(х) > 0 f(x) = 0 =>• р(я) < 0

для всех х £ {0,1}". При этом многочлен р называется пороговым элементом степени d для булевой функции /: {0,1}" —> {0,1}. Весом порогового элемента называется сумма модулей коэффициентов многочлена р, а длиной порогового элемента называется число мономов в многочлене р. Заметим, что обычно пороговым элементом называют то, что мы называем пороговым элементом степени 1. Чтобы избежать путаницы, мы будем называть пороговые элементы степени 1 линейными пороговыми элементами.

Пороговой степенью булевой функции / называется минимальная степень порогового элемента для /. Пороговым весом булевой функции / называется минимальный вес порогового элемента для /. Пороговой длиной булевой функции / называется минимальная длина порогового элемента для /.

'Richard Beigel. The polynomial method in circuit complexity. In Ptoc. of the Eigth Annual Conference on Structure in Complexity Theory, pages 82-95, 1993.

2Michael E. Saks. Slicing the hypercube. Surveys in Combinatorics, pages 211-255, 1993.

3Harry Buhiman and Ronald de Wolf. Complexity measures and decision tree complexity: A survey. Theor. Comput. Sei., 288(l):21-43, 2002.

'Alexander A. Sherstov. Communication lower bounds using dual polynomials. Bulletin of the EATCS, 95:5993, 2008.

Кроме обозначений {0,1} для значений булевых переменных мы будем также пользоваться обозначениями {—1,+1}, где —1 соответствует "истине". В этом случае пороговым элементом степени d для функции /: {—1,+1}п —► {—1, +1} называется целочисленный многочлен р степени d от п переменных, такой что

f(x) = 1=> р(х) > О

/О) = -1 К*) < О

для всякого х 6 {—1, +1}". Все те же меры сложности булевых функций определяются в этих обозначениях аналогично. Нетрудно показать (смотри ниже), что пороговая степень функции в обозначениях {0,1} и в обозначениях {—1, +1} совпадает. Для длин и весов это неверно (теоремы I, II и III ниже).

Изучение пороговых элементов началось в 1968 году с книги Минского и Пейперта5,6. С тех пор понятие пороговой степени неоднократно использоваг лось в доказательствах нижних оценок на размер схем и, вообще, в изучении сложностных классов7,8,9,10,11. С помощью нижних оценок на пороговую степень были получены важные нижние оценки в коммуникационной сложности, в частности, доказана теорема о пороговой степени и спектральной норме12,13 и получены продвижения в изучении знакового ранга14,15. Наконец, в вычислительной теории обучения, понятие пороговой степени использова-

5Marvin L. Minsky and Seymour A. Papert. Percepirons: Expanded edition. №T Press, Cambridge, Mass., 1988.

6Марвин Минский и Сеймур Пейперт. Персептроны. Издательство "Мир Москва, 1971.

7Ramamohan Paturi and Michael E. Saks. Approximating threshold circuits by rational functions. Inf. Comput., 112(2):257-272, 1994.

8Kai-Yeung Sin, Vwani P. Roychowdhury, and Thomas Kailath. Rational approximation techniques for analysis of neural networks. IEEE Transactions on Information Theory, 40(2):455-466, 1994.

9James Aspnes, Richard Beigel, Merrick L. Furst, and Steven Rudich. The expressive power of voting polynomials. ComUnatorica, 14(2):135-148, 1994.

10Richard Beigel, Nick Reingold, and Daniel A. Spielman. PP is closed under intersection. J. Comput Syst. Sci., 50(2):19l—202, 1995.

"Matthias Krause and Pavel Pudlik. On the computational power of depth-2 circuits with threshold and modulo gates. Theor. Comput. Sci., 174(1-2):137-156, 1997.

12 Alexander A. Sherstov. Separating AC0 from depth-2 majority circuits. In Proc. of the 39th Symposium on Theory of Computing (STOC), pages 294-301, 2007.

13Alexander A. Sherstov. The pattern matrix method for lower bounds on quantum communication. In Proc. of the 40th Symposium on Theory of Computing (STOC), pages 85-94, 2008.

14 Alexander A. Sherstov. The unbounded-error communication complexity of symmetric functions. In Proc. of the 49th Symposium on Foundations of Computer Science (FOCS), pages 384-393, 2008.

15Alexander A. Ra2borov and Alexander A. Sherstov. The sign-rank of AC0. In Proc. of the 49th Symposium on Foundations of Computer Science (FOCS), pages 57-66, 2008.

лось в нескольких ключевых алгоритмах16,17 и нижних оценках18.

Кроме пороговой степени, книга Минского и Пейперта также положила начало активному изучению понятия порогового веса и его приложений. Впоследствии понятие порогового веса не раз возникало в вычислительной теории обучения19,20,21 и в теории сложности, включая оракульные разделения22,23 и нижние оценки на коммуникационую сложность24. Наконец, пороговый вес изучался как самостоятельная мера сложности. Было разработано множество аналитических и комбинаторных методов для доказательства нижних оценок на пороговый Вес25,26,27,28,29'30,31.

Не менее активно изучалось понятие пороговой длины, смотри

IeAdam R. Klivans and Rocco A. Servedio. Learning DNF in time 26<"'/s>. J. Comput. Syst. Sci., 68(2) ;303-318, 2004.

17Ryan O'Donnell and Rocco A. Servedio. New degree bounds for polynomial threshold functions. In Proc. of the S5th Symposium on Theory of Computing (STOC), pages 325-334, 2003.

leAdam R. Klivans and Alexander A. Sherstov. Unconditional lower bounds for learning intersections of halfspaces. Machine Learning, 69(2-3):97-114, 2007.

"Jeffrey Charles Jackson. The harmonic sieve: A novel application of Fourier analysis to machine learning theory and practice. PhD thesis, Carnegie Mellon University, 1995.

20Adam R. Klivans, Ryan O'Donnell, and Rocco A. Servedio. Learning intersections and thresholds of halfspaces. J. Comput. Syst. Sci., 68(4):808-840, 2004.

21 Adam R. Klivans and Rocco A. Servedio. Toward attribute efficient learning of decision lists and parities. J. Machine Learning Research, 7:587-602, 2006.

22Richard Beigel. Perceptrons, PP, and the polynomial hierarchy. Computational Complexity, 4:339-349,1994.

^Nikolai K. Vereshchagin. Lower bounds for perceptrons solving some separation problems and oracle separation of AM from PP. In Proc. of the Third Israel Symposium on Theory of Computing and Systems (ISTCS), pages 46-51, 1995.

24 Harry Buhrman, Nikolai K. Vereshchagin, and Ronald de Wolf. On computation and communication with small bias. In Proc. of the 22nd Conf. on Computational Complexity (CCC), pages 24-32, 2007.

25 Jehoshua Brack. Harmonic analysis of polynomial threshold functions. SIAM J. Discrete Math., 3(2):16S-177, 1990.

2eKai-Yeung Siu and Jehoshua Brack. On the power of threshold circuits with small weights. SIAM J. Discrete Math., 4(3):423-435, 1991.

27 Jehoshua Bruck and Roman Smolensky. Polynomial threshold functions, AC0 functions, and spectral norms. SIAM J. Comput., 21(l):33—42, 1992.

28Mikael Goldmann, Johan HSstad, and Alexander A. Razborov. Majority gates vs. general weighted threshold gates. Computational Complexity, 2:277-300, 1992.

^Matthias Krause and Pavel Pudldk. Computing Boolean functions by polynomials and threshold circuits. Comput. Complex., 7(4):346-370, 1998.

^Matthias Krause. On the computational power of Boolean decision lists. Computational Complexity, 14(4):362-375, 2006.

31 Adam R. Klivans and Alexander A. Sherstov. Unconditional lower bounds for learning intersections of halfspaces. Machine Learning, 69(2-3):97-114, 2007.

например32,33,34'35'36.

Кроме уже упомянутых исследований, интересовались также и соотношениями между степенями и весами пороговых элементов для заданных функций. Типы булевых функций, изучавшихся с этой точки зрения, включают линейные пороговые элементы37,38,39, списки разрешения40, формулы в виде ДНФ41.

Цель работы. Доказательство оценок на вес пороговых элементов для заг данной функции, изучение соотношений между степенью и весом таких пороговых элементов, разработка методов оценки веса пороговых элементов.

Методы исследования. В диссертации применяются методы теории приближений, преобразования Фурье, и некоторый комбинаторный метод, разработанный автором.

Научная новизна. Все результаты диссертации являются новыми, среди них:

1. Для всех d и п построена булева функция от п переменных пороговой степени d, такая что вес любого порогового элемента степени d для этой функции не меньше Эта оценка неулучшаема. Этот результат верен как для обозначений {0,1}, так и для обозначений {—1, +1} для булевых переменных.

32Jehoshua Brack. Harmonic analysis of polynomial threshold functions. SIAM J. Discrete Math., 3(2):168-177, 1990.

33Mikael Goldmann, Johan IIAstad, and Alexander A. Razborov. Majority gates vs. general weighted threshold gates. Computational Complexity, 2:277-300, 1992.

MMikael Goldmann. On the power of a threshold gate at the top. Inf. Process. Lett., 63(6):287-293, 1997.

35Matthias Krause and Pavel PudlAk. Computing Boolean functions by polynomials and threshold circuits. Comput. Complex., 7(4):346-370, 1998.

38Adam R. Klivans and Alexander A. Sherstov. Unconditional lower bounds for learning intersections of halfspaces. Machine Learning, 69(2-3):97-114, 2007.

37Kei-Yeung Siu and Jehoshua Bruck. On the power of threshold circuits with small weights. SIAM J. Discrete Math., 4(3):423—435, 1991.

^Mibael Goldmann, Johan H£stad, and Alexander A. Rasborov. Majority gates vs. general weighted threshold gates. Computational Complexity, 2:277-300, 1992.

39 Johan Hastad. On the size of weights for threshold gates. SIAM J. Discret. Math., 7(3):484-492, 1994.

"Richard Beigel. Perceptrons, PP, and the polynomial hierarchy. Computational Complexity, 4:339-349, 1994.

41 Nikolai K. Vereshchagin. Lower bounds for perceptions solving some separation problems and отас1е separation of AM from PP. In JProc. of the Third Israel Symposium on Theory of Computing and Systems (ISTCS), pages 46-51,1995.

2. Построена булева функция от п переменных пороговой степени d, для которой не только пороговые элементы степени d имеют большой вес, но и пороговые элементы бблылих степеней D имеют большой вес (такая функция построена для всех п и для большого числа различных d). Этот результат верен как для обозначений {0,1}, так и для обозначений {—1, +1} для булевых переменных.

3. Для каждого d и каждого п построена булева функция от п переменных пороговой степени d, вычислимая пороговым элементом степени d + 1 с весом 0(п2), и такая что вес любого порогового элемента степени d для этой функции не меньше Этот результат верен для обозначений {—1, +1} для булевых переменных.

4. Аналогичный результат получен для длины пороговых элементов: для каждого d и каждого п построена булева функция от п переменных пороговой степени d, вычислимая пороговым элементом степени <¿+1 с длиной 0(d), и такая что длина любого порогового элемента степени d для этой функции не меньше Этот результат верен для обозначений {—1, +1} для булевых переменных.

Теоретическая и практическая ценность. Диссертация имеет теоретический характер. Полученные результаты и методы исследований могут быть применены в некоторых разделах математической логики и теории алгоритм мов, а именно в теории сложности вычислений и вычислительной теории обучения.

Апробация работы. Результаты диссертации докладывались на следующих семинарах и конференциях:

• Научно-исследовательский семинар по математической логике под руководством академика РАН С.И. Адяна, чл.-корр. РАН Л. Д. Беклемишева, проф. В. А. Успенского (2009).

• Семинар "Алгоритмические вопросы алгебры и логики" под руководством академика РАН С.И. Адяна (2008, 2009).

• "Колмогоровский семинар по сложности вычислений и сложности определений" под руководством проф. Н.К. Верещагина, к.ф.-м.н. А.Е. Рома-щенко, чл.-корр. РАН A.JI. Семёнова, к.ф.-м.н. А.Х. Шеня (2007, 2008, 2009).

• II Международная конференция "Computer Science in Russia" (г. Екатеринбург, УрГУ, 3-7 сентября 2007 г.).

• III Международная конференция "Computer Science in Russia" (г. Москва, 7-12 июня 2008 г.).

• Семинар по сложности определений, описаний и доказательств, и по алгоритмам (Workshop on computational, descriptive and proof complexity, and algorithms) (г. Москва, НМУ, 29-31 августа 2007 г.)

• XXIX Конференции молодых учёных (г. Москва, МГУ, 18 апреля 2007 г.).

Публикации. Основные результаты диссертации опубликованы в четырех работах автора [1-4].

Структура и объем работы. Диссертация состоит из введения и четырех глав. Текст диссертации изложен на 76 страницах. Список литературы включает 36 наименований.

Краткое содержание работы

Мы будем нумеровать цитируемые результаты заглавными римскими цифрами, а результаты автора - арабскими цифрами.

Когда мы говорим о булевой функции /, мы обычно подразумеваем, что задана последовательность булевых функций, где функция /п имеет п

входных переменных. Мы будем изучать, как ведут себя различные величины, связанные с булевой функцией /, при п стремящемся к бесконечности.

Мы используем следующие стандартные обозначения для асимптотического поведения функций. Пусть / :N—Тогда

• f(n) = 0(д{п)) означает, что 3С 3NVn> N |/(n)| < С\д(п)\-

• f(n) = ü(g(n)) означает, что Эс > 0 3N Vn > N |/(n)| ^ ф(п)|;

• f(n) = 6(з(п)) означает, что Зс,С > О 3N Уп > N ф(п)| < |/(п)| < С\д(п)[,

• f(n) — о(д[п)) означает, что Vc > 0 3N Vn > N |/(п)| < ф(п)|;

Напомним основное определение работы. Пороговым элементом степени d для булевой функции /: {—1, +1}" —► {—1, +1} называется всякое выражение вида

fix) = sgnpix),

где р(х) - целочисленный многочлен степени d, a sgn обозначает знаковую функцию: sgn(t) = 1, если t положительно, sgn(t) = 0, если t = 0, и sgnit) = —1 иначе. Другими словами, пороговым элементом степени d для / называется целочисленный многочлен, знаковая функция которого совпадает с /. Аналогично, пороговым элементом степени d для булевой функции /: {0,1}" —► {0,1} называется выражение вида

1 + sgnp (х) 2 '

где р(х) - целочисленный многочлен степени d. То есть, многочлен положителен, когда функция принимает значение 1, и отрицателен иначе.

Заметим, что всякую булеву функцию (в обоих обозначениях) можно реализовать пороговым элементом некоторой степени просто потому, что любую булеву функцию можно записать в виде многочлена с рациональными коэффициентами.

Для всякого b G {0,1} верно Ъ2 = Ь, а для всякого Ь € {—1,-Ы} верно Ь2 = 1. Поэтому пороговый элемент для всякой функции в любом из двух обозначений, всегда можно считать мультилинейным (то есть линейньм по каждой переменной).

Особую значимость имеют следующие частные случаи общего понятия порогового элемента. Линейным пороговым элементом называется пороговый элемент степени 1. Обобщенной функцией голосования называется линейный пороговый элемент, у которого все коэффициенты равны ±1.

Кроме степени, есть еще два важных параметра порогового элемента: вес и длина. Весом порогового элемента называется сумма абсолютных значений коэффициентов соответствующего многочлена. Длиной порогового элемента

называется число одночленов в соответствующем многочлене. Длина порогового элемента не превышает его веса, так как все коэффициенты многочлена целые.

С тремя параметрами порогового элемента связаны три меры сложности булевой функции (в каждой из систем обозначений): минимальная степень порогового элемента для этой функции, называемая пороговой степенью, минимальный вес порогового элемента для этой функции, называемый пороговым весом, и минимальная длина порогового элемента для этой функции, называемая пороговой длиной. Пороговую степень булевой функции / мы будем обозначать через (мы скоро докажем, что это определение не зави-

сит от обозначений). Заметим, что поскольку всякую булеву функцию можно реализовать пороговым элементом, и пороговые элементы всегда можно считать мультилинейными, для всякой булевой функции / от п переменных < п.

Нас главным образом будут интересовать соотношения между весом и степенью пороговых элементов для заданных булевых функций, а также соотношения между длиной и степенью пороговых элементов для заданных булевых функций. Для изучения таких соотношений удобны следующие обозначения. Будем обозначать через И/од(/, (¿) ¿)) минимальный вес порогового

элемента степени не выше (1 для функции / в обозначениях {0,1} (в обозначениях {—1,+1}, соответственно). Будем обозначать через ¿од(Л (£±1 (/, минимальную длину порогового элемента степени не выше й для функции / в обозначениях {0,1} (в обозначениях {—1,+1}, соответственно). Эти понятия определены, только в случае (1 ^ Иногда будет не важно, в каких именно обозначениях мы рассматриваем булеву функцию или обозначения будут ясны из контекста. Тогда мы будем писать просто й) и (1).

Сразу заметим, что если deg(/) ^ <¿1 ^ ¿2, то из определения видно, что Щ/Л) > и > Ь(1,(12). То есть величины Ш{/,(!} и £,(/, ¿)

(в обоих обозначениях булевых переменных) не могут увеличиваться при росте й.

Реализация булевых функций пороговыми элементами соответствует реализации булевых функций булевыми схемами специального вида. Более точно, пусть Т — некоторое семейство булевых функций. Персептроном в базисе Т называется булева схема глубины 2 с линейным пороговым элементом на верх-

Ж,з Х\ Ху Хз Хъ Х$ ... Ху Х% Х4

нем уровне и с произвольными булевыми функциями /1,..., Д из Т на нижнем уровне (смотри рисунок).

Нетрудно заметить, что пороговый элемент для булевой функции в обозначениях {0,1} соответствует линейной пороговой функции, в которую подставили произведения переменных. Так как произведете булевых переменных в обозначениях {0,1} соответствует их конъюнкции, мы получаем, что пороговый элемент для булевой функции в обозначениях {0,1} соответствует пер-септрону в базисе из конъюнкций. Произведению переменных в обозначениях {—1, +1} соответствует их сумма по модулю два, поэтому пороговый элемент для булевой функции в этих обозначениях соответствует персептрону в базисе из функций логического сложения Заметим, что длина порогового элемента соответствует размеру персептрона (числу ребер в нем), точнее эти величины отличаются не более чем вп + 1 раз. Если же мы потребуем, чтобы на верхнем уровне персептрона была не линейная пороговая функция, а обобщенная функция голосования, то размеру схемы будет соответствовать вес порогового элемента.

Пороговым элементам степени не выше некоторого Л соответствуют пер-септроны, базис которых сужается до функций с входной степенью не выше д..

Таким образом, пороговые элементы можно рассматривать как схемы из различных элементов специального вида. Как обычно для булевых схем, полиномиальный размер схемы считается небольшим, а экспоненциальный размер - большим.

Реализация булевых функций пороговыми элементами в обозначениях {0,1} и в обозначениях {—1, +1} - это, вообще говоря, разные реализации. Это видно

хотя бы по соответствующим булевым схемам. Однако, между реализациями в разных обозначениях есть связь. Сейчас мы приведем известные результаты на эту тему.

Сначала установим соотношение между переменными в обозначениях {0,1} и {—1,+1}. Будем обозначать булеву переменную в обозначениях {—1, +1} через Ь, а ту же булеву переменную в обозначениях {0,1} через Ь*. Тогда, легко проверить, что 6* = |(1 — Ь) (напомним, что "истине" соответствует 1 в обозначениях {0,1} и —1 в обозначениях {—1, +1})- Обратно, 6 = 1 — 26*.

Предположим теперь, что р(хi,..., хп) - пороговый элемент степени d для функции / в обозначениях {—1, +1}. Тогда ясно, что многочлен р(1—2x1, 2а:*) будет пороговым элементом степени d для / в обозначениях {0,1}. Обратно, если .. -, £*) - пороговый элемент степени d для функции f в обозначениях {0,1}, то 2dp(|(l — ii),...,|(1 — хп)) - пороговый элемент степени d для функции / в обозначениях {—1, +1} (множитель 2d нужен, чтобы сделать коэффициенты многочлена целыми, так как после замены переменных они имеют вид Щ, где т — целое, a fc < d).

Таким образом, по всякому пороговому элементу для заданной функции в одних обозначениях, можно легко построить пороговый элемент для той же функции в других обозначениях, причем при этом переходе степень порогового элемента не возрастает. Следовательно, deg(/) не зависит от обозначений, в которых мы реализуем функцию / пороговыми элементами.

Что касается порогового веса и пороговой длины, то, вообще говоря, при заменах обозначений, описанных выше, они могут сильно измениться, и априори не ясно, есть ли какие-то соотношения между пороговыми весами функции / в разных обозначениях, и есть ли соотношения между пороговыми длинами функции f в разных обозначениях.

Мы приведем здесь известные результаты о таких соотношениях. Про пороговую длину известно, что она может сильно меняться при смене обозначений. В работе Гольдмана42 была доказана следующая теорема.

Теорема I (Гольдман). Функция логического сложения ® от п переменных имеет, пороговую длину 1 в обозначениях {—1,+1} и экспоненциальную (от числа переменных) пороговую длину в обозначениях {0,1}.

42Miteel Goldmann. On the power of a threshold gate at the top. Inf. Process. Lett., 63(6):287-293, 1997.

Первое утверждение этой теоремы несложно, так как легко увидеть, что (BiX{ = ]П[; Х{ в обозначениях {—1, +1}- Существенной частью этого результата является нижняя оценка на длину пороговых элементов в обозначениях {0,1}. С другой стороны, в работе43 была доказана следующая теорема.

Теорема II (Краузе, Пудлак). Существует (явпо заданная) функция полиномиальной пороговой длины в обозначениях {0,1}, но экспоненциальной пороговой длины в обозначениях {—1,+1}.

Ситуация с весами другая. Теорема I легко переносится на веса пороговых элементов. Действительно, функция логического сложения представима пороговым элементом с весом 1, а с другой стороны, пороговый вес всегда не меньше пороговой длины, так что функция логического сложения имеет экспоненциальный пороговый вес в обозначениях {0,1}. Однако, в обратную сторону, в работе44 был доказан следующий результат.

Теорема III (Краузе, Пудлак). Всякая функция от п переменных с пороговым весом W в обозначениях {0,1} имеет пороговый вес 0(п2И/4) в обозначениях {—1,+1}.

Так что, если существует пороговый элемент полиномиального веса для некоторой функции в обозначениях {0,1}, то такой же пороговый элемент существует для этой функции и в обозначениях {—1,+1}. Отметим также, что из доказательства в работе45 следует также такой результат.

Теорема IV (Краузе, Пудлак). Для всякой функции f и всякого d ^ deg(/) верно W±i(f, d) < 0(гг2И/од(/, d))

Таким образом, соотношение из теоремы III между пороговыми весами заданной функций / в различных обозначениях верно также и для величин W±1(f, d) и W0>i(f, d).

Наконец, пусть булева функция / от п переменных представима пороговым элементом р(х), степень которого постоянна и не зависит от п. Тогда путем

43Matthias Krause and Pavel Pudläk. Computing Boolean functions by polynomials and threshold circuits. Comput. Complex., 7(4):346-370, 1998.

44Matthias Krause and Pavel Pudläk. Computing Boolean fimctions by polynomials and threshold circuits. Comput. Complex., 7(4):346-370, 1998.

"Matthias Krause and Pavel Pudlak. Computing Boolean functions by polynomials and threshold circuits. Comput Complex., 7(4):346-370, 1998.

раскрытия скобок в заменах переменных, описанных ранее, легко увидеть, что вес порогового элемента увеличивается не более чем в константу раз при таких заменах. То есть, верно следующее утверждение.

Лемма V (Фольклор). Если функция f от п переменных представима пороговым элементом постоянной, не зависящей от п, степени d, то Wo,i(/, d) —

е(Жн (/,<*))■

Таким образом, если нас интересует величина W(f,d), где d - постоянно и не зависит от числа переменных п, то не имеет значения в каких обозначениях рассматривается функция (все результаты у нас будут с точностью до постоянного множителя).

Перейдем к обзору истории изучаемых вопросов и содержания диссертации.

Во Введении показывается актуальность исследуемых вопросов, содержится краткое изложение истории их изучения и обзор результатов диссертации.

В главе 1 сформулированны основные определения и собраны известные результаты, используемые в доказательстве.

В работе мы будем интересоваться величиной W(f, d) (в тех или иных обозначениях) для фиксированной функции / и различных d, для которых понятие W(f, d) корректно. Мы будем доказывать верхние и нижние оценки на эту величину.

Еще в 60-х годах были получены нижние оценки вида на веса пороговых элементов степени d = 1 (то есть, линейных пороговых элементов) для конкретных функций (первый такой результат был получен в46). Однако, они не достигали известной верхней оценки доказанной в работе Муроги47

(смотри также48).

Теорема VI (Мурога). Для всякой булевой функции f от п переменных, если deg(/) = 1, то W(f, 1) =

Позднее Хостад49 доказал точную (вплоть до константы в экспоненте) нижнюю оценку.

48 J. Myhill and W. H. Kautz. On the size of weights required for linear-input switching functions. IRE Trans, on Electronic Computers, 10(2):288-290, 1961.

47Saburo Muroga. Threshold logic and its applications. Wiley-Interecience, Chichester, 1971.

48 Johan Hâstad. On the size of weights for threshold gates. SIAM J. Discret. Math., 7(3):484-492, 1994.

48 Johan Hâstad. On the size of weights for threshold gates. SIAM J. Discret. Math., 7(3):484-492, 1994.

Теорема VII (Хостад). Существует (явно заданная) функция f от п переменных такая что deg(/) = 1 и W(f, 1) = пр(п\

Для случая d > 1 из теоремы VI легко получается верхняя оценка п0^ на веса пороговых элементов степени d для заданных функций.

Следствие VIII. Для всякой булевой функции f от тг переменных, если deg(/) = d, то W(f,d) = п0^ (здесь константа в О зависит от d).

Действительно, в пороговом элементе степени d не более 0(nd) одночленов. Заменим их на новые независимые переменные. Тогда мы получим линейный пороговый элемент от 0(nd) переменных. Согласно теореме VI, он эквивалентен некоторому пороговому элементу с весом n°(dni\ Заменяя в новом линейном пороговом элементе переменные обратно на одночлены, мы получаем требуемую оценку.

В главе 2 мы доказываем, что эта верхняя оценка точна.

Теорема 1. Для всякого d существует (явно заданная) булева функция f такая что deg(/) = d, и W(/, d) — пР^ (константа в О зависит от d).

Эта теорема не получается из теоремы VII также легко, как следствие VIII из теоремы VI. До этого результата для пороговых элементов степени d > 1 не было известно нижних оценок лучше, чем 2ПМ.

В параграфе 2.1 мы строим нашу функцию. В параграфе 2.2 мы доказываем теорему 1. В доказательстве мы используем конструкцию Хостада из теоремы VII в сочетании с новым методом комбинаторного характера.

В главе 2 мы работаем в обозначениях {—1,-Ы}, однако, поскольку наш результат распространяется только на постоянные d (не зависящие от тг), то, по лемме V, выбор обозначений в данном результате не имеет значения, результат автоматически переносится и на обозначения {0,1}.

Кроме оценок весов пороговых элементов для некоторого фиксированного d, перечисленных выше, были известны также результаты, в которых для одной и той же функции доказывается нижняя оценка на веса пороговых элементов различных степеней. В работе50 была доказана следующая теорема.

50Milcae! Goldmann, Johan Hástad, and Alexander A. Razborov. Majority gatea vs. genera! weighted threshold gates. Computational Complexity, 2:277-300, 1992.

Теорема IX (Гольдман и др.). Существует (явно заданная■) функция пороговой степени 1, и такая что W(f, п) = it W(/, 1) =

То есть, эту функцию можно вычислить линейным пороговым элементом экспоненциального веса, и при этом всякий пороговый элемент произвольной степени для этой функции имеет экспоненциальный вес. Рассмотренная в этой теореме функция в некотором смысле самая сложная функция среди всех функций, представимых пороговыми элементами. Этот результат был доказан в обозначениях {—1, +1}, однако в силу теоремы III, он распространяется и на обозначения {0,1}.

В работе51 была доказана следующая теорема.

Теорема X (Бейгель). Существует (явно заданная) функция f от п переменных, такая что deg(/) = 1, W{f, 1) = 2°^ и для всякого D верно W(f,D) = (здесь константа в £l(n/D2) не зависит от D).

Этот результат был получен в связи с разделением некоторых сложностных классов. Теорема X была доказана в обозначениях {0,1}, но она не переносится автоматически на обозначения {—1, +1} с помощью леммы V, так как результат верен и для D зависящих от п. Однако, доказательство Бейгеля легко переносится и на обозначения {—1, +1}.

В главе 3 мы докажем результат, аналогичный теореме X для функций ббльших пороговых степеней.

Теорема 2. Для всех п и d < D < где е - некоторая положительная константа, существует (явно заданная) функция /, такая что deg(/) = d, W{f, d) = и W(f, D) = , где 8 - некоторая положительная

константа.

Заметим, что этот результат не полностью обобщает результат Бейгеля, так как построенная нами функция зависит от D, а также показатель экспоненты содержит D4 (при d = 1), а не D2.

Теорема 2 содержательна и для непостоянных D. Например, мы можем зафиксировать произвольное d и положить D — log п. Тогда мы получаем последовательность функций }п: {0,1}п —> {0,1} пороговой степени d, таких что всякий пороговый элемент степени не выше logn, вычисляющий /„, имеет

51 Richard Beigel. Perceptions, РР, and the polynomial hierarchy. Computational Complexity, 4:339-349,1994.

вес 2iî("''/Iog4<'n). В частности, эта оценка верна для всех пороговых элементов любой постоянной степени.

Доказательство теоремы 2, также как и теоремы X, проходит в обозначениях {0,1}. Однако, так же, как и в случае теоремы X, доказательство легко переносится и на обозначения {-1,4-1}.

Получение оценок на веса пороговых элементов интересно также и для функций из ограниченных классов. В главе 3 мы рассмотрим один из самых простых таких классов (в том смысле, что функции, лежащие в нем, вычислимы булевыми схемами очень ограниченного вида), а именно дизъюнктивные нормальные формы (ДНФ) полиномиального (от числа переменных) размера. Этот класс активно изучался в теории обучения, в частности, и с точки зрения пороговой степени и порогового веса (смотри работу52 и ссылки в ней). Известно, что для всякой полиномиальной ДНФ в обозначениях {0,1} есть пороговый элемент степени 0(n^2logn) с весом 20("1/2 los2")) а также пороговый элемент степени logn)53. Функция из теоремы X также представима в

виде полиномиальной ДНФ.

Мы докажем, что если d постоянно, то существуют полиномиальные ДНФ, удовлетворяющие теореме 2. Это дает первую более чем экспоненциальную оценку (большую, чем 2П^) на веса пороговых элементов для функций, пред-ставимых в виде полиномиальных ДНФ.

В параграфе 3.1 мы строим функции, удовлетворяющие теореме 2. В параграфе 3.2 мы изучаем вопросы, связанные с представлением этих функций в виде ДНФ. В параграфе 3.3 мы формулируем основной результат этой главы и приступаем к доказательству. В параграфе 3.4 мы неформально описывав-ем основные идеи доказательства теоремы 2. В параграфе 3.5 мы доказываем необходимые вспомогательные результаты. В параграфе 3.6 мы доказываем теорему 2 и формулируем следствия из нее. Доказательство получается развитием метода, использованного для доказательства теоремы 1.

Можно заметить, что для функции, построенной в теореме IX, величина W(f, d) меняется плавно при изменении d. То есть, при увеличении d на 1

"Adam R. Klivans and Rocco A. Servedio. Learning DNF in time 2°in"">. J. Comput. Syst. Sei., 68(2):303-318, 2004.

53 Adam R. Kli-vans and Rocco A. Servedio. Learning DNF intime 201J. Comput. Syst. Sei., 68(2):303-318, 2004.

величина W(f, d) для этих функций уменьшается не более чем полиномиально. Для функции из теоремы X W(f, d) слабо меняется при d близких к 1 (в действительности, в работе54 доказывается, что оценка в теореме X близка к точной для всех d = 0{nl!3), так что W(f, d) для функции из этой теоремы меняется плавно для всех d не превышающих 0(п1/3)). Для функции из теоремы 2 W(f, d) слабо меняется при D близких к d. Возникает вопрос, возможна ли обратная ситуация. То есть, существуют ли функции /, для которых величина W(f, d) сильно изменяется при небольших изменениях d? В главе 4 мы даем положительный ответ на этот вопрос. Результаты главы 4 справедливы в обозначениях {—1, +1}, и это существенно используется в доказательстве. Не известно, можно ли перенести эти результаты на обозначения {0,1}.

Теорема 3. Для всех п и для всякого d = 1,2,..., п — 1 (d может зависеть отп) существует (явно заданная) функция /: {—1,+1}п —► {—1,4-1}, такая что

W(f,d) = exр{в(п)}

и

W(f, d + 1) = 0(n2)

(постоянные в 6 и О не зависят от d).

Другими словами, мы покажем, что требующийся вес пороговых элементов для заданной функции может сильно измениться в ответ на небольшие изменения степени пороговых элементов. Этот результат опубликован в совместной работе [2]. Для d < en, где е - некоторая константа, результат теоремы доказана автором. Для d > en результат теоремы доказан А. А. Шерстовым.

Кроме того, мы доказываем результат, аналогичный теореме 3, для пороговой длины.

Теорема 4. Для всех п и для всякого d = 1,2,..., п — 1 (d может зависеть отп) существует (явно заданная) функция /: {—1,+1}п —► {—1,+1}, такая что

L(/,d)=exp{B(d)}

и

L{f,d + l) = 0(d).

MAdam R. Klivans and Rocco A. Servedio. Toward attribute efficient learning of decision lists and parities. J. Machine Learning Research, 7:587-602, 2006.

Оценка на Ь(/, ¿) в этом результате близка к оптимальной, так как существует не более (п +1)^ одночленов степени не выше То есть, длина всякого порогового элемента степени не выше <1 не превышает (га + 1)^.

Наконец, мы доказываем следующее обобщение теоремы 3.

Теорема 5. Для всех п и для всяких ¿ = 1,2,..., п—1 и к = 1,2,..., тах{<2, п— ¿}, существует (явно заданная) функция / : {—1,+1}™ —» {—1,+1}, такая что

\У{/, й) = <1 + 1) = • • • = й + к- 1) =

и

В этой теореме для (1 ^ еп, где е - некоторая константа, доказательство принадлежит автору. Для с1> еп доказательство принадлежит А. А. Шерсто-ву.

Доказательство результатов главы 4 сочетает в себе технику преобразоваг ний Фурье, линейной алгебры и теории приближений.

В параграфе 4.1 мы формулируем основные результаты главы. В параграфе 4.2 мы доказываем вспомогательные соотношения между различными параметрами булевых функций. В параграфе 4.3 мы доказываем вспомогательный результат о пороговых элементах для функций, спектр которых не равен нулю лишь на афинном подпространстве Щ. В параграфе 4.4 мы доказывай основной результат главы для случая (1 < еп, где е - некоторая константа. Результат доказывается сначала для ¿= 1, а. затем с помощью результатов параграфа 4.3 обобщается на все <1 < еп. В параграфе 4.5 мы доказываем основной результат главы доя случая <1 > еп, а также теорему 4. Для этого мы используем совершенно другую технику. В параграфе 4.6 мы доказываем основной результат этой главы, а также его обобщения.

Благодарности.

Автор выражает глубокую благодарность своему научному руководителю доктору физико-математических наук, профессору Николаю Константиновичу Верещагину за постановку задач и помощь в работе. Автор благодарит академика РАН Сергея Ивановича Адяна за внимание к работе. Автор признателен участникам "Колмогоровского семинара по сложности вычислений и сложности описаний" и участникам семинара "Алгоритмические вопросы

алгебры и логики" за полезные обсуждения. Автор также благодарен всем сотрудникам кафедры математической логики и теории алгоритмов за теплую творческую атмосферу.

Список литературы

[1] В. В. Подольский. Перцептроны с большим весом. Проблемы передачи информации, 45(1):51-59, 2009.

[2] В. В. Подольский, А. А. Шерстов. Уменьшение на единицу степени многочлена с заданной знаковой функцией может экспоненциально увеличить его вес и длину. Успехи математических наук, 69(5): 179-180, 2009.

¡3] Vladimir V. Podolskii. Perceptions of large weight. In Proc. of the Second International Computer Science Symposium in Russia (CSR), pages 328-336, 2007.

[4j Vladimir V. Podolskii. A uniform lower bound on weights of perceptions. In Proc. of the Third International Computer Science Symposium in Russia (CSR), pages 261-272, 2008.

В работе [2] В. В. Подольскому принадлежат теоремы 3 и 4; А. А. Шерстову принадлежат теоремы 2 и 5; теорема 1 непосредственно вытекает из теорем 4 и 5.

Подписано в печать ге.Ю.аз Формат 60x90 1/16. Усл. печ. л. ¡,2$ Тираж 10Р экз. Заказ ЬО

Отпечатано с оригинал-макета на типографском оборудовании механико-математического факультета МГУ имениМ. В. Ломоносова

 
Содержание диссертации автор исследовательской работы: кандидата физико-математических наук, Подольский, Владимир Владимирович

Введение

1 Предварительные сведения

2 Нижняя оценка на веса пороговых элементов

2.1 Построение функции.

2.2 Основной результат

3 Однородная нижняя оценка на веса пороговых элементов

3.1 Построение функции.

3.2 Представление ОМВ^ в виде ДНФ.

3.3 Основной результат.'

3.4 План доказательства.

3.5 Вспомогательные результаты.

3.6 Доказательство основного результата.

4 Увеличение степени пороговых элементов на 1 может сильно уменьшить их вес

4.1 Формулировка результатов.

4.2 Соотношения между характеристиками функций

4.3 О функциях с афинно разреженным спектром.

4.4 Случай маленькой степени.

4.5 Случай большой степени

4.6 Основной результат и его обобщения.

 
Введение диссертация по математике, на тему "Оценки весов персептронов"

Работа относится к области сложности вычислений, одному из разделов математической логики и теории алгоритмов. Более конкретно, мы исследуем некоторый способ реализации булевых функций многочленами и вопросы сложности такой реализации.

Реализация булевых функций действительными многочленами играет важную роль в теории сложности, начиная от сложности вычислений и заканчивая квантовыми вычислениями и теорией обучения [3, 29, 8', 31] В данной работе мы рассматриваем один из таких способов реализации, а именно пороговые элементы и связанные с ними меры сложности: пороговую степень, пороговый вес и пороговую длину.

Булева функция /: {0,1}п —» {0,1} называется знаковой функцией целочисленного многочлена р степени в, от п переменных, если

17(а;) = 1 р(а;) > 0 \/(х)=0=>р(х)<0 для всех х Е {0,1}п. При этом многочлен р называется пороговым элементом степени <1 для булевой функции /: {0,1}п —> {0,1}. Весом порогового элемента называется сумма модулей коэффициентов многочлена р, а длиной порогового элемента называется число мономов в многочлене р. Заметим, что обычно пороговым элементом называют то, что мы называем пороговым элементом степени 1. Чтобы избежать путаницы, мы будем называть пороговые элементы степени 1 линейными пороговыми элементами. Обобщенной функцией голосования называется линейный пороговый элемент, у которого все коэффициенты равны ±1.

Пороговой степенью булевой функции / называется минимальная степень порогового элемента для /. Пороговым весом булевой функции / называется минимальный вес порогового элемента для /. Пороговой длиной булевой функции / называется минимальная длина порогового элемента для /.

Кроме обозначений {0,1} для значений булевых переменных мы будем также пользоваться обозначениями {—1,+1}, где —1 соответствует "истине". В этом случае пороговым элементом степени d для функции /: {—1,+1}п —{-1,-1-1} называется целочисленный многочлен р степени d от п переменных, такой что f(x) = 1 р{х) > О f(x) = -1 р{х) < О для всякого х £ {—1,+1}п. Все те же меры сложности булевых функций определяются в этих обозначениях аналогично. Нетрудно показать (смотри ниже), что пороговая степень функции в обозначениях {0,1}.-и в обозначениях {—1, +1} совпадает. Для длин и весов это неверно (теоремы I, II и III ниже).

Изучение пороговых элементов началось в 1968 году с книги Минского и Пейперта [23, 1]. С тех пор понятие пороговой степени неоднократно использовалось в доказательствах нижних оценок на размер схем и, вообще, в изучении сложностных классов [27, 35, 2, 5, 20, 30]. С помощью нижних оценок на пороговую степень были получены важные нижние оценки в коммуникационной сложности, в частности, доказана теорема о пороговой степени и спектральной норме [30, 32] и получены продвижения в изучении знакового ранга [33, 28]. Наконец, в вычислительной теории обучения, понятие пороговой степени использовалось в нескольких ключевых алгоритмах [16, 26] и нижних оценках [18].

Кроме пороговой степени, книга Минского и Пейперта также положила начало активному изучению понятия порогового веса и его приложений. Впоследствии понятие порогового веса не раз возникало в вычислительной теории обучения [14, 15, 17] и в теории сложности, включая оракульные разделения [4, 36] и нижние оценки на коммуникационую сложность [9]. Наконец, пороговый вес изучался как самостоятельная мера сложности. Было разработано множество аналитических и комбинаторных методов для доказательства нижних оценок на пороговый вес [6, 34, 7, 11, 21, 19, 18].

Не менее активно изучалось понятие пороговой длины, смотри например [6, 11, 10, 21, 18].

Кроме уже упомянутых исследований, интересовались также и соотношениями между степенями и весами пороговых элементов для заданных функций. Типы булевых функций, изучавшихся с этой точки зрения, включают линейные пороговые элементы [34, 11,13], списки разрешения [4], формулы в виде ДНФ [36].

Далее во Введении мы будем нумеровать цитируемые результаты заглавными римскими цифрами, а результаты автора - арабскими цифрами.

Когда мы говорим о булевой функции /, мы обычно подразумеваем, что задана последовательность булевых функций, где функция fn имеет п входных переменных. Мы будем изучать, как ведут себя различные величины, связанные с булевой функцией /, при п стремящемся к бесконечности.

Мы используем следующие стандартные обозначения для асимптотического поведения функций. Пусть / : N —► N и д: N —> N. Тогда

• /(п) = 0{д{п)) означает, что 3С ЗАТ \/п > N |/(п)| < С\д(п)\\

• Кп) = означает, что Зс > О З-ЛГ \/п> N |/(п)| ^ с\д{п)\\

• /(п) = 0(д(п)) означает, что Зс, С > О 37У Уп > N с\д(п)\ < Ц(п)\ ^ С\д(п)\]

• f(тl) — о(д(п)) означает, что Ус > О ЗТУ Уп > N |/(п)| < с\д{п)\]

Заметим, что всякую булеву функцию (в обоих обозначениях) можно реализовать пороговым элементом некоторой степени просто потому, что любую булеву функцию можно записать в виде многочлена с рациональными коэффициентами.

Для всякого Ь е {0,1} верно Ъ2 = Ь, а для всякого Ъ е {-1,4-1} верно Ь2 = 1. Поэтому пороговый элемент для всякой функции в любом из двух обозначений, всегда можно считать мультилинейным (то есть линейным по каждой переменной).

Пороговую степень булевой функции / мы будем обозначать через с^(/) (мы скоро докажем, что это определение не зависит от обозначений). Заметим, что поскольку всякую булеву функцию можно реализовать пороговым элементом, и пороговые элементы всегда можно считать мультилинейными, для всякой булевой функции / от п переменных. ^ п.

Нас главным образом будут интересовать соотношения между весом и степенью пороговых элементов для заданных булевых функций, а так- • же соотношения между длиной и степенью пороговых элементов для заданных булевых функций. Для изучения таких соотношений удобны следующие обозначения. Будем обозначать через И^д(/, ¿0 (И/±1(/, с1)) минимальный вес порогового элемента степени не выше <2 для функции / в обозначениях {0,1} (в обозначениях { — 1, +1}, соответственно). Будем обозначать через £од(/, ¿0 (Ь± 1(/, ¿¿)) минимальную длину порогового элемента степени не выше в, для функции / в обозначениях {0,1} (в обозначениях {-1,4-1}, соответственно). Эти понятия определены, только в случае <1 ^ с^(/). Иногда будет не важно, в каких именно обозначениях мы рассматриваем булеву функцию или обозначения будут ясны из контекста. Тогда мы будем писать просто в) и

Сразу заметим, что если с^(/) ^ <¿1 < (1,2, то из определения видно, что ¿1) ^ 1¥(/, ) и £(/, ¿1) ^ £(/, (12). То есть величины в)

Жз XI ¿3 Жб Х8 . Х7 Х% Х4 и !/(/, с/) (в обоих обозначениях булевых переменных) не могут увеличиваться при росте й.

Реализация булевых функций пороговыми элементами соответствует реализации булевых функций булевыми схемами специального вида. Более точно, пусть Т - некоторое семейство булевых функций. Пер-септроном в базисе Т называется булева схема глубины 2 с линейным пороговым элементом на верхнем уровне и с произвольными булевыми функциями /х,., /к из Т на нижнем уровне (смотри рисунок).

Нетрудно заметить, что пороговый элемент для булевой функции в обозначениях {0,1} соответствует линейной пороговой функции, в которую подставили произведения переменных. Так как произведение булевых переменных в обозначениях {0,1} соответствует их конъюнкции, мы получаем, что пороговый элемент для булевой функции в обозначениях {0,1} соответствует персептроиу в базисе из конъюнкций. Произведению переменных в обозначениях {—1,+1} соответствует их сумма по модулю два, поэтому пороговый элемент для булевой функции в этих обозначениях соответствует персептрону в базисе из функций логического сложения ©. Заметим, что длина порогового элемента соответствует размеру персептрона (числу ребер в нем), точнее эти величины отличаются не более чем в п +1 раз. Если же мы потребуем, чтобы на верхнем уровне персептрона была не линейная пороговая функция, а обобщенная функция голосования, то размеру схемы будет соответствовать вес порогового элемента.

Пороговым элементам степени не выше некоторого Л соответствуют персептроны, базис которых сужается до функций с входной степенью не выше в,.

Таким образом, пороговые элементы можно рассматривать как схемы из различных элементов специального вида. Как обычно для булевых схем, полиномиальный размер схемы считается небольшим, а экспоненциальный размер - большим.

Реализация булевых функций пороговыми элементами в обозначениях {0,1} и в обозначениях {—1, +1} - это, вообще говоря, разные реализации. Это видно хотя бы по соответствующим булевым схемам. Однако, между реализациями в разных обозначениях есть связь. Сейчас мы приведем известные результаты на эту тему.

Сначала установим соотношение между переменными в обозначениях {0,1} и {—1, +1}- Будем обозначать булеву переменную в обозначениях {—1, +1} через Ъ, а ту же булеву переменную в обозначениях {0,1} через Ъ*. Тогда, легко проверить, что Ъ* = — 6) (напомним, что "истине" соответствует 1 в обозначениях {0,1} и —1 в обозначениях {—1,+1}). Обратно, Ь=1-2Ь*.

Предположим теперь, что р(хх,., хп) - пороговый элемент степени 11 для функции / в обозначениях {—1,4-1}. Тогда ясно, что многочлен р(1 — 2х\,., 1 — 2а;*) будет пороговым элементом степени й для / в обозначениях {0,1}. Обратно, если р{х\,., ж*) - пороговый элемент степени ¿для функции / в обозначениях {0,1}, то 2ар{\(1 — жх),., |(1 — хп)) - пороговый элемент степени 6, для функции / в обозначениях {—1, +1} (множитель 2а нужен, чтобы сделать коэффициенты многочлена целы

77? ми, так как после замены переменных они имеют вид р, где т - целое, а к ^ (¿).

Таким образом, по всякому пороговому элементу для заданной функции в одних обозначениях, можно легко построить пороговый элемент для той же функции в других обозначениях, причем при этом переходе степень порогового элемента не возрастает. Следовательно, с^(/) не зависит от обозначений, в которых мы реализуем функцию / пороговыми элементами.

Что касается порогового веса и пороговой длины, то, вообще говоря, при заменах обозначений, описанных выше, они могут сильно измениться, и априори не ясно, есть ли какие-то соотношения между пороговыми весами функции / в разных обозначениях, и есть ли соотношения между пороговыми длинами функции / в разных обозначениях.

Мы приведем здесь известные результаты о таких соотношениях. Про пороговую длину известно, что она может сильно меняться при смене обозначений. В работе Гольдмана [10] была доказана следующая теорема.

Теорема I (Гольдман). Функция логического сложения 0 от п переменных имеет пороговую длину 1 в обозначениях {—1,+1} и экспоненциальную (от числа переменных) пороговую длину в обозначениях {0,1}.

Первое утверждение этой теоремы несложно, так как легко увидеть, что @iXi = Пг^ в обозначениях {—1, +1}- Существенной частью этого результата является нижняя оценка на длину пороговых элементов в обозначениях {0,1}.

С другой стороны, в работе [21] была доказана следующая теорема.

Теорема II (Краузе, Пудлак). Существует (явно заданная) функция полиномиальной пороговой длины в обозначениях {0,1}; но экспоненциальной пороговой длины в обозначениях {—1,+1}.

Ситуация с весами другая. Теорема I легко переносится на веса пороговых элементов. Действительно, функция логического сложения пред-ставима пороговым элементом с весом 1, а с другой стороны, пороговый вес всегда не меньше пороговой длины, так что функция логического сложения имеет экспоненциальный пороговый вес в обозначениях {0,1}.

Однако, в обратную сторону, в работе [21] был доказан следующий результат.

Теорема III (Краузе, Пудлак). Всякая функция от п переменных с пороговым весом W в обозначениях {0,1} имеет пороговый вес 0{n2WA) в обозначениях {—1, +1}.

Так что, если существует пороговый элемент полиномиального веса для некоторой функции в обозначениях {0,1}, то такой же пороговый элемент существует для этой функции и в обозначениях {—1,4-1}. Отметим также, что из доказательства в работе [21] следует также такой результат.

Теорема IV (Краузе, Пудлак). Для всякой функции f и всякого d ^ deg(/) верно W±i(/, d) ^ О(п2Ж04д(/, d))

Таким образом, соотношение из теоремы III между пороговыми весами заданной функций / в различных обозначениях верно также и для величин W±1(f,d) и W0jl(f,d).

Наконец, пусть булева функция / от п переменных представима пороговым элементом р(х), степень которого постоянна и не зависит от п. Тогда путем раскрытия скобок в заменах переменных, описанных ранее, легко увидеть, что вес порогового элемента увеличивается не более чем в константу раз при таких заменах. То есть, верно следующее утверждение.

Лемма V (Фольклор). Если функция f от п переменных представима пороговым элементом постоянной, не зависящей от п, степени d, то

Таким образом, если нас интересует величина W(f, d), где d - постоянно и не зависит от числа переменных п, то не имеет значения в каких обозначениях рассматривается функция (все результаты у нас будут с точностью до постоянного множителя).

Перейдем к обзору истории изучаемых вопросов и содержания диссертации.

В главе 1 сформулированны основные определения и собраны известные результаты, используемые в доказательстве.

В работе мы будем интересоваться величиной И/(/, в) (в тех или иных обозначениях) для фиксированной функции / и различных для которых понятие (I) корректно. Мы будем доказывать верхние и нижние оценки на эту величину.

Еще в 60-х годах были получены нижние оценки вида на веса пороговых элементов степени с1 = 1 (то есть, линейных пороговых элементов) для конкретных функций (первый такой результат был получен в [25]). Однако, они не достигали известной верхней оценки доказанной в работе Муроги [24] (смотри также [13]).

Теорема VI (Мурога). Для всякой булевой функции / от п переменных, если deg(f) = 1; то 1) =

Позднее Хостад [13] доказал точную (вплоть до константы в экспоненте) нижнюю оценку.

Теорема VII (Хостад). Существует (явно заданная) функция / от п переменных такая что с^(/) = 1 и 1) =

Для случая й > 1 из теоремы VI легко получается верхняя оценка пО{пЛ) на веса пороговых элементов степени с? для заданных функций.

Следствие VIII. Для всякой булевой функции / от п переменных, если с^(/) = то \У(/, (£) = п0^ (здесь константа в О зависит от сI,).

Действительно, в пороговом элементе степени (I не более 0(пй) одночленов. Заменим их на новые независимые переменные. Тогда мы получим линейный пороговый элемент от О(п^) переменных. Согласно теореме VI, он эквивалентен некоторому пороговому элементу с весом

Заменяя в новом линейном пороговом элементе переменные обратно на одночлены, мы получаем требуемую оценку.

В главе 2 мы доказываем, что эта верхняя оценка точна.

Теорема 1. Для всякого d существует (явно заданная) булева функция f такая что deg(/) = d, и W(f, d) = п^71^ (константа в П зависит от d).

Эта теорема не получается из теоремы VII также легко, как следствие VIII из теоремы VI. До этого результата для пороговых элементов степени d > 1 не было известно нижних оценок лучше, чем

В параграфе 2.1 мы строим нашу функцию. В параграфе 2.2 мы доказываем теорему 1. В доказательстве мы используем конструкцию Хостада из теоремы VII в сочетании с новым методом комбинаторного характера.

В главе 2 мы работаем в обозначениях {—1,+1}, однако, поскольку наш результат распространяется только на постоянные d (не зависящие от гг.), то, по лемме V, выбор обозначений в данном результате не имеет значения, результат автоматически переносится и на обозначения {0,1}.

Кроме оценок весов пороговых элементов для некоторого фиксированного d, перечисленных выше, были известны также результаты, в которых для одной и той же функции доказывается нижняя оценка на веса пороговых элементов различных степеней. В работе [11] была доказана следующая теорема.

Теорема IX (Гольдман и др.). Существует (явно заданная) функция пороговой степени 1, и такая что W(f,n) = и W(f, 1) = 2°(п\

То есть, эту функцию можно вычислить линейным пороговым элементом экспоненциального веса, и при этом всякий пороговый элемент произвольной степени для этой функции имеет экспоненциальный вес. Рассмотренная в этой теореме функция в некотором смысле самая сложная функция среди всех функций, представимых пороговыми элементами. Этот результат был доказан в обозначениях {—1, +1}, однако в силу теоремы III, он распространяется и на обозначения {0,1}.

В работе [4] была доказана следующая теорема.

Теорема X (Бейгель). Существует (явно заданная) функция f от п переменных, такая что deg(/) — 1, W(f, 1) = и для всякого D верно W(f,D) = 2i^n/-c>2) (здесь константа в Q.(n/D2) не зависит от D).

Этот результат был получен в связи с разделением некоторых слож-ностных классов. Теорема X была доказана в обозначениях {0,1}, но она не переносится автоматически на обозначения {—1, +1} с помощью леммы V, так как результат верен и для D зависящих от п. Однако, доказательство Бейгеля легко переносится и на обозначения {—1,+1}.

В главе 3 мы докажем результат, аналогичный теореме X для функций больших пороговых степеней.

1/5

Теорема 2. Для всех п и d ^ D < где е - некоторая положительная константа, существует (явно заданная) функция f, такая что deg(/) = d, W(f, d) = и W(f, D) = , где 6 - некоторая положительная константа.

Заметим, что этот результат не полностью обобщает результат Бейгеля, так как построенная нами функция зависит от D, а также показатель экспоненты содержит D4 (при d = 1), а не D2.

Теорема 2 содержательна и для непостоянных D. Например, мы можем зафиксировать произвольное d и положить D — log п. Тогда мы получаем последовательность функций /п: {0,1}п —{0,1} пороговой степени d, таких что всякий пороговый элемент степени не выше log п, вычисляющий /п, имеет вес 2п(п<г/log4d п). В частности, эта оценка верна для всех пороговых элементов любой постоянной степени.

Доказательство теоремы 2, также как и теоремы X, проходит в обозначениях {0,1}. Однако, так же, как и в случае теоремы X, доказательство легко переносится и на обозначения {—1, +1}.

Получение оценок на веса пороговых элементов интересно также и для функций из ограниченных классов. В главе 3 мы рассмотрим один из самых простых таких классов (в том смысле, что функции, лежащие в нем, вычислимы булевыми схемами очень ограниченного вида), а именно дизъюнктивные нормальные формы (ДНФ) полиномиального (от числа переменных) размера. Этот класс активно изучался в теории обучения, в частности, и с точки зрения пороговой степени и порогового веса (смотри работу [16] и ссылки в ней). Известно, что для всякой полиномиальной ДНФ в обозначениях {0,1} есть пороговый элемент степени (^(n1/2 logn) с весом 2°(nl/2log2n), а также пороговый элемент степени 0(n1/3logn) [16]. Функция из теоремы X также представима в виде полиномиальной ДНФ.

Мы докажем, что если d постоянно, то существуют полиномиальные ДНФ, удовлетворяющие теореме 2. Это дает первую более чем экспоненциальную оценку (большую, чем на веса пороговых элементов для функций, представимых в виде полиномиальных ДНФ.

В параграфе 3.1 мы строим функции, удовлетворяющие теореме 2. В параграфе 3.2 мы изучаем вопросы, связанные с представлением этих функций в виде ДНФ. В параграфе 3.3 мы формулируем основной результат этой главы и приступаем к доказательству. В параграфе 3.4 мы неформально описываем основные идеи доказательства теоремы 2. В параграфе 3.5 мы доказываем необходимые вспомогательные результаты. В параграфе 3.6 мы доказываем теорему 2 и формулируем следствия из нее. Доказательство получается развитием метода, использованного для доказательства теоремы 1.

Можно заметить, что для функции, построенной в теореме IX, величина W(f, d) меняется плавно при изменении d. То есть, при увеличении d на 1 величина W(/, d) для этих функций уменьшается не более чем полиномиально. Для функции из теоремы X W(/, d) слабо меняется при d близких к 1 (в действительности, в работе [17] доказывается, что оцеика в теореме X близка к точной для всех (1 — (^(п1/3), так что в) для функции из этой теоремы меняется плавно для всех д, не превышающих 0{п1/ъ)). Для функции из теоремы 2 \У(/,<£) слабо меняется при О близких к й. Возникает вопрос, возможна ли обратная ситуация. То есть, существуют ли функции /, для которых величина (Г) сильно изменяется при небольших изменениях (Р. В главе 4 мы даем положительный ответ на этот вопрос. Результаты главы 4 справедливы в обозначениях {—1, +1}7 и это существенно используется в доказательстве. Не известно, можно ли перенести эти результаты на обозначения {0,1}.

Теорема 3. Для всех п и для всякого (I = 1,2,. ,п — 1 (ё, может зависеть от п) существует (явно заданная) функция /: {—1, +1}п —> {—1,+1}; такая что с1)=ехр{в(п)} и

ТП/^+1 ) = о{п2) (постоянные в & и О не зависят от (I).

Другими словами, мы покажем, что требующийся вес пороговых элементов для заданной функции может сильно измениться в ответ на небольшие изменения степени пороговых элементов. Этот результат опубликован в совместной работе [38]. Для в, ^ еп, где е - некоторая константа, результат теоремы доказана автором. Для с5 > еп результат теоремы доказан А. А. Шерстовым.

Кроме того, мы доказываем результат, аналогичный теореме 3, для пороговой длины.

Теорема 4. Для всех п и для всякого (1 = 1,2,. ,п — 1 (в, может зависеть от п) существует (явно заданная) функция /: {—1,+1}п — {—1, +1}, такая что

Д/,<*) = ехр{©(<0} 15 и д/,<г+ 1) = о(<г).

Оценка на £(/, в) в этом результате близка к оптимальной, так как существует не более (п + одночленов степени не выше в,. То есть, длина всякого порогового элемента степени не выше д, не превышает (п + 1)а.

Наконец, мы доказываем следующее обобщение теоремы 3.

Теорема 5. Для всех п и для всяких с1 = 1,2,., п — 1 и к = 1,2,., тах{с£, п — бГ}, существует (явно заданная) функция / : {—1,-Ы}71 —» {—1,4-1}, такая что

I) = }¥(/, д. + 1) = • • • = IV(/, ¿ + к-\) = и

Для (I ^ еп, где е - некоторая константа, этот результат доказан автором. Для (1 > еп результат доказан А. А. Шерстовым.

Доказательство результатов главы 4 сочетает в себе технику преобразований Фурье, линейной алгебры и теории приближений.

В параграфе 4.1 мы формулируем основные результаты главы. В параграфе 4.2 мы доказываем вспомогательные соотношения между различными параметрами булевых функций. В параграфе 4.3 мы доказываем вспомогательный результат о пороговых элементах для функций, спектр которых не равен нулю лишь на афинном подпространстве В параграфе 4.4 мы доказывам основной результат главы для случая (I < еп1 где е - некоторая константа. Результат доказывается сначала для с1 = 1, а затем с помощью результатов параграфа 4.3 обобщается на все (1 < еп. В параграфе 4.5 мы доказываем основной результат главы для случая й > еп, а также теорему 4. Для этого мы используем совершенно другую технику. В параграфе 4.6 мы доказываем основной результат этой главы, а также его обобщения.

Благодарности

Автор выражает глубокую благодарность своему научному руководителю доктору физико-математических наук, профессору Николаю Константиновичу Верещагину за постановку задач и помощь в работе. Автор благодарит академика РАН Сергея Ивановича Адяна за внимание к работе. Автор признателен участникам "Колмогоровского семинара по сложности вычислений и сложности описаний" и участникам семинара "Алгоритмические вопросы алгебры и логики" за полезные обсуждения. Автор также благодарен всем сотрудникам кафедры математической логики и теории алгоритмов за теплую творческую атмосферу.

 
Список источников диссертации и автореферата по математике, кандидата физико-математических наук, Подольский, Владимир Владимирович, Москва

1. Марвин Минский и Сеймур Пейперт. Персептроны. Издательство "Мир", Москва, 1971.

2. James Aspnes, Richard Beigel, Merrick L. Fürst, and Steven Rudich. The expressive power of voting polynomials. Combinatorial, 14(2): 135148, 1994.

3. Richard Beigel. The polynomial method in circuit complexity. In Proc. of the Eigth Annual Conference on Structure in Complexity Theory, pages 82-95, 1993.

4. Richard Beigel. Perceptrons, PP, and the polynomial hierarchy. Computational Complexity, 4:339-349, 1994.

5. Richard Beigel, Nick Reingold, and Daniel A. Spielman. PP is closed under intersection. J. Comput. Syst. Sei., 50(2): 191-202, 1995.

6. Jehoshua Bruck. Harmonic analysis of polynomial threshold functions. SIAM J. Discrete Math., 3(2):168-177, 1990.

7. Jehoshua Bruck and Roman Smolensky. Polynomial threshold functions, AC0 functions, and spectral norms. SIAM J. Comput., 21(l):33-42, 1992.

8. Harry Buhrman and Ronald de Wolf. Complexity measures and decision tree complexity: A survey. Theor. Comput. Sei., 288(l):21-43, 2002.

9. Harry Buhrman, Nikolai K. Vereshchagin, and Ronald de Wolf. On computation and communication with small bias. In Proc. of the 22nd Conf. on Computational Complexity (CCC'), pages 24-32, 2007.

10. Mikael Goldmann. On the power of a threshold gate at the top. Inf. Process. Lett., 63(6):287-293, 1997.

11. Mikael Goldmann, Johan Hästad, and Alexander A. Razborov. Majority gates vs. general weighted threshold gates. Computational Complexity, 2:277-300, 1992.

12. Andräs Hajnal, Wolfgang Maass, Pavel Pudläk, Mario Szegedy, and György Turän. Threshold circuits of bounded depth. J. Comput. Syst. Sei, 46(2):129—154, 1993.

13. Johan Hästad. On the size of weights for threshold gates. SIAM' J. Discret. Math., 7(3):484-492, 1994.

14. Jeffrey Charles Jackson. The harmonic sieve: A novel application of Fourier analysis to machine learning theory and practice. PhD thesis, Carnegie Mellon University, 1995.

15. Adam R. Klivans, Ryan O'Donnell, and Rocco A. Servedio. Learning intersections and thresholds of halfspaces. J. Comput. Syst. Sei., 68(4):808-840, 2004.

16. Adam R. Klivans and Rocco A. Servedio. Learning DNF in time 2°^nl,3\ J. Comput. Syst. Sei., 68(2):303-318, 2004.

17. Adam R. Klivans and Rocco A. Servedio. Toward attribute efficient learning of decision lists and parities. J. Machine Learning Research, 7:587-602, 2006.

18. Adam R. Klivans and Alexander A. Sherstov. Unconditional lower bounds for learning intersections of halfspaces. Machine Learning, 69(2-3):97—114, 2007.

19. Matthias Krause. On the computational power of Boolean decision lists. Computational Complexity, 14(4):362-375, 2006.

20. Matthias Krause and Pavel Pudlak. On the computational power of depth-2 circuits with threshold and modulo gates. Theor. Comput. Sci., 174(1—2):137—156, 1997.

21. Matthias Krause and Pavel Pudlak. Computing Boolean functions by polynomials and threshold circuits. Comput. Complex., 7(4):346-370, 1998.

22. Marvin L. Minsky and Seymour A. Papert. Perceptrons. MIT Press, Cambridge, Mass., 1969.

23. Marvin L. Minsky and Seymour A. Papert. Perceptrons: Expanded edition. MIT Press, Cambridge, Mass., 1988.

24. Saburo Muroga. Threshold logic and its applications. Wiley-Interscience, Chichester, 1971.

25. J. Myhill and W. H. Kautz. On the size of weights required for linear-input switching functions. IRE Trans, on Electronic Computers, 10(2):288—290, 1961.

26. Ryan O'Donnell and Rocco A. Servedio. New degree bounds for polynomial threshold functions. In Proc. of the 35th Symposium on Theory of Computing (STOC'), pages 325-334, 2003.

27. Ramamohan Paturi and Michael E. Saks. Approximating threshold circuits by rational functions. Inf. Comput., 112(2):257-272, 1994.

28. Alexander A. Razborov and Alexander A. Sherstov. The sign-rank of AC0. In Proc. of the 49th Symposium on Foundations of Computer Science (FOCS), pages 57-66, 2008.

29. Michael E. Saks. Slicing the hypercube. Surveys in Combinatorics, pages 211-255, 1993.

30. Alexander A. Sherstov. Separating AC0 from depth-2 majority circuits. In Proc. of the 39th Symposium on Theory of Computing (STOC'), pages 294-301, 2007.

31. Alexander A. Sherstov. Communication lower bounds using dual polynomials. Bulletin of the EATCS, 95:59-93, 2008.

32. Alexander A. Sherstov. The pattern matrix method for lower bounds on quantum communication. In Proc. of the 40th Symposium on Theory of Computing (STOC), pages 85-94, 2008.

33. Alexander A. Sherstov. The unbounded-error communication complexity of symmetric functions. In Proc. of the 49th Symposium on Foundations of Computer Science (FOCS), pages 384-393, 2008.

34. Kai-Yeung Siu and Jehoshua Bruck. On the power of threshold circuits with small weights. SIAM J. Discrete Math., 4(3):423-435, 1991.

35. Kai-Yeung Siu, Vwani P. Roychowdhury, and Thomas Kailath. Rational approximation techniques for analysis of neural networks. IEEE Transactions on Information Theory, 40(2):455-466, 1994.

36. В. В. Подольский. Перцептроны с большим весом. Проблемы передачи информации, 45(1):51—59, 2009.

37. В. В. Подольский, А. А. Шерстов. Уменьшение на единицу степени многочлена с заданной знаковой функцией может экспоненциально увеличить его вес и длину. Успехи математических наук, 69(5):179-180, 2009.

38. Vladimir V. Podolskii. Perceptions of large weight. In Proc. of the Second International Computer Science Symposium in Russia (CSR), pages 328-336, 2007.