再谈动态规划

👈🏻 Select language

If you can’t explain it simply, you don’t understand it well enough.

我把之前一篇文章发给一个女性朋友看，得到的反馈是“卖弄概念，表述单薄，缺乏深度，收尾草率，一通胡扯”。

好吧，我承认，我写的就是一坨屎。

今天，我决定抛开一切概念，以第一人称的视角，重新解释动态规划这种行动策略。

小偷偷东西

我是一个小偷，现在是凌晨12点，我正在入室盗窃。屋主的主人随时可能醒来，所以我要在天亮之前，偷窃屋内所有价值最高的东西，然后跑路。我要制定一个详细的行动纲领，指导我做这件事情。

这件事情就是：在有限的时间里面偷窃价值最高的物品。

偷取物品需要成本，这个成本我们简单地当成时间成本，单位是小时。

我创建了一个符号来表示物品的大致属性。

# 偷iPhone需要1小时，而它价值5000块
iPhone（1，5000）
# 偷洗衣机需要3小时，而它价值2000块
洗衣机（3,2000）
# 偷现金需要1小时，而它价值10000块（现金）
现金（1,10000）

以此类推......

表格的内容为当前最佳决策产生的价值

物品\时间	1:00	2:00	3:00	4:00	5:00	6:00
洗衣机（3,2000）	0	0	2000	2000	2000	2000
switch游戏机（1，1500）	1500	1500	2000	3500	3500	3500
iPhone（1，5000）	5000	6500	6500	6500	8500	8500
保险柜里的现金（3,10000）	5000	6500	6500	6500	16500	16500

结论是显而易见的，如果我有5个小时的时间，偷switch游戏机+ iPhone + 保险柜里的现金（1500+5000+10000=16500）是最优选择；如果屋内没有现金，那么我只能选择 洗衣机 + switch游戏机+ iPhone；而如果这个房间只有一台洗衣机，那么我就只能花3个小时的时间偷走洗衣机。

至此，我们可以得出第一个结论：有限的条件（时间）制约了我收益的最大化

但这里有一个问题，直接给我5个小时干就不完事了，横轴的这个时间的意义是什么？我们接着来看第二个例子。

秦王扫六合

秦王扫六合，虎视何雄哉！挥剑决浮云，诸侯尽西来。

明断自天启，大略驾群才。收兵铸金人，函谷正东开。

铭功会稽岭，骋望琅琊台。刑徒七十万，起土骊山隈。

尚采不死药，茫然使心哀。连弩射海鱼，长鲸正崔嵬。

额鼻象五岳，扬波喷云雷。鬐鬣蔽青天，何由睹蓬莱？

徐氏载秦女，楼船几时回？但见三泉下，金棺葬寒灰。

我现在是秦王了，立志要扫六合（国）。我参照第一节的内容，对春秋六国进行建模。

# 韩国离我秦国最近，它的领土价值1，实力计为1
韩国（1，1）
# 燕国虽然小，但离我很远，打它比较费力，成本比较高，所以实力计为2
燕国（2，1）

其他以此类推......

这里我们定个新规矩：

只有实力>其他国家实力，才能实现兼并
兼并其他国家，能够把其他国家的价值加到自身的实力上面

所以我们会得到这样一个表：

其他国家\自身实力	1	2	3	4	5	6	7
韩国（1，1）	0
赵国（2,3）	0
燕国（2，1）	0
魏国（1,1）	0
楚国（5,8）	0
齐国（2,3）	0

可以看到，我作为秦王，如果本国只有1的实力，那么呆在家里扫地就行了，还搞什么兼并战争？

这个表格的其余部分我就不填了。

最终我们会得出这样的结论：

当我有实力时，可以一举击破比我弱小的人
当我实力增长，就可以挑战以前打不过的人

这个时候，我们就解答了第一个故事里面的问题：横轴（时间）的意义。

条件是有限的，并且条件会随着自身的能力的增长/衰弱和时间的推移，而发生变化

这就是“动态”的意思。

而且对于这个游戏来说，每一个参与的国家，他们也有自己的算盘。对于他们来说，这也是一个动态规划的问题。主语和宾语发生互换。

至此，我们可以得出一个新的结论：

当自身弱小时，只能团结一切可以团结的力量（内援外援）

绿茶骗舔狗

我直接把上面的表格拿来用。

舔狗\绿茶的时间	1	2	3	4	5	6	7
舔狗A（1，1）	0
舔狗B（2,3）	0
舔狗C（2，1）	0
舔狗D（1,1）	0
舔狗E（5,8）	0
舔狗F（2,3）	0

到这里，我觉得可以更抽象化一点，讲清楚各个概念了。

有限的条件: 绿茶的青春年华

基本策略：广撒网，多认识点男的，才有多种排列组合

局部最优解：在有限的条件，让N个舔狗给我花钱买礼物。比如，本绿茶正在跟舔狗A逛街，于是发消息给舔狗B，让舔狗B给我打钱。这是一种多线程的高级操作，这种人对事务锁的理解远超常人。

最大价值：在有限的时间内，所有舔狗付出的总和

那这里有个问题，秦王和绿茶都是动态规划的践行者，但是我们为什么那么讨厌绿茶婊呢？

因为绿茶婊无视了道德契约，不尊重公序良俗。

而且她这种做法，只顾短期收益而忽略了长期收益。

想想，如果舔狗ABCDEF一起开个会，那场面想想就刺激。

结语

动态规划其实不止是算法，更是一种方法论，能够帮助你更好地规划自己的人生和时间。

If you can’t explain it simply, you don’t understand it well enough.

I sent a previous article to a female friend, and the feedback was “showing off concepts, thin expression, lack of depth, hasty conclusion, a bunch of nonsense”.

Alright, I admit, what I wrote is a pile of crap.

Today, I decided to set aside all concepts and, from a first-person perspective, re-explain this action strategy called dynamic programming.

A Thief Stealing Things

I’m a thief, it’s midnight, and I’m breaking into a house. The homeowner could wake up at any time, so I need to steal all the most valuable things in the house before dawn, then run. I need to make a detailed action plan to guide me in doing this.

This task is: steal the most valuable items within limited time.

Stealing items has a cost, which we simply treat as time cost, measured in hours.

I created a symbol to represent the general attributes of items.

# Stealing an iPhone takes 1 hour, and it's worth 5000 yuan
iPhone（1，5000）
# Stealing a washing machine takes 3 hours, and it's worth 2000 yuan
Washing machine（3,2000）
# Stealing cash takes 1 hour, and it's worth 10000 yuan (cash)
Cash（1,10000）

And so on......

The table content is the value produced by the current optimal decision

Item\Time	1:00	2:00	3:00	4:00	5:00	6:00
Washing machine（3,2000）	0	0	2000	2000	2000	2000
Switch game console（1，1500）	1500	1500	2000	3500	3500	3500
iPhone（1，5000）	5000	6500	6500	6500	8500	8500
Cash in safe（3,10000）	5000	6500	6500	6500	16500	16500

The conclusion is obvious: if I have 5 hours, stealing Switch game console + iPhone + Cash in safe (1500+5000+10000=16500) is the optimal choice; if there’s no cash in the house, then I can only choose Washing machine + Switch game console + iPhone; and if this room only has a washing machine, then I can only spend 3 hours stealing the washing machine.

From this, we can draw the first conclusion: limited conditions (time) constrain the maximization of my gains

But there’s a problem here: just give me 5 hours and I’m done, what’s the meaning of the time on the horizontal axis? Let’s look at the second example.

The King of Qin Unifying the Six States

The King of Qin unified the six states, how majestic his gaze! Wielding his sword to cut through floating clouds, all the feudal lords came from the west.

Clear judgment from heaven, great strategy surpassing all talents. Collecting weapons to cast golden figures, Hangu Pass opened to the east.

Inscribing achievements at Mount Kuaiji, galloping to Langya Terrace. Seven hundred thousand prisoners, building at Mount Li.

Still seeking immortality elixir, lost in sorrow. Crossbow shooting sea fish, long whales towering.

Nose like five mountains, waves spraying clouds and thunder. Fins covering the blue sky, how to see Penglai?

Xu Fu carrying Qin women, when will the tower ship return? Only seeing three springs below, golden coffin burying cold ashes.

Now I’m the King of Qin, determined to unify the six states. I refer to the content of the first section and model the six states of the Spring and Autumn period.

# Han is closest to my Qin, its territory value is 1, strength is 1
Han（1，1）
# Although Yan is small, it's far from me, attacking it is more laborious, the cost is higher, so strength is 2
Yan（2，1）

Others follow the same pattern......

Here we set a new rule:

Only when strength > other states’ strength can annexation be achieved
Annexing other states can add their value to one’s own strength

So we get such a table:

Other States\Own Strength	1	2	3	4	5	6	7
Han（1，1）	0
Zhao（2,3）	0
Yan（2，1）	0
Wei（1,1）	0
Chu（5,8）	0
Qi（2,3）	0

As you can see, as the King of Qin, if my state only has strength 1, then I should just stay home and sweep the floor, what’s the point of annexation wars?

I won’t fill in the rest of this table.

In the end, we’ll draw such conclusions:

When I have strength, I can defeat those weaker than me in one blow
When my strength grows, I can challenge those I couldn’t beat before

At this point, we’ve answered the question from the first story: the meaning of the horizontal axis (time).

Conditions are limited, and conditions change as one’s own ability grows/weakens and time passes

This is what “dynamic” means.

And for this game, every participating state also has its own calculations. For them, this is also a dynamic programming problem. Subject and object are swapped.

From this, we can draw a new conclusion:

When oneself is weak, one can only unite all forces that can be united (internal and external support)

Green Tea Scamming Simps

I’ll directly use the table above.

Simp\Green Tea’s Time	1	2	3	4	5	6	7
Simp A（1，1）	0
Simp B（2,3）	0
Simp C（2，1）	0
Simp D（1,1）	0
Simp E（5,8）	0
Simp F（2,3）	0

At this point, I think we can be more abstract and clarify each concept.

Limited conditions: The green tea’s youth

Basic strategy: Cast a wide net, get to know more men, to have more permutations and combinations

Local optimal solution: Under limited conditions, have N simps spend money buying me gifts. For example, this green tea is shopping with Simp A, so I send a message to Simp B to have him send me money. This is an advanced multi-threaded operation, this kind of person’s understanding of transaction locks far exceeds ordinary people.

Maximum value: Within limited time, the sum of all simps’ contributions

There’s a question here: both the King of Qin and the green tea are practitioners of dynamic programming, but why do we hate green tea bitches so much?

Because green tea bitches ignore moral contracts and don’t respect public order and good customs.

And her approach only focuses on short-term gains while ignoring long-term gains.

Think about it, if simps ABCDEF all have a meeting together, that scene would be quite exciting.

Conclusion

Dynamic programming is not just an algorithm, but more of a methodology that can help you better plan your life and time.

シンプルに説明できないなら、十分に理解していないということです。

以前の記事を女性の友人に送ったところ、「概念をひけらかし、表現が薄く、深みがなく、結論が雑で、でたらめ」というフィードバックを受けました。

まあ、認めます。私が書いたものはクソです。

今日、すべての概念を捨てて、一人称の視点から、動的計画法という行動戦略を再説明することにしました。

泥棒が物を盗む

私は泥棒です。今は午前0時で、家に侵入して盗みを働いています。家主はいつでも目を覚ます可能性があるため、夜明け前に家の中で最も価値の高いものをすべて盗み、その後逃げる必要があります。この作業を指導する詳細な行動綱領を策定する必要があります。

このタスクは：限られた時間内で最も価値の高いアイテムを盗むことです。

アイテムを盗むにはコストがかかり、このコストを時間コストとして簡単に扱い、単位は時間です。

アイテムの大まかな属性を表す記号を作成しました。

# iPhoneを盗むには1時間かかり、5000元の価値があります
iPhone（1，5000）
# 洗濯機を盗むには3時間かかり、2000元の価値があります
洗濯機（3,2000）
# 現金を盗むには1時間かかり、10000元の価値があります（現金）
現金（1,10000）

以下同様......

テーブルの内容は、現在の最適な決定によって生み出される価値です

アイテム\時間	1:00	2:00	3:00	4:00	5:00	6:00
洗濯機（3,2000）	0	0	2000	2000	2000	2000
Switchゲーム機（1，1500）	1500	1500	2000	3500	3500	3500
iPhone（1，5000）	5000	6500	6500	6500	8500	8500
金庫の現金（3,10000）	5000	6500	6500	6500	16500	16500

結論は明らかです。5時間ある場合、Switchゲーム機 + iPhone + 金庫の現金（1500+5000+10000=16500）を盗むのが最適な選択です。家に現金がない場合、洗濯機 + Switchゲーム機 + iPhoneしか選択できません。この部屋に洗濯機が1台しかない場合、3時間かけて洗濯機を盗むしかありません。

ここから、最初の結論を導き出すことができます：限られた条件（時間）が私の利益の最大化を制約する

しかし、ここに問題があります。直接5時間を与えれば完了するのに、横軸のこの時間の意味は何でしょうか？次の例を見てみましょう。

秦王が六国を統一

秦王が六国を統一し、その視線は何と雄々しいことか！剣を振って浮雲を断ち切り、諸侯はすべて西から来た。

天啓からの明確な判断、すべての才能を超越する大戦略。武器を集めて金色の像を鋳造し、函谷関が東に開いた。

会稽山で功績を刻み、琅琊台に駆けつける。70万人の囚人、驪山で建設。

まだ不死の薬を求め、悲しみに迷う。弩で海の魚を撃ち、長いクジラがそびえ立つ。

鼻は五岳のようで、波が雲と雷を噴出。ひれが青空を覆い、蓬莱をどう見るか？

徐福が秦の女性を運び、塔船はいつ戻るか？三つの泉の下だけを見て、金色の棺が冷たい灰を埋める。

今、私は秦王で、六国を統一することを決意しています。最初のセクションの内容を参照して、春秋時代の六国をモデル化します。

# 韓は私の秦に最も近く、その領土の価値は1、強さは1です
韓（1，1）
# 燕は小さいですが、私から遠く、攻撃するのはより困難で、コストが高いため、強さは2です
燕（2，1）

他のものも同様......

ここで新しいルールを設定します：

強さ>他の国の強さの場合のみ、併合を実現できます
他の国を併合すると、他の国の価値を自分の強さに加えることができます

したがって、次のような表が得られます：

他の国\自分の強さ	1	2	3	4	5	6	7
韓（1，1）	0
趙（2,3）	0
燕（2，1）	0
魏（1,1）	0
楚（5,8）	0
斉（2,3）	0

見てのとおり、秦王として、私の国が強さ1しかない場合、家にいて床を掃くだけで、併合戦争を何のために行うのでしょうか？

この表の残りの部分は埋めません。

最終的に、次のような結論に達します：

強さがあるとき、自分より弱い人を一撃で倒すことができます
強さが成長すると、以前は倒せなかった人に挑戦できます

この時点で、最初の物語からの質問に答えました：横軸（時間）の意味。

条件は限られており、自分の能力の成長/衰弱と時間の経過に伴って条件が変化します

これが「動的」の意味です。

そして、このゲームでは、参加するすべての国も独自の計算を持っています。彼らにとって、これも動的計画法の問題です。主語と目的語が入れ替わります。

ここから、新しい結論を導き出すことができます：

自分が弱いとき、団結できるすべての力を団結させることができます（内部と外部の支援）

緑茶がシンプを騙す

上記の表を直接使用します。

シンプ\緑茶の時間	1	2	3	4	5	6	7
シンプA（1，1）	0
シンプB（2,3）	0
シンプC（2，1）	0
シンプD（1,1）	0
シンプE（5,8）	0
シンプF（2,3）	0

この時点で、より抽象化して、各概念を明確にできると思います。

限られた条件：緑茶の青春

基本戦略：広く網を張り、より多くの男性を知り、より多くの順列と組み合わせを持つ

局所的最適解：限られた条件下で、N人のシンプに私にプレゼントを買うお金を使わせる。たとえば、この緑茶はシンプAと買い物をしているので、シンプBにメッセージを送ってお金を送らせます。これは高度なマルチスレッド操作で、この種の人のトランザクションロックの理解は普通の人をはるかに超えています。

最大価値：限られた時間内で、すべてのシンプの貢献の合計

ここに質問があります。秦王と緑茶はどちらも動的計画法の実践者ですが、なぜ私たちは緑茶ビッチをそれほど嫌うのでしょうか？

緑茶ビッチは道徳的契約を無視し、公序良俗を尊重しないためです。

そして、彼女のアプローチは短期利益にのみ焦点を当て、長期利益を無視するためです。

考えてみてください。シンプABCDEFが一緒に会議を開いたら、その場面は刺激的でしょう。

結語

動的計画法は単なるアルゴリズムではなく、人生と時間をより良く計画するのに役立つ方法論です。

Если вы не можете объяснить это просто, вы недостаточно хорошо это понимаете.

Я отправил предыдущую статью подруге, и отзыв был: “выставлять напоказ концепции, тонкое выражение, отсутствие глубины, поспешный вывод, куча ерунды”.

Хорошо, признаю, то, что я написал, — это куча дерьма.

Сегодня я решил отбросить все концепции и, с точки зрения первого лица, заново объяснить эту стратегию действий, называемую динамическим программированием.

Вор крадет вещи

Я вор, сейчас полночь, и я проникаю в дом. Хозяин может проснуться в любой момент, поэтому мне нужно украсть все самые ценные вещи в доме до рассвета, а затем сбежать. Мне нужно составить подробный план действий, чтобы направлять меня в этом деле.

Эта задача: украсть самые ценные предметы в ограниченное время.

Кража предметов имеет стоимость, которую мы просто рассматриваем как временную стоимость, измеряемую в часах.

Я создал символ для представления общих атрибутов предметов.

# Кража iPhone занимает 1 час, и он стоит 5000 юаней
iPhone（1，5000）
# Кража стиральной машины занимает 3 часа, и она стоит 2000 юаней
Стиральная машина（3,2000）
# Кража наличных занимает 1 час, и они стоят 10000 юаней (наличные)
Наличные（1,10000）

И так далее......

Содержимое таблицы — это ценность, создаваемая текущим оптимальным решением

Предмет\Время	1:00	2:00	3:00	4:00	5:00	6:00
Стиральная машина（3,2000）	0	0	2000	2000	2000	2000
Игровая консоль Switch（1，1500）	1500	1500	2000	3500	3500	3500
iPhone（1，5000）	5000	6500	6500	6500	8500	8500
Наличные в сейфе（3,10000）	5000	6500	6500	6500	16500	16500

Вывод очевиден: если у меня есть 5 часов, кража Игровая консоль Switch + iPhone + Наличные в сейфе (1500+5000+10000=16500) — оптимальный выбор; если в доме нет наличных, то я могу только выбрать Стиральная машина + Игровая консоль Switch + iPhone; а если в этой комнате только стиральная машина, то я могу только потратить 3 часа на кражу стиральной машины.

Отсюда мы можем сделать первый вывод: ограниченные условия (время) ограничивают максимизацию моей выгоды

Но здесь есть проблема: просто дайте мне 5 часов, и я закончу, в чем смысл времени на горизонтальной оси? Давайте посмотрим на второй пример.

Циньский ван объединяет шесть государств

Циньский ван объединил шесть государств, как величественен его взгляд! Размахивая мечом, чтобы рассечь плывущие облака, все феодальные правители пришли с запада.

Ясное суждение от небес, великая стратегия, превосходящая все таланты. Собирая оружие для отливки золотых фигур, перевал Ханьгу открылся на восток.

Высекая достижения на горе Куайцзи, скача к террасе Ланья. Семьсот тысяч заключенных, строя у горы Ли.

Все еще ищет эликсир бессмертия, потерянный в печали. Арбалет стреляет в морскую рыбу, длинные киты возвышаются.

Нос как пять гор, волны разбрызгивают облака и гром. Плавники покрывают голубое небо, как увидеть Пэнлай?

Сюй Фу везет циньских женщин, когда вернется башенный корабль? Только видя три источника внизу, золотой гроб хоронит холодный пепел.

Теперь я Циньский ван, решивший объединить шесть государств. Я ссылаюсь на содержание первого раздела и моделирую шесть государств периода Весны и Осени.

# Хань ближе всего к моему Цинь, его территория стоит 1, сила равна 1
Хань（1，1）
# Хотя Янь маленькое, оно далеко от меня, атаковать его более трудоемко, стоимость выше, поэтому сила равна 2
Янь（2，1）

Остальные следуют той же схеме......

Здесь мы устанавливаем новое правило:

Только когда сила > сила других государств, можно достичь аннексии
Аннексия других государств может добавить их ценность к собственной силе

Таким образом, мы получаем такую таблицу:

Другие государства\Собственная сила	1	2	3	4	5	6	7
Хань（1，1）	0
Чжао（2,3）	0
Янь（2，1）	0
Вэй（1,1）	0
Чу（5,8）	0
Ци（2,3）	0

Как видно, как Циньский ван, если мое государство имеет только силу 1, то мне следует просто остаться дома и подмести пол, какой смысл в аннексионных войнах?

Я не буду заполнять остальную часть этой таблицы.

В конечном итоге мы придем к таким выводам:

Когда у меня есть сила, я могу одним ударом победить тех, кто слабее меня
Когда моя сила растет, я могу бросить вызов тем, кого не мог победить раньше

На этом этапе мы ответили на вопрос из первой истории: смысл горизонтальной оси (время).

Условия ограничены, и условия изменяются по мере роста/ослабления собственных способностей и течения времени

Это и есть значение “динамического”.

И для этой игры каждое участвующее государство также имеет свои расчеты. Для них это также проблема динамического программирования. Подлежащее и дополнение меняются местами.

Отсюда мы можем сделать новый вывод:

Когда сам слаб, можно только объединить все силы, которые можно объединить (внутренняя и внешняя поддержка)

Зеленая чай обманывает симпов

Я напрямую использую таблицу выше.

Симп\Время зеленой чай	1	2	3	4	5	6	7
Симп A（1，1）	0
Симп B（2,3）	0
Симп C（2，1）	0
Симп D（1,1）	0
Симп E（5,8）	0
Симп F（2,3）	0

На этом этапе я думаю, что мы можем быть более абстрактными и уточнить каждую концепцию.

Ограниченные условия: Молодость зеленой чай

Базовая стратегия: Забросить широкую сеть, познакомиться с большим количеством мужчин, чтобы иметь больше перестановок и комбинаций

Локальное оптимальное решение: В ограниченных условиях заставить N симпов тратить деньги на покупку мне подарков. Например, эта зеленая чай идет по магазинам с Симпом A, поэтому я отправляю сообщение Симпу B, чтобы он прислал мне деньги. Это продвинутая многопоточная операция, понимание транзакционных блокировок этим человеком далеко превосходит обычных людей.

Максимальная ценность: В ограниченное время сумма всех вкладов симпов

Здесь есть вопрос: и Циньский ван, и зеленая чай являются практиками динамического программирования, но почему мы так ненавидим зеленых чай сук?

Потому что зеленые чай суки игнорируют моральные контракты и не уважают общественный порядок и добрые обычаи.

И ее подход фокусируется только на краткосрочной выгоде, игнорируя долгосрочную выгоду.

Подумайте об этом, если симпы ABCDEF все соберутся на встречу, эта сцена будет довольно захватывающей.

Заключение

Динамическое программирование — это не просто алгоритм, а скорее методология, которая может помочь вам лучше планировать свою жизнь и время.

💬 讨论 / Discussion

对这篇文章有想法？欢迎在 GitHub 上发起讨论。
Have thoughts on this post? Start a discussion on GitHub.

在 GitHub 参与讨论 / Discuss on GitHub