行人模型的訓練方法、裝置、電子設備以及存儲介質

2024-04-15 03:19:05 1

1.本公開涉及自動駕駛技術領域，尤其涉及一種行人模型的訓練方法、裝置、電子設備以及存儲介質。

背景技術：

2.自動駕駛汽車(又稱無人駕駛汽車、電腦駕駛汽車、或輪式移動機器人)依靠人工智慧、視覺計算、雷達、監控裝置和全球定位系統協同合作，讓電腦可以自動安全地操作機動車輛。在實際開放道路場景下，自動駕駛汽車要處理的場景非常繁雜，道路中會存在向各個方向行駛的車輛、沿各種路逕行進的行人以及其他交通參與者。因此，需要對各種自動駕駛車輛進行測試，以確認自動駕駛車輛在實際開放道路場景下，可以靈活應對各種交通參與者引發的突發事件，避免發生交通事故。
3.然而，現有技術中缺乏有效的測試方案模擬實際開放道路場景下各種突發情況的行人模型，以對各種自動駕駛車輛進行測試。

技術實現要素：

4.為克服相關技術中存在的問題，本公開提供一種行人模型的訓練方法、裝置、電子設備以及存儲介質。
5.根據本公開實施例的第一方面，提供了一種行人模型的訓練方法，包括：構建行人模型；根據仿真系統的地圖信息和所述仿真系統中目標車輛的行駛信息，得到所述行人模型的訓練數據；其中，所述目標車輛為所述仿真系統中正在行駛的車輛，且所述目標車輛與所述行人模型發生交通事故的概率大於預設概率；所述行駛信息包括所述目標車輛的位置和/或速度；利用所述訓練數據，對所述行人模型進行強化學習的訓練，以使訓練後的行人模型與所述目標車輛發生交通事故的概率大於預設閾值，所述預設閾值大於所述預設概率；其中，所述行人模型的輸入為所述地圖信息的狀態表徵和所述行駛信息的狀態表徵，所述行人模型的輸出為行進動作信息。
6.可選地，所述訓練數據中的一組樣本包括狀態信息、動作信息、獎勵信息；所述狀態信息包括所述仿真系統的地圖信息的狀態表徵和所述目標車輛的行駛信息的狀態表徵；或者，所述狀態信息包括所述仿真系統的地圖信息的狀態表徵；所述動作信息包括所述行人模型基於輸入的所述狀態信息輸出的行進動作信息；所述獎勵信息包括所述行人模型按照所述動作信息向目標地點行進時，根據所述行人模型與所述目標車輛發生交通事故的概率所生成的獎勵值。
7.可選地，所述獎勵值的生成過程，包括：根據所述行人模型在多個輪次的訓練過程中生成的歷史行進動作信息和當前輪次的行進動作信息，利用第一神經網絡模型得到第一值；其中，所述第一神經網絡模型為基於時序的神經網絡模型，所述第一值用於指示所述當前輪次的行進動作信息對所述行人模型與所述目標車輛發生交通事故的影響程度；根據所述地圖信息中的邊框數據，利用第二神經網絡模型得到第二值；其中，所述地圖信息中的邊
框數據包括所述行人模型的邊框數據和/或所述目標車輛的邊框數據，所述第二神經網絡模型為卷積神經網絡模型，所述第二值用於指示所述行人模型與所述目標車輛之間的位置信息；根據所述第一值和所述第二值，利用線性變換算法，得到所述獎勵值；其中，相比於所述行人模型未與所述目標車輛發生交通事故，在所述行人模型與所述目標車輛發生交通事故的情況下，所述行人模型獲得的所述獎勵值更大。
8.可選地，所述獎勵值的生成過程，包括：將所述地圖信息中的邊框數據，輸入卷積神經網絡模型，所述卷積神經網絡模型通過所述地圖信息中的邊框數據確定所述行人模型與所述目標車輛是否發生交通事故；在所述行人模型與所述目標車輛發生交通事故的情況下，通過所述卷積神經網絡模型輸出第一獎勵值；在所述行人模型未與所述目標車輛發生交通事故的情況下，通過所述卷積神經網絡模型輸出第二獎勵值；其中，所述第一獎勵值大於所述第二獎勵值，所述第二獎勵值根據所述行人模型與所述目標車輛之間的距離以及相對位置確定。
9.可選地，所述動作信息的生成過程，包括：將所述仿真系統的地圖信息的狀態表徵輸入卷積神經網絡模型，得到所述仿真系統中可放置所述行人模型的位置信息；根據所述目標車輛的行駛信息的狀態表徵，得到先驗信息，所述先驗信息包括所述目標車輛沿行駛方向的區域信息；根據所述可放置所述行人模型的位置信息和所述先驗信息，得到所述動作信息。
10.可選地，所述利用所述訓練數據，對所述行人模型進行強化學習的訓練之後，還包括：獲取仿真系統的地圖信息和被測試車輛的行駛信息；其中，所述被測試車輛在自動駕駛模型的控制下行駛在所述仿真系統中；所述行駛信息包括所述被測試車輛的位置和/或速度；根據所述地圖信息和所述行駛信息，得到訓練後的行人模型在所述仿真系統中的初始位置；控制所述行人模型從所述初始位置向目標地點行進，在所述行人模型在行進過程中與所述被測試車輛發生交通事故的情況下，確定所述被測試車輛測試失敗。
11.根據本公開實施例的第二方面，提供了一種行人模型的訓練裝置，包括：模型構建模塊，用於構建行人模型；數據獲取模塊，用於根據仿真系統的地圖信息和所述仿真系統中目標車輛的行駛信息，得到所述行人模型的訓練數據；其中，所述目標車輛為所述仿真系統中正在行駛的車輛，且所述目標車輛與所述行人模型發生交通事故的概率大於預設概率；所述行駛信息包括所述目標車輛的位置和/或速度；模型訓練模塊，用於利用所述訓練數據，對所述行人模型進行強化學習的訓練，以使訓練後的行人模型與所述目標車輛發生交通事故概率大於預設閾值，所述預設閾值大於所述預設概率；其中，所述行人模型的輸入為所述地圖信息的狀態表徵和所述行駛信息的狀態表徵，所述行人模型的輸出為行進動作信息。
12.根據本公開實施例的第三方面，提供了一種電子設備，包括：處理器，以及存儲有電腦程式指令的存儲器；所述處理器執行所述電腦程式指令時實現本公開第一方面所提供的行人模型的訓練方法。
13.根據本公開實施例的第四方面，提供了一種計算機可讀存儲介質，其上存儲有電腦程式指令，所述電腦程式指令被處理器執行時實現本公開第一方面所提供的行人模型的訓練方法。
14.本公開實施例提供的技術方案可以包括以下有益效果：
15.本公開提供的實施例中，首先構建行人模型；然後根據仿真系統的地圖信息和仿真系統中的目標車輛的行駛信息，得到行人模型的訓練數據；最後利用訓練數據，對行人模型進行強化學習的訓練，以使訓練後的行人模型與目標車輛發生交通事故的概率大於預設閾值。由於訓練後的行人模型較大概率可以與目標車輛發生交通事故，後續將自動駕駛車輛作為目標車輛接入仿真系統進行測試時，行人模型會做出較大概率與該自動駕駛車輛發生交通事故的行進動作，從而可以通過行人模型模擬實際開放道路場景下的各種突發情況，對自動駕駛車輛進行有效的測試。
16.應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本公開。
附圖說明
17.此處的附圖被併入說明書中並構成本說明書的一部分，示出了符合本公開的實施例，並與說明書一起用於解釋本公開的原理。
18.圖1是根據一示例性實施例示出的一種行人模型的訓練方法的應用場景圖。圖2是根據一示例性實施例示出的一種行人模型的訓練方法的流程圖。
19.圖3是根據一示例性實施例示出的一種行人模型獲得獎勵值的方法的流程圖。
20.圖4是根據一示例性實施例示出的又一種行人模型獲得獎勵值的方法的流程圖。
21.圖5是根據一示例性實施例示出的一種行人模型生成動作信息的方法的流程圖。
22.圖6是根據一示例性實施例示出的對自動駕駛車輛進行測試的方法的流程圖。
23.圖7是根據一示例性實施例示出的強化學習過程的示意圖。
24.圖8是根據一示例性實施例示出的仿真系統的示意圖。
25.圖9是根據一示例性實施例示出的行人模型生成動作信息的網絡結構示意圖。
26.圖10是根據一示例性實施例示出的計算行人模型的獎勵值的網絡結構示意圖。
27.圖11是根據一示例性實施例示出的一種行人模型的訓練裝置的框圖。
28.圖12是根據一示例性實施例示出的一種電子設備1200的框圖。
具體實施方式
29.下面將結合附圖詳細地對示例性實施例進行描述說明。
30.應當指出，相關實施例及附圖僅為描述說明本公開所提供的示例性實施例，而非本公開的全部實施例，也不應理解本公開受相關示例性實施例的限制。
31.應當指出，本公開中所用術語「第一」、「第二」等僅用於區別不同步驟、設備或模塊等。相關術語既不代表任何特定技術含義，也不表示它們之間的順序或者相互依存關係。
32.應當指出，本公開中所用術語「至少一個」的修飾是示意性而非限制性的。除非在上下文另有明確指出，否則應該理解為「一個或多個」。
33.應當指出，本公開中所用術語「和/或」，用於描述關聯對象之間的關聯關係，一般表示至少存在三種關聯關係。例如，a和/或b，至少可以表示：單獨存在a，同時存在a和b，單獨存在b這三種關聯關係。
34.應當指出，本公開的方法實施例中記載的各個步驟可以按照不同的順序執行，和/或並行執行。除非特別說明，本公開的範圍不受相關實施例中步驟的描述順序限制。
35.需要說明的是，本公開中所有獲取信號、信息或數據的動作都是在遵照所在地國家相應的數據保護法規政策的前提下，並獲得由相應裝置所有者給予授權的情況下進行的。
36.圖1是根據一示例性實施例示出的一種行人模型的訓練方法的應用場景圖。
37.如圖1所示，在應用場景中可以包括服務端110、終端120和網絡130。
38.在一些實施例中，服務端110、終端120之間可以通過網絡130進行數據或者信息的交互。例如，服務端110可以通過網絡130獲取終端120中的信息和/或數據，或者可以通過網絡130將信息和/或數據發送到終端120。
39.終端120為安裝有仿真系統的電子設備。如圖8所示，仿真系統可以模擬包括各種車輛、行人等交通參與者的實際交通場景。在一些實施例中，終端120可以從仿真系統獲得訓練數據(例如，可以採集仿真系統中包含目標車輛的一個或多個道路窗口數據，作為訓練數據)，並將訓練數據通過網絡130發送給服務端110。
40.服務端110用於根據訓練數據，訓練得到行人模型，該行人模型用於對多個廠商的自動駕駛汽車進行測試。服務端110可以是單一伺服器或伺服器組。該伺服器組可以是集中式或分布式的(例如，服務端110可以是分布式系統)，可以是專用的也可以由其他設備或系統同時提供服務。在一些實施例中，服務端110可以是區域的或者遠程的。在一些實施例中，服務端110可以在雲平臺上實施，或者以虛擬方式提供。僅作為示例，雲平臺可以包括私有雲、公共雲、混合雲、社區雲、分布雲、內部雲、多層雲等或其任意組合。
41.在一些實施例中，網絡130可以是無線網絡中的任意一種或多種。例如，網絡130可以包括無線區域網路(wlan)、城域網(man)等或其任意組合。
42.為了便於理解，以下結合附圖和實施例介紹本公開的技術方案。
43.是圖2根據一示例性實施例示出的一種行人模型的訓練方法的流程圖。如圖2所示，行人模型的訓練方法包括以下步驟。
44.在步驟s210中，構建行人模型。
45.行人模型為用於測試自動駕駛汽車是否可以應對現實交通場景中各種複雜狀況的模型。本公開提供的行人模型包括但不限於人類的形狀，也可以是貓、狗或其他動物等，不受本說明書的表述所限。
46.本公開實施例中的行人模型通過強化學習(reinforcement learning，rl)訓練得到。強化學習用於描述和解決智能體(agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。強化學習是智能體以「試錯」的方式進行學習，通過動作(action)與環境進行交互獲得的獎勵(reward)指導行為，目標是使智能體獲得最大的獎勵。常見的強化學習算法有q-learning(q學習)，policy gradient(策略梯度)，actor-critic(演員-評判家)等。
47.強化學習主要包含五個元素：智能體(agent)、環境(environment)、狀態(state)、動作(action)與獎勵(reward)，其中，智能體的輸入為狀態，輸出為動作。強化學習的訓練過程為：通過智能體與環境進行交互，獲得每次交互的動作、狀態、獎勵，將一組動作、狀態、獎勵，作為一組訓練數據，對智能體進行一次訓練。採用上述過程，對智能體進行下一輪次訓練，直至滿足收斂條件。
48.在本公開提供的實施例中，如圖7所示，行人模型為強化學習方法中的智能體，仿
真系統為強化學習方法中的環境，地圖信息和目標車輛的行駛信息作為強化學習中的狀態信息，行人的行進動作作為強化學習中的動作信息。在具體實施過程中，行人模型的輸入為仿真系統的地圖信息的狀態表徵和目標車輛的行駛信息的狀態表徵，行人模型的輸出為行進動作信息。
49.地圖信息可以包括仿真系統被採集的場景中的道路結構信息、各種交通參與者的位置信息、目標車輛的位置信息、靜態障礙物的位置信息、交通規則信息等。道路結構信息包括但不限於：車道的位置信息、人行道的位置信息、綠化帶的位置信息等。交通參與者包括但不限於：行人、車輛等。靜態障礙物包括但不限於：樹木、停止的車輛、靜止的行人等。交通規則信息包括但不限於：交通標誌、紅綠燈等。
50.仿真系統中存在多個車輛，可以從中選取正在行駛的，並且具有一定概率可以和行人模型發生交通事故(例如，人和車相撞)的車輛作為目標車輛；也即，目標車輛為仿真系統中正在行駛的車輛，且目標車輛與行人模型發生交通事故的概率大於預設概率，例如，預設概率取值為0，或者，預設概率取值為50％、80％等。例如，一個正在十字路口向西轉彎的車輛，其存在一定概率可以和由南向北行進的行人模型發生交通事故，因此可以將其作為目標車輛。目標車輛的行駛信息包括目標車輛在仿真系統被採集的場景中的各種參數、位置等信息，如目標車輛的位置、速度等。
51.地圖信息的狀態表徵和行駛信息的狀態表徵是對地圖信息和行使信息進行處理後得到的數據。在具體實施過程中，可以根據強化學習算法中對狀態的定義來確定對地圖信息和行駛信息的處理方式，得到地圖信息的狀態表徵和行駛信息的狀態表徵。例如，地圖信息的狀態表徵可以為一個多維的向量，通過不同維度的數據來表徵地圖信息包含的不同信息。
52.在步驟s220中，根據仿真系統的地圖信息和仿真系統中目標車輛的行駛信息，得到行人模型的訓練數據；其中，行駛信息包括目標車輛的位置和/或速度。
53.由上述步驟s210可知，目標車輛為仿真系統中正在行駛的車輛，且目標車輛與行人模型發生交通事故的概率大於預設概率。在一些實施例中，可以對仿真系統中包含目標車輛的多個場景進行採集，得到離線的地圖信息。例如，可以將仿真系統中目標車輛對應的視野範圍內的圖像數據作為離線採集的地圖信息。在一些實施例中，可以將目標車輛在離線的地圖信息中的位置和對應的速度作為行駛信息。
54.在一些實施例中，可以將行人模型接入仿真系統，實時獲取仿真系統的地圖信息和目標車輛的行駛信息，作為訓練數據。本公開提供的實施例，通過將行人模型放置到仿真系統中，從而可以獲得複雜多變的訓練數據，根據該訓練數據得到的訓練後的行人模型更適合用於測試自動駕駛車輛，可以輸出較大概率與被測試車輛發生交通事故的動作信息。
55.在具體實施過程中，可以根據一組地圖信息和目標車輛的行駛信息得到訓練數據中的一組樣本；其中，樣本包括：狀態信息、動作信息、獎勵信息。
56.在一些實施例中，狀態信息包括仿真系統的地圖信息的狀態表徵和目標車輛的行駛信息的狀態表徵。在一些實施例中，狀態信息可以僅包括仿真系統的地圖信息的狀態表徵，不受本說明書的表述所限。
57.在一些實施例中，動作信息包括行人模型基於輸入的狀態信息輸出的行進動作信息，也即，將狀態信息輸入行人模型，獲取行人模型輸出的行進動作信息，將行進動作信息
作為動作信息。在一些實施例中，動作信息可以用多維度的位置信息表示。例如，行人模型的動作信息可以包括行人模型的8個位置點的坐標信息：上、下、左、右、左上、左下、右上、右下。通過多維的位置信息可以表示出行人模型的較為精細的動作信息。例如，可以通過行人模型的左上角、左下角、右上角、右下角4個點組成的平面與地圖坐標系的南北方向之間形成的夾角，表示行人模型做出轉向的動作(例如，左轉15
°
)。又例如，可以通過行人模型的上下坐標組成的直線在地圖坐標系中沿南北方向的坐標，表示行人模型沿南北方向的行進距離(當前輸出的坐標值與上一次輸出的坐標值之間的差值)。
58.在具體實施過程，可以使用多種強化學習算法實現行人模型的網絡結構，不受本說明書的表述所限。例如，可以採用acktr(actor critic using kronecker-factored trust region)算法實現行人模型的網絡結構，acktr算法包括策略網絡與值網絡，可以設計包含卷積層與全連接層的值網絡與策略網絡來構建行人模型。
59.關於行人模型根據狀態信息，生成動作信息的一個實施例詳見圖5的相關描述，這裡不再贅述。
60.在一些實施例中，獎勵信息包括行人模型按照動作信息向目標地點行進時，根據行人模型與目標車輛發生交通事故的概率所生成的獎勵值。發生交通事故的概率越大，行人模型得到的獎勵值也越大。在具體實施過程中，可以使用多種強化學習算法，根據行人模型輸出的動作信息，確定行人模型可以得到的獎勵值。關於根據行人模型輸出的動作信息，確定行人模型可以得到的獎勵值的實施例，詳見圖3和圖4的相關描述，這裡不再贅述。
61.本公開提供的實施例，通過行人模型與目標車輛發生交通事故的概率，確定行人模型的獎勵值，根據強化學習的算法，行人模型會選擇輸出可以獲得最大回報值(根據獎勵值，使用回報函數得到回報值)的動作信息，因此，使用訓練後的行人模型在仿真系統中對自動駕駛車輛進行測試時，可以做出較大概率與被測試車輛發生交通事故的行進動作，從而可以有效的對自動駕駛車輛的靈敏度進行測試。
62.在步驟s230中，利用訓練數據，對行人模型進行強化學習的訓練，以使訓練後的行人模型與目標車輛發生交通事故的概率大於預設閾值。
63.在具體實施過程中，可以根據訓練數據中的多組樣本對行人模型進行訓練，其中，每一組樣本對應於仿真系統的一個場景。在具體實施過程中，如圖7所示，訓練過程如下：將第一狀態信息輸入行人模型；根據行人模型輸出的第一動作信息，確定行人模型得到的第一獎勵值；將訓練數據中的下一組樣本的第二狀態信息再次作為行人模型的輸入，直至滿足模型收斂條件或者訓練次數達到預設次數閾值(例如，100次)。模型收斂條件可以為行人模型與目標車輛發生交通事故。在具體實施過程中，在訓練次數達到預設次數閾值之後，行人模型仍然不滿足模型收斂條件，則可以終止本次訓練，選擇仿真系統的其他場景和/或從場景中選擇其他車輛作為目標車輛，根據重新選擇的場景和/或目標車輛得到多組樣本，繼續對行人模型進行訓練，直至訓練後的行人模型與目標車輛發生交通事故的概率大於預設閾值。例如，進行100次訓練，其中99次行人模型可以與目標車輛發生交通事故，則可以認為訓練完成，得到訓練後的行人模型。
64.需要說明的一點是，在步驟s220中選取的目標車輛本身可能存在一定的概率與行人模型發生交通事故，通過步驟s230對行人模型的訓練，可以提高行人模型與目標車輛發生交通事故的概率。例如，在步驟s220中選擇的目標車輛存在20％的概率與行人模型發生
碰撞，而通過步驟s230對行人模型的訓練完成之後，行人模型與目標車輛發生交通事故的概率提高到90％。也就是說，步驟s230中的預設閾值大於步驟s220中的預設概率。
65.本公開提供的實施例中，根據仿真系統的地圖信息和仿真系統中目標車輛的行駛信息，得到行人模型的訓練數據；利用訓練數據，對行人模型進行強化學習的訓練，以使訓練後的行人模型與目標車輛發生交通事故的概率大於預設閾值。由於訓練後的行人模型較大概率可以與目標車輛發生交通事故，後續將自動駕駛車輛作為目標車輛接入仿真系統進行測試時，行人模型會做出較大概率與該自動駕駛車輛發生交通事故的行進動作，從而可以有效的對自動駕駛車輛的靈敏度進行測試。
66.圖3是根據一示例性實施例示出的一種行人模型獲得獎勵值的方法的流程圖。如圖3所示，該方法包括以下步驟。
67.在步驟s310中，根據行人模型在多個輪次的訓練過程中生成的歷史行進動作信息和當前輪次的行進動作信息，利用第一神經網絡模型得到第一值。
68.第一神經網絡模型可以為基於時序的神經網絡模型，包括但不限於：rnn(循環神經網絡模型，recurrent neural network)、lstm(長短期記憶，long short-term memory)模型等。rnn對於每一個時刻的輸入結合當前模型的狀態給出一個輸出，其來源是為了刻畫一個序列當前的輸出與之前輸入的信息的關係。rnn擅長解決與時間序列相關的問題，對於一個序列數據，可以將這個序列上不同時刻的數據依次傳入rnn的輸入層，rnn的輸出可以是對序列中下一個時刻的預測，也可以是對當前時刻信息的處理結果(例如語音識別結果)。lstm為基於rnn改進後的模型，lstm不僅能夠解決rnn無法處理的長距離的依賴的問題，還能夠解決神經網絡中常見的梯度爆炸或梯度消失等問題，在處理序列數據方面非常有效。
69.在一些實施例中，第一神經網絡模型可以為lstm模型，如圖10所示，可以將多個輪次(例如10個輪次)的訓練過程中生成的歷史行進動作信息和當前輪次的行進動作信息作為輸入數據，依次輸入lstm模型，lstm模型輸出第一值。行人模型與目標車輛發生交通事故的結果，與行人模型輸出的一系列動作信息相關聯，行人模型從初始位置向目標地點行進的過程中，可以根據動作信息作出向前行進、路徑選擇、轉向等動作，逐步使其自身的位置和目標車輛的位置越來越接近，發生交通事故的概率越來越大。經過多次訓練，lstm模型可以根據歷史行進動作信息和當前輪次的行進動作信息確定當前輪次的行進動作信息對於行人模型與目標車輛發生交通事故的結果產生的影響，並用數值來表示該影響的大小，即lstm模型輸出的第一值。也就是說，本實施例中，第一值用於指示當前輪次的行進動作信息對行人模型與目標車輛發生交通事故的影響程度。
70.在步驟s320中，根據地圖信息中的邊框數據，利用第二神經網絡模型得到第二值。
71.地圖信息中的邊框數據包括行人模型的邊框數據和/或目標車輛的邊框數據。在一些實施例中，邊框數據可以為二維的邊界框(box)，其包括目標對象(例如，行人模型、目標車輛等)的左上角的位置坐標、左下角的位置坐標、右上角的位置坐標以及右下角的位置坐標。
72.第二神經網絡模型可以為卷積神經網絡模型，如圖10所示，可以將邊框數據輸入卷積神經網絡模型，卷積神經網絡模型輸出第二值。經過多次訓練，卷積神經網絡模型可以根據地圖信息中的邊框數據，確定行人模型與目標車輛之間的距離、相對位置等信息，並通
過第二值將該信息量化。也就是說，本實施例中，第二值用於指示行人模型與目標車輛之間的位置信息，如距離、相對位置等。
73.在步驟s330中，根據第一值和第二值，利用線性變換算法，得到獎勵值。
74.線性變換為保持線性關係的變換或映射。在一些實施例中，線性變換算法可以為二元一次方程的形式，僅作為示例，線性變換算法可以如下述公式(1)所示。
75.y＝ax1+bx2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
76.在公式(1)中，x1為第一值，x2為第二值，a和b為通過訓練得到的係數，y為獎勵值。
77.在一些實施例中，線性變化算法也可以為全連接層，第一值和第二值作為該全連接層的輸入，全連接層輸出獎勵值，全連接層的權重係數(即上述公式(1)中的a和b)可以通過訓練得到。如圖10所示，lstm輸出的第一值，和卷積神經網絡模型輸出的第二值，作為全連接層的輸入，全連接層輸出獎勵值。
78.在一些實施例中，在行人模型與目標車輛發生交通事故的情況下，利用線性變換算法得到事故發生獎勵值；在行人模型未與目標車輛發生交通事故的情況下，利用線性變換算法得到事故未發生獎勵值；事故發生獎勵值大於事故未發生獎勵值，即相比於行人模型未與目標車輛發生交通事故，在行人模型與目標車輛發生交通事故的情況下，行人模型獲得的獎勵值更大。
79.在本公開提供的實施例中，根據行人模型在多個輪次的訓練過程中生成的歷史行進動作信息和當前輪次的行進動作信息，利用第一神經網絡模型得到可以較為精確的表示當前輪次的行進動作信息對於行人模型與目標車輛發生交通事故的結果產生的影響的第一值；根據地圖信息中的邊框數據，利用第二神經網絡模型，得到可以反映行人模型與目標車輛之間的距離、相對位置等信息的第二值；根據第一值和第二值，利用線性變換算法，得到綜合了第一值和第二值的獎勵值。因此，本實施例可以達到如下訓練目標：行人模型與目標車輛發生交通事故的概率越大，得到的獎勵值也越大。
80.圖4是根據一示例性實施例示出的又一種行人模型獲得獎勵值的方法的流程圖。如圖4所示，該方法包括以下步驟。
81.步驟s410，將地圖信息中的邊框數據，輸入卷積神經網絡模型。
82.在本實施例中，根據行人模型是否與目標車輛發生交通事故確定獎勵值。關於地圖信息中的邊框數據，以及卷積神經網絡模型對邊框數據的處理參見步驟s320中的相關描述，這裡不再贅述。
83.步驟s420，在行人模型與目標車輛發生交通事故的情況下，通過卷積神經網絡模型輸出第一獎勵值。
84.卷積神經網絡模型可以通過地圖信息中的邊框數據確定行人模型與目標車輛是否發生交通事故，如果是，則輸出第一獎勵值，第一獎勵值可以為大於0的數值。
85.僅作為示例，在行人模型與目標車輛之間的距離小於預設距離閾值(例如，5釐米)的情況下，可以確定行人模型與目標車輛將要或已經發生交通事故，可以將第一獎勵值設為一個較大的數值。
86.步驟s430，在行人模型未與目標車輛發生交通事故的情況下，通過卷積神經網絡模型輸出第二獎勵值；其中，第一獎勵值大於第二獎勵值。
87.關於根據行人模型與目標車輛之間的距離以及相對位置確定獎勵值的方法，可以
參見步驟s320中獲取第二值的方法描述，這裡不再贅述。
88.在具體實施過程中，可以根據行人模型與目標車輛之間的距離以及相對位置確定第二獎勵值。僅作為示例，在行人模型與目標車輛之間的距離大於預設距離閾值(例如，5釐米)的情況下，可以確定行人模型與目標車輛並未發生交通事故，可以將第二獎勵值設為一個較小的數值。
89.可選地，第一獎勵值和第二獎勵值可以是預先設置的數值，第一獎勵值大於第二獎勵值；並且，在發生交通事故的情況與第一獎勵值之間預先建立了對應關係、在未發生交通事故的情況與第二獎勵值之間預先建立了對應關係。從而，通過卷積神經網絡模型對地圖信息中的邊框數據處理時，若卷積神經網絡模型確定行人模型與目標車輛發生交通事故，則卷積神經網絡模型輸出第一獎勵值；若卷積神經網絡模型確定行人模型未與目標車輛發生交通事故，則卷積神經網絡模型輸出第二獎勵值。
90.本公開提供的實施例中，將地圖信息中的邊框數據，輸入卷積神經網絡模型；在行人模型與目標車輛發生交通事故的情況下，卷積神經網絡模型輸出第一獎勵值；在行人模型未與目標車輛發生交通事故的情況下，卷積神經網絡模型輸出第二獎勵值。由於在本實施例中，根據行人模型是否與目標車輛發生交通事故而生成獎勵值，因此可以使得行人模型在較短時間內學習到如何與目標車輛發生交通事故的策略。
91.圖5是根據一示例性實施例示出的一種行人模型生成動作信息的方法的流程圖。如圖5所示，該方法包括以下步驟。
92.步驟s510，將仿真系統的地圖信息的狀態表徵輸入卷積神經網絡模型，得到仿真系統中可放置行人模型的位置信息。
93.如圖9所示，可以將地圖信息的狀態表徵輸入卷積神經網絡模型，卷積神經網絡模型輸出位置信息。
94.經過訓練，卷積神經網絡模型可以根據地圖信息確定出仿真系統中可以放置行人模型的位置信息。例如，仿真系統中包括綠化帶、人行道、車輛道路等，人行道上可能存在行人、停靠的車輛等，卷積神經網絡模型可以將人行道上不存在其他物體的位置作為可以放置行人模型的位置信息。
95.在具體實施過程中，可放置行人模型的位置信息可以包括一個或多個可放置行人模型的位置，每個可放置行人模型的位置對應一塊或者多塊預設面積大小的區域信息。例如，可以將人行道按長度和寬度劃分為多個區域，一個可放置行人模型的位置對應一個或多個區域，從而可放置行人模型的位置信息可以包括人行道中的部分或全部區域。
96.應理解，圖4所示實施例中使用的卷積神經網絡模型和圖5所示實施例中使用的卷積神經網絡模型是分別訓練的，它們可以是兩個獨立的卷積神經網絡模型。
97.步驟s520，根據目標車輛的行駛信息的狀態表徵，得到先驗信息；其中，先驗信息包括目標車輛沿行駛方向的區域信息。
98.如圖9所示，可以將行駛信息的狀態表徵輸入先驗信息計算模型，得到先驗信息。
99.先驗信息可以為較大概率發生交通事故的位置信息，其包括目標車輛沿行駛方向的區域信息。目標車輛沿行駛方向的區域信息可以為目標車輛的車頭部分沿可能的行駛方向形成的扇形區域，當行人模型在該區域內時，與目標車輛發生交通事故的概率較大。在具體實施過程，可以根據目標車輛的速度，確定扇形區域的大小。例如，可以根據目標車輛的
速度與目標車輛的位置，行人模型的速度與行人模型的位置，計算得到行人模型與目標車輛可能發生交通事故的位置，根據該位置確定扇形區域的大小。
100.步驟s530，根據可放置行人模型的位置信息和先驗信息，得到動作信息。
101.在具體實施過程中，可以根據步驟s510中得到的可以放置行人模型的位置信息，確定行人模型可能的行進動作信息。例如，行人模型的右側存在行人a，則行人模型可以前行以及左轉。又例如，行人模型的前方有臨時停靠的車輛b，左側為綠化帶，則行人模型可以向右前方行進、或者右轉。
102.在具體實施過程中，可以根據可放置行人模型的位置信息和先驗信息確定行人模型最大概率與目標車輛發生交通事故的行進動作，將其作為行人模型的動作信息。例如，如果行人模型右側為可放置行人模型的位置，同時也是目標車輛即將左轉到達的位置(先驗信息)，則可以將「右轉」(例如，可以通過行人模型的8個位置點的坐標信息表示，詳細內容參見步驟s220中的相關描述)作為行人模型的行進動作。又例如，如果行人模型前方為可放置行人模型的位置，同時也是直行的目標車輛的車頭前方位置(先驗信息)，則可以將「直行」作為行人模型的行進動作。
103.本公開提供的實施例中，將仿真系統的地圖信息的狀態表徵輸入卷積神經網絡模型，得到仿真系統中可放置行人模型的位置信息；根據目標車輛的行駛信息的狀態表徵，得到先驗信息；根據位置信息和先驗信息，得到動作信息。由於根據位置信息可以確定仿真系統中可以放置行人的位置，根據先驗信息可以確定存在較大概率可以與目標車輛發生交通事故的位置，因此，在本實施例中，可以根據位置信息和先驗信息確定出存在較大概率可以與目標車輛發生交通事故的行人模型的行進動作信息。
104.圖6是根據一示例性實施例示出的對自動駕駛車輛進行測試的方法的流程圖。如圖6所示，該方法包括以下步驟。
105.步驟s610，獲取仿真系統的地圖信息和被測試車輛的行駛信息；其中，被測試車輛在自動駕駛模型的控制下行駛在仿真系統中；行駛信息包括被測試車輛的位置和/或速度。
106.關於地圖信息和行駛信息的其它介紹說明，請參見步驟s310中的相關描述，在此不再贅述。
107.步驟s620，根據地圖信息和行駛信息，得到訓練後的行人模型在仿真系統中的初始位置。
108.其中，行人模型用於對被測試車輛進行測試，關於行人模型的訓練過程請參見上述圖2至圖5實施例中的相關描述，這裡不再贅述。在具體實施過程中，可以根據地圖信息，得到仿真系統中可放置行人模型的位置信息；根據行駛信息，得到先驗信息，其中，先驗信息包括被測試車輛沿行駛方向的區域信息。關於可放置行人模型的位置信息和先驗信息的其它介紹說明，請參見圖5所示實施例中的相關描述，這裡不再贅述。
109.在具體實施過程中，可以從可放置行人模型的位置信息中選擇同時也屬於被測試車輛沿行駛方向的區域信息的位置，作為行人模型在仿真系統中的初始位置。若存在多個位置同時屬於可放置行人模型的位置信息和被測試車輛沿行駛方向的區域信息，則可以從這多個位置中隨機選擇一個位置作為行人模型的初始位置，也可以從這多個位置中選擇離被測試車輛最近的位置作為行人模型的初始位置，本實施例對具體實施過程不作限定。
110.步驟s630，控制行人模型從初始位置向目標地點行進，在行人模型在行進過程中
與被測試車輛發生交通事故的情況下，確定被測試車輛測試失敗。
111.目標地點是訓練後的行人模型自行決策得到的。通過上述圖2至圖5實施例完成訓練的行人模型，能夠基於仿真系統中可放置行人模型的位置信息(由卷積神經網絡模型基於仿真系統的地圖信息的狀態表徵處理得到)，以及被測試車輛沿行駛方向的區域信息，自行決策得到行進動作信息，該行進動作信息包括但不限於以下至少一項：目標地點、行進動作類型、行進動作方向、行進動作速度，等等。訓練後的行人模型在決策得到行進動作信息之後，即按照該行進動作信息從初始位置向目標地點行進。
112.交通事故包括但不限於：行人模型和被測試車輛相撞、行人模型被被測試車輛碾壓等情況。
113.在具體實施過程中，如果在預設次數(例如，100次)的測試中，均確定被測試車輛測試成功，也即行人模型在行進過程中未與被測試車輛發生交通事故，則可以說明用於控制被測試車輛的自動駕駛模型的靈敏度足夠高，可以通過自動駕駛靈敏度和安全性測試。或者，如果在預設次數(例如，100次)的測試中，大部分情況下(例如，預設次數的90％，90次)確定被測試車輛測試成功，小部分情況下(例如，預設次數的10％，10次)確定被測試車輛測試失敗，則可以說明用於控制被測試車輛的自動駕駛模型的靈敏度足夠高，可以通過自動駕駛靈敏度和安全性測試。
114.本公開提供的實施例中，獲取仿真系統的地圖信息和被測試車輛的行駛信息；根據地圖信息和行駛信息，得到訓練後的行人模型在仿真系統中的初始位置，從而可以根據該初始位置，將行人模型放置到較大概率會與被測試車輛發生交通事故的位置；控制行人模型從初始位置向目標地點行進，在行人模型在行進過程中與被測試車輛發生交通事故的情況下，確定被測試車輛測試失敗，有助於對控制被測試車輛的自動駕駛模型的靈敏度和安全性進行有效的測試。
115.示例性裝置
116.圖11是根據一示例性實施例示出的一種行人模型的訓練裝置的框圖。參照圖11，該裝置1100包括：模型構建模塊1110、數據獲取模塊1120、模型訓練模塊1130。
117.模型構建模塊1110，用於構建行人模型。
118.數據獲取模塊1120，用於根據仿真系統的地圖信息和所述仿真系統中目標車輛的行駛信息，得到所述行人模型的訓練數據；其中，所述目標車輛為所述仿真系統中正在行駛的車輛，且所述目標車輛與所述行人模型發生交通事故的概率大於預設概率；所述行駛信息包括所述目標車輛的位置和/或速度。
119.模型訓練模塊1130，用於利用所述訓練數據，對所述行人模型進行強化學習的訓練，以使訓練後的行人模型與所述目標車輛發生交通事故概率大於預設閾值，所述預設閾值大於所述預設概率；其中，所述行人模型的輸入為所述地圖信息的狀態表徵和所述行駛信息的狀態表徵，所述行人模型的輸出為行進動作信息。
120.可選地，所述訓練數據中的一組樣本包括狀態信息、動作信息、獎勵信息；所述狀態信息包括所述仿真系統的地圖信息的狀態表徵和所述目標車輛的行駛信息的狀態表徵；或者，所述狀態信息包括所述仿真系統的地圖信息的狀態表徵；所述動作信息包括所述行人模型基於輸入的所述狀態信息輸出的行進動作信息；所述獎勵信息包括所述行人模型按照所述動作信息向目標地點行進時，根據所述行人模型與所述目標車輛發生交通事故的概
processing unit，cpu)、圖像處理器(graphic process unit，gpu)、現場可編程門陣列(field programmable gate array，fpga)、片上系統(system on chip，soc)、專用集成晶片(application specific integrated circuit，asic)或它們的組合。
130.存儲器1220可以由任何類型的易失性或非易失性存儲設備或者它們的組合實現，如靜態隨機存取存儲器(sram)，電可擦除可編程只讀存儲器(eeprom)，可擦除可編程只讀存儲器(eprom)，可編程只讀存儲器(prom)，只讀存儲器(rom)，磁存儲器，快閃記憶體，磁碟或光碟。
131.在本公開實施例中，存儲器1220中存儲有可執行指令，處理器1210可以從所述存儲器1220中讀取所述可執行指令，並執行所述指令以實現上述示例性實施例中行人模型的訓練方法的全部或部分步驟。
132.示例性計算機可讀存儲介質
133.除了上述方法和裝置以外，本公開示例性實施例還包括電腦程式產品或存儲有該電腦程式產品的計算機可讀存儲介質。該計算機產品中包括電腦程式指令，該電腦程式指令可被處理器執行，以實現上述示例性實施例中描述的全部或部分步驟。
134.電腦程式產品可以以一種或多種程序設計語言的任意組合來編寫用於執行本技術實施例操作的程序代碼，所述程序設計語言包括面向對象的程序設計語言，諸如java、c++等，還包括常規的過程式程序設計語言，諸如「c」語言或類似的程序設計語言以及腳本語言(例如python)。程序代碼可以完全地在用戶計算設備上執行、部分地在用戶設備上執行、作為一個獨立的軟體包執行、部分在用戶計算設備上部分在遠程計算設備上執行、或者完全在遠程計算設備或伺服器上執行。
135.計算機可讀存儲介質可以採用一個或多個可讀介質的任意組合。可讀介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以包括但不限於電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件，或者任意以上的組合。可讀存儲介質更具體的例子包括：具有一個或多個導線電連接的靜態隨機存取存儲器(sram)，電可擦除可編程只讀存儲器(eeprom)，可擦除可編程只讀存儲器(eprom)，可編程只讀存儲器(prom)，只讀存儲器(rom)，磁存儲器，快閃記憶體，磁碟或光碟，或者上述的任意合適的組合。
136.本領域技術人員在考慮說明書及實踐本公開後，將容易想到本公開的其它實施方案。本技術旨在涵蓋本公開的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本公開的一般性原理並包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本公開也並不局限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

行人模型的訓練方法、裝置、電子設備以及存儲介質

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法