天天看點

高效測試資料生成和管理的生成式人工智能

作者:科技狠活與軟體技術

想象一下,一位畫家準備創作一幅傑作,但卻被限制在有限的調色闆上。他們能創作出美麗的作品嗎?當然可以!這與軟體測試的世界非常相似,我們無法獲得多樣化和豐富的測試資料。幸運的是,生成式人工智能(Generative AI)可以在這種情況下改變遊戲規則。

高效測試資料生成和管理的生成式人工智能

生成式人工智能就像一個藝術學生,觀察、吸收,然後重新創作能與經驗豐富的畫家作品競争的繪畫作品。這種人工智能學習輸入資料中的模式,然後生成模拟這些模式的新資料。額外的好處是,它可以接受訓練,以遵守防止使用原始資料的治理、隐私、安全或道德準則。

了解生成式人工智能和合成資料 生成式人工智能是人工智能的一個子領域,就像一個有創造力的學徒。它學習輸入資料中的模式,然後産生與這些模式相似的新資料。合成資料是以密切模仿原始資料特征而建立和制作的資料。

利用生成式人工智能進行欺詐檢測:一個案例 想象一下Alpha公司,一個金融機構,正在開發一個欺詐檢測系統——一個通過機器學習模型訓練的系統,用于區分欺詐和合法交易。為了有效地訓練這個模型,他們需要一個大規模且多樣化的資料集,足以充分代表兩種類型的交易。

真實資料面臨的挑戰 事實上,欺詐交易就像在一堆中找針一樣,他們非常罕見。是以,生成一個包含大量欺詐交易的真實世界資料集是很困難的。治理和道德限制可能進一步增加并限制用于訓練模型的可用資料。

是以,對這樣的資料集進行訓練可能會産生一個在預測合法交易方面表現良好但無法識别欺詐交易的系統。這種對多數類别(合法交易)的偏見是一個常見的問題,被稱為“類别不平衡”。

生成式人工智能派上用場 這裡就是生成式人工智能所能發揮作用的地方。假設在一個包含一百萬個交易的資料集中,隻有1000筆是欺詐交易。可以在這個資料集上對生成式人工智能模型進行訓練,識别出欺詐和合法交易的特征。

一旦經過适當的訓練,模型可以生成緊密比對真實交易的合成交易。生成式人工智能的一個顯著特點是,它可以被訓示以特定的比例生成資料。在這種情況下,人工智能可以生成一個包含欺詐和非欺詐交易的資料集。這個新的合成資料集,富含欺詐交易,密切模仿真實世界的情況。

通過在這個資料集上進行訓練,欺詐檢測系統更不容易受到偏見,更能夠識别欺詐和非欺詐交易,因為資料集是平衡的。

真實影響 通過使用生成式人工智能建立一個平衡的資料集,Alpha公司可以建構一個更有效的欺詐檢測系統。一個表現更好的系統有可能通過捕捉可能會被忽視的欺詐交易來為機構節省數百萬。此外,它還可以提高客戶的信任和滿意度。通過遏制此類事件,機構可以保留客戶的信任和忠誠。

此外,使用合成資料進行嚴格的測試和開發,而不會侵犯客戶的隐私或違反資料保護法規。這可以避免機構可能遇到的法律問題和聲譽損害。

在本質上,生成式人工智能的應用不僅增強了機構欺詐檢測系統的技術能力,也顯著提升了其業務目标和客戶關系。

用于簡化測試資料管理的生成式人工智能 想象一下,試圖維護一個巨大、混亂的圖書館,這有時會讓人覺得管理大量測試資料就像這樣。生成式人工智能提供了一個更智能的解決方案;它可以根據需要生成測試資料,減少對大量存儲空間的需求,并確定資料始終是新鮮的。

在連續測試環境中,每天運作多個測試并使用靜态測試資料可能會導緻由于資料過時而導緻無效的測試。然而,通過生成式人工智能,測試團隊可以為每次測試運作生成一組新的資料,確定覆寫各種場景。

一個真實的例子:電子商務測試 考慮一個全球知名的電子商務公司Alpha公司,他們管理着一個為全球數百萬客戶提供服務的複雜網站平台。該平台擁有衆多功能,包括産品浏覽、客戶評價、購物車管理和複雜的結賬和支付處理。為了確定順利運作,Alpha公司采用連續測試以及及時發現和解決問題。

Alpha公司的測試團隊每天進行大量測試,以驗證系統的功能、性能和安全性。為了使這些測試有效,他們需要多樣化和更新的資料,以模仿真實世界客戶的互動。

傳統設定面臨的挑戰 在傳統設定中,測試團隊會使用從生産資料複制的靜态資料集。然而,這種方法存在兩個主要問題:

資料過時:随着市場動态和客戶行為的不斷變化,靜态資料很快就會過時,導緻測試效果不佳。

存儲問題:保持一個與生産資料多樣性和數量相比對的大型靜态測試資料集需要大量的存儲空間和不斷的管理,增加了複雜性和成本。

生成式人工智能派上用場 然而,Alpha公司已經将生成式人工智能納入他們的測試過程,以應對這些挑戰。在每次測試運作之前,生成式人工智能模型會根據生産資料的模式建立一個與真實資料密切相似的全新合成資料集。

例如,在測試支付處理系統時,生成式人工智能模型會為不同類型的信用卡、購買金額、使用者位置和交易時間生成合成資料,模仿目前客戶的交易行為。

真實影響 資料的新鮮度確定它反映了客戶行為的最新趨勢和模式,進而實作更有效和相關的測試。由于合成資料是根據需求生成的,并且可以在測試後丢棄,是以大大減少了對龐大存儲和資料管理基礎設施的需求。

通過将生成式人工智能整合到他們的測試資料管理中,Alpha公司確定了更有效和高效的連續測試,提高了系統的可靠性和增強了客戶體驗。

挑戰和考慮因素 采用生成式人工智能也存在一些挑戰。AI模型的訓練資料的品質最終影響着輸出資料的品質。除非我們清楚了解用于生成人工智能模型訓練的資料源,否則對建立的資料的品質會産生質疑。此外,使用生成式人工智能生成測試資料需要大量的計算資源,這對于所有組織來說可能是不可行的。

在倫理方面,盡管合成資料不包含任何敏感資訊,但確定它不會意外透露有關訓練資料中個人的任何資訊非常重要。負責任地處理這些挑戰是關鍵。

生成式人工智能注定将改變軟體測試的格局。通過使我們能夠建立多樣化和真實的合成資料,它迎來了軟體測試的新時代——更高效、全面和靈活的時代。

展望未來,生成式人工智能的前景令人興奮。這項技術的進步有可能重塑目前的工作流程和實踐。組織必須保持更新,準備适應。

雖然內建生成式人工智能的道路可能會遇到一些困難,但潛在的回報——更高效、全面和适應性強的軟體測試——使它成為一段值得走的旅程。讓我們以負責任的态度引導這條道路,并擁抱生成式人工智能所帶來的光明未來。

Goodfellow, Ian, et al.,“Generative Adversarial Nets,”Advances in Neural Information Processing Systems,2014. [papers.nips.cc/paper/5423-generative-adversarial-nets]

Toraskar,Kshitij,等。“Synthetic Data for Deep Learning.” IBM Developer,2020年8月24日,[developer.ibm.com/technologies/artificial-intelligence/articles/synthetic-data-for-deep-learning/]

Duman,Evrim和M. Hamit Serin。“用決策樹和支援向量機檢測信用卡欺詐。”國際工程師和計算機科學家大會,第1卷,2011年。[www.iaeng.org/publication/IMECS2011/IMECS2011_pp442-447.pdf]

Horton,Bob。“類别不平衡,再探。” Microsoft Developer Blogs,2016年12月29日,[developer.microsoft.com/en-us/microsoft-365/blogs/class-imbalance-redux/]

Ghosh,Souvik。“使用生成對抗網絡(GAN)生成的資料。” Medium,Towards Data Science,2020年3月23日,[towardsdatascience.com/data-generation-with-generative-adversarial-networks-gans-977bdc2a89a0]

Reich,Gary。“您的自動化腳本中陳舊資料的隐藏成本。” Applitools,2018年11月27日,[applitools.com/blog/stale-test-data]

Ching,Andrew,等。“用于生産機器學習服務的計算需求。” Medium,Towards Data Science,2018年7月18日,[towardsdatascience.com/on-the-computational-requirements-for-production-machine-learning-services-208b311dbf6e]

Mehta,Anjali。“AI中的隐私和倫理。” Medium,Becoming Human: Artificial Intelligence Magazine,2020年6月2日,[becominghuman.ai/privacy-and-ethics-in-ai-d0d21a624018]

繼續閱讀