• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    可翻譯語(yǔ)言的模型也會(huì)“胡言亂語(yǔ)”?

    2022-10-13 10:36:16
    海外星云 2022年16期
    關(guān)鍵詞:人工智能文本人員

    在計(jì)算機(jī)領(lǐng)域,作為算法的其中一類,大型語(yǔ)言模型的用途日益廣泛。它可以學(xué)習(xí)數(shù)十億個(gè)單詞和短語(yǔ)之間的統(tǒng)計(jì)關(guān)聯(lián),并完成語(yǔ)言翻譯、摘要生成、文本分類和問題解答等任務(wù)。

    這類模型采用了一種名為“神經(jīng)網(wǎng)絡(luò)”的靈感架構(gòu),通過不斷調(diào)整那些被稱為參數(shù)的值來(lái)執(zhí)行模型訓(xùn)練,并以抹去文字的方法,完成現(xiàn)實(shí)與預(yù)測(cè)結(jié)果之間的比對(duì)。

    完成訓(xùn)練后的模型不僅可以自動(dòng)生成美好的詩(shī)歌,還能正確回答很多生活中會(huì)遇到的小問題,在一定程度上給予了人們較大幫助。

    不過,目前的語(yǔ)言模型并沒有感知語(yǔ)言意義的能力,因此,模型在執(zhí)行任務(wù)的時(shí)候,可能發(fā)生“胡言亂語(yǔ)”的情況。更令人擔(dān)憂的是,模型在選擇源頭學(xué)習(xí)數(shù)據(jù)時(shí)存在局限性,會(huì)給之后的工作帶來(lái)嚴(yán)重的倫理缺陷或?qū)嵺`缺陷,比如泄露私密數(shù)據(jù)、提供錯(cuò)誤信息、助長(zhǎng)虐待或偏見等。因?yàn)榇蠖鄶?shù)此類模型由大型科技公司開發(fā),其內(nèi)部工作原理并不對(duì)外展示,所以,想要解決上述問題并不容易。

    為了克服這些難題,打破大型科技公司對(duì)自然語(yǔ)言處理的壟斷,減少可能出現(xiàn)的有害影響,一個(gè)名為“BigScience”的國(guó)際合作項(xiàng)目推出了BLOOM模型的早期版本,希望它能有助于減少人工智能語(yǔ)言模型的有害輸出。

    BLOOM模型是第一個(gè)大規(guī)模多語(yǔ)言模型,擁有1760億個(gè)參數(shù),并由數(shù)百名研究人員完成,其中大部分是學(xué)者,包括哲學(xué)家、法律學(xué)家和倫理學(xué)家,也有一些來(lái)自臉書、谷歌等公司、以個(gè)人身份參與工作的員工。該模型的計(jì)算訓(xùn)練工作得到了價(jià)值700萬(wàn)美元的公共資助,從規(guī)模來(lái)看可與OpenAI、谷歌等公司開發(fā)的語(yǔ)言模型相媲美,但它將是開源的。

    通常情況下,包括Reddit網(wǎng)站在內(nèi)的大多數(shù)語(yǔ)言模型都直接從網(wǎng)絡(luò)上抓取語(yǔ)言,而語(yǔ)言模型的好壞卻取決于其基于的數(shù)據(jù)集。對(duì)此,Hugging Face公司的機(jī)器學(xué)習(xí)研究員雅辛·杰尼特認(rèn)為:“選擇模型需要學(xué)習(xí)的文本是一項(xiàng)非常關(guān)鍵的任務(wù)。”

    為了選擇文本資源,研究人員參與了非洲自然語(yǔ)言處理社區(qū)Masakhane、 LatinX in AI、Machine Learning Tokyo等在內(nèi)的一系列社區(qū)團(tuán)體研討會(huì)。此后,BigScience 的研究人員從500個(gè)來(lái)源中精心挑選了規(guī)模為3410億字的數(shù)據(jù)集中近2/3的內(nèi)容。

    其內(nèi)容不僅包括《自然》等文章,還包括語(yǔ)義學(xué)者這類人工智能支持的學(xué)術(shù)出版物搜索引擎。杰尼特表示:“我們希望確保那些與他們的國(guó)家、與他們所說(shuō)的語(yǔ)言以及與數(shù)據(jù)密切相關(guān)的人能夠參與進(jìn)來(lái),共同選擇進(jìn)入模型訓(xùn)練的語(yǔ)言文本?!?/p>

    研究人員為解決語(yǔ)言模型存在的缺陷付出了諸多努力。首先,他們充分利用現(xiàn)有的計(jì)算能力,在使用多語(yǔ)言網(wǎng)絡(luò)進(jìn)行抓取的同時(shí),對(duì)數(shù)據(jù)進(jìn)行了質(zhì)量過濾,還完成了隱私編輯工作。其次,他們還通過減少網(wǎng)站的過度呈現(xiàn),來(lái)克制模型中可能產(chǎn)生的偏見與歧視。雖然BLOOM模型不可能完全消除偏見,但在確保提供多元文化和高質(zhì)量資源的基礎(chǔ)上,模型的整體質(zhì)量可以得到很大的提升。

    作為一個(gè)擁有人工智能模型和數(shù)據(jù)集的開源平臺(tái)的公司,Hugging Face的聯(lián)合創(chuàng)始人托馬斯·沃爾夫評(píng)價(jià)說(shuō):“BLOOM模型背后的代碼和數(shù)據(jù)集是開放的,所以研究人員可以試圖了解有害行為的根源,這可能有助于未來(lái)迭代版本的改進(jìn)?!?/p>

    同時(shí),在模型評(píng)估方面,研究人員除了比較BLOOM模型與其他模型在回答問題方面的能力,還設(shè)置了更為多樣化的指標(biāo),包括語(yǔ)言模型產(chǎn)生特定刻板印象的強(qiáng)度、語(yǔ)言模型在特定語(yǔ)言下產(chǎn)生的偏見大小等。布朗大學(xué)自然語(yǔ)言學(xué)習(xí)研究員艾麗·帕弗里克認(rèn)為:“由于這個(gè)模型已經(jīng)被訓(xùn)練成多語(yǔ)言,因此它可能對(duì)語(yǔ)言有著更深的理解,有助于其能力延伸至各類任務(wù)?!?/p>

    目前,BLOOM模型正處于3個(gè)月訓(xùn)練期的最后幾周。訓(xùn)練結(jié)束后的模型可供研究人員下載,并開展進(jìn)一步的實(shí)驗(yàn)和新數(shù)據(jù)訓(xùn)練。

    需要說(shuō)明的是,第一,下載并運(yùn)行該模型需要很大的硬件容量。第二,為允許實(shí)驗(yàn)室跨服務(wù)器共享模型,BigScience還將發(fā)布更小且更少的硬件密集型版本,完成分布式系統(tǒng)的創(chuàng)建。第三,近期Hugging Face公司還會(huì)發(fā)布一款應(yīng)用程序,幫助使用者在不下載的狀態(tài)下查詢BLOOM模型。第四,在使用該模型之前,使用者需要簽署一份不斷發(fā)展的法律許可,不得用模型來(lái)服務(wù)不當(dāng)目的。

    目前,BLOOM模型已在多領(lǐng)域得到了應(yīng)用。它既可以作為探索人工智能的工具,又可以從歷史文本中提取信息,還可以完成一些生物學(xué)方面的分類工作。

    猜你喜歡
    人工智能文本人員
    靈活就業(yè)人員參保如何繳費(fèi)
    在808DA上文本顯示的改善
    讓刑滿釋放人員找到家的感覺
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    人工智能與就業(yè)
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    下一幕,人工智能!
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    急救人員已身心俱疲
    武山县| 井陉县| 丰城市| 获嘉县| 鹰潭市| 四会市| 喀什市| 阿荣旗| 威海市| 云浮市| 安仁县| 冷水江市| 西昌市| 玛曲县| 天气| 横山县| 武山县| 蓝山县| 瑞安市| 洮南市| 北辰区| 台东市| 宜君县| 都匀市| 蒲江县| 开封市| 土默特左旗| 阿鲁科尔沁旗| 临汾市| 桃园县| 丰都县| 沛县| 和政县| 灵宝市| 大城县| 海口市| 通榆县| 睢宁县| 云和县| 曲松县| 长宁区|