Serangan OpenAI adalah pengingat bahawa syarikat AI adalah khazanah tersembunyi bagi penggodam

Tiada keperluan untuk bimbang bahawa perbualan sulit ChatGPT anda telah diperolehi dalam pelanggaran sistem OpenAI yang dilaporkan baru-baru ini. Serangan itu sendiri, walaupun mengganggu, nampaknya agak sekadar permukaan - tetapi ia adalah pengingat bahawa syarikat AI telah dengan cepat menjadikan diri mereka sebagai salah satu sasaran paling berharga untuk penggodam.

New York Times melaporkan serangan itu dengan lebih terperinci selepas bekas pekerja OpenAI, Leopold Aschenbrenner, memberi petunjuk mengenainya baru-baru ini dalam sebuah podcast. Beliau menyebutnya sebagai "insiden keselamatan utama," tetapi sumber yang tidak dinamakan berkata kepada Times bahawa penggodam hanya mendapat akses ke forum perbincangan pekerja. (Saya mencuba menghubungi OpenAI untuk pengesahan dan komen.)

Tiada pelanggaran keselamatan seharusnya dianggap remeh, dan mendengar perbualan pembangunan dalam OpenAI mempunyai nilai tersendiri. Tetapi ini jauh daripada penggodam mendapat akses kepada sistem dalaman, model dalam pembinaan, peta jalan rahsia, dan sebagainya.

Tetapi ia sepatutnya menakutkan kita juga, dan bukan semata-mata kerana ancaman China atau pihak musuh lain mengatasi kita dalam perlumbaan senjata AI. Fakta mudahnya adalah syarikat-syarikat AI ini telah menjadi penjaga kepada sejumlah data yang sangat berharga.

Mari bincangkan tiga jenis data yang dicipta oleh OpenAI dan, dalam kadar yang lebih rendah, syarikat-syarikat AI lain: data latihan berkualiti tinggi, interaksi pengguna secara pukal, dan data pelanggan.

Tidak pasti data latihan apa yang mereka miliki, kerana syarikat-syarikat ini sangat rahsia tentang harta mereka. Tetapi adalah kesilapan untuk menganggap bahawa mereka hanyalah timbunan besar data web yang diambil. Ya, mereka menggunakan pencabut web atau kumpulan data seperti Pile, tetapi ia merupakan tugas yang amat besar untuk membentuk data mentah itu menjadi sesuatu yang boleh digunakan untuk melatih model seperti GPT-4o. Satu jumlah besar jam kerja manusia diperlukan untuk melakukan ini - ia hanya boleh sebahagian dijalankan secara automatik.

Beberapa jurutera pembelajaran mesin telah berspekulasi bahawa di antara semua faktor yang menyumbang kepada penciptaan model bahasa besar (atau, mungkin, sistem berdasarkan transformer apa pun), yang paling penting adalah kualiti dataset. Itulah sebabnya model yang dilatih pada Twitter dan Reddit tidak akan pernah seindah model yang dilatih pada setiap karya yang diterbitkan dalam abad yang lepas. (Dan mungkin sebabnya OpenAI dilaporkan menggunakan sumber yang meragukan dari segi undang-undang seperti buku-buku berhak cipta dalam data latihan mereka, amalan yang mereka dakwa telah ditinggalkan.)

Sebab itu dataset latihan AI mempunyai harga yang hanya boleh ditanggung oleh Big Tech

Sekiranya model yang dilatih pada Twitter dan Reddit tidak akan pernah seindah model yang dilatih pada setiap karya yang diterbitkan dalam abad yang lepas. (Dan mungkin sebabnya OpenAI dilaporkan menggunakan sumber yang meragukan dari segi undang-undang seperti buku-buku berhak cipta dalam data latihan mereka, amalan yang mereka dakwa telah ditinggalkan.)

Bagaimanapun, adalah perlu menakutkan kita dan bukan semata-mata kerana ancaman China atau pihak musuh lain mengatasi kita dalam perlumbaan senjata AI. Fakta mudahnya adalah syarikat-syarikat AI ini telah menjadi penjaga kepada sejumlah data yang sangat berharga.

Mungkin lagi bernilai adalah harta karun besar data pengguna OpenAI - mungkin berbilion perbualan dengan ChatGPT tentang ratusan ribu topik. Sama seperti data carian pernah menjadi kunci untuk memahami jiwa kolektif web, ChatGPT telah mendapat akses kepada populasi yang mungkin tidak sebegitu meluas seperti pengguna Google, tetapi memberikan lebih mendalam. (Sekiranya anda tidak sedar, melainkan anda memilih untuk keluar, perbualan anda sedang digunakan untuk data latihan)

Sekiranya, misalnya, pengguna melakukan banyak perbualan dengan ChatGPT, dan betapa berguna maklumat ini, bukan sahaja kepada pembangun AI, tetapi juga kepada pasukan pemasaran, perunding, analisis... ia seperti tapak emas.

Kategori data terakhir mungkin adalah yang paling bernilai di pasaran terbuka: bagaimana pelanggan sebenarnya menggunakan AI, dan data yang mereka sendiri berikan kepada model-model tersebut.

Ratusan syarikat besar dan berbagai kecil menggunakan alat seperti OpenAI dan API Anthropic untuk banyak jenis tugas yang sama besarnya. Dan untuk membuat model bahasa berguna kepada mereka, ia biasanya perlu diselaraskan semula atau diberikan akses kepada pangkalan data dalaman mereka sendiri.

Ini mungkin sesuatu yang biasa seperti lembaran bajet lama atau rekod kakitangan (untuk menjadikannya lebih mudah dicari, sebagai contoh) atau sangat bernilai seperti kod untuk perisian yang tidak diumumkan. Apa yang mereka lakukan dengan keupayaan AI (dan samada mereka benar-benar berguna) adalah urusan mereka, tetapi hakikat mudahnya adalah pemberi AI mempunyai akses istimewa, seperti mana produk SaaS lain pun.

Ini adalah rahsia perindustrian, dan syarikat-syarikat AI tiba-tiba berada di tengah-tengah banyak daripadanya. Baruannya bahawa bahagian industri ini membawa risiko khusus kerana proses AI masih belum terstandardisasi atau sepenuhnya difahami.

Seperti mana juga pemberi SaaS lain, syarikat-syarikat AI adalah mampu menyediakan tahap keselamatan standard industri, privasi, pilihan di premis, dan umumnya memberikan perkhidmatan mereka secara bertanggungjawab. Saya tidak ragu bahawa pangkalan data peribadi dan panggilan API pelanggan Fortune 500 OpenAI dikunci dengan sangat ketat! Mereka pastinya lebih menyedari risiko yang terlibat dalam mengendalikan data sulit dalam konteks AI. (Fakta bahawa OpenAI tidak melaporkan serangan ini adalah pilihan mereka untuk membuat, tetapi ia tidak memberikan inspirasi kepercayaan bagi syarikat yang sangat memerlukan itu.)

Tetapi amalan keselamatan yang baik tidak mengubah nilai apa yang mereka dimaksudkan untuk melindungi, atau hakikat bahawa pelaku yang jahat dan musuh berkeliaran di luar pintu untuk masuk. Keselamatan bukanlah hanya memilih tetapan yang betul atau menyimpan perisian anda dikemas kini - walaupun tentu saja asas itu juga penting. Ia adalah permainan kucing-tikus yang tidak berkesudahan yang, ironisnya, kini dipercepat oleh AI itu sendiri: ejen dan automator serangan sedang menyelidik setiap sudut syarikat-syarikat ini untuk serangan.

Tiada sebab untuk panik - syarikat-syarikat dengan akses kepada banyak data peribadi atau bernilai secara komersial telah menghadapi dan menguruskan risiko serupa selama bertahun-tahun. Tetapi syarikat-syarikat AI mewakili satu sasaran yang lebih baru, lebih muda, dan berpotensi lebih menarik daripada pelayan perniagaan yang tersusun dengan buruk atau broker data yang tidak bertanggungjawab. Malah serangan seperti yang dilaporkan di atas, tanpa pengedaran serius yang kita ketahui, sepatutnya membuat sesiapa sahaja yang berurusan dengan syarikat-syarikat AI bimbang. Mereka telah melukis sasaran pada punggung mereka. Jangan terkejut apabila sesiapa, atau semua orang, menjurus.

AI membantu penggodam negara berkembang tetapi juga membantu pengintip AS untuk menemui mereka, kata pengarah siber NSA