Model AI yang memahami video dan teks dapat membuka aplikasi baru yang canggih. Setidaknya itulah yang Jae Lee, salah satu pendirinya Dua belas laboratoriummeyakini.
Tentu saja Lee agak bias. Dua Belas Labs melatih model analisis video untuk berbagai kasus penggunaan. Tapi mungkin ada sesuatu dalam pernyataannya.
Dengan menggunakan model Dua Belas Labs, pengguna dapat mencari video pada waktu tertentu, merangkum klip, atau mengajukan pertanyaan seperti “Kapan orang berkemeja merah memasuki restoran?” Ini adalah serangkaian kemampuan yang kuat, mungkin itulah sebabnya perusahaan menarik sponsor ternama, termasuk Nvidia, Samsung, dan Intel.
Pencarian video
Bagi Lee, yang merupakan seorang data scientist, penelusuran dasar tidak pernah masuk akal untuk video. Pencarian kata kunci dapat menampilkan judul, tag, dan deskripsi, namun tidak dapat mengakses konten klip sebenarnya.
“Video adalah media dengan pertumbuhan tercepat dan paling intensif data, namun sebagian besar organisasi tidak akan mendedikasikan sumber daya manusia untuk melakukan kurasi semua file video mereka,” kata Lee kepada TechCrunch. “Bahkan jika Anda mencoba memberi tag secara manual, itu tidak akan menyelesaikan masalah. Menemukan momen atau sudut tertentu dalam video bisa seperti mencari jarum di tumpukan jerami.”
Setelah gagal menemukan solusi yang lebih baik, Lee merekrut rekannya Aiden Lee, SJ Kim, Dave Chung, dan Soyoung Lee untuk membangunnya. Itulah asal mula Dua Belas Labs, yang melatih model untuk memetakan teks ke apa yang terjadi dalam video, termasuk tindakan, objek, dan suara latar belakang.
Model seperti Google Gemini Anda dapat mencari gambar, dan Microsoft dan Amazon, antara lain, menawarkan layanan analisis video untuk mendeteksi objek dalam klip. Namun Lee berpendapat bahwa produk Twelve Labs menonjol karena opsi penyesuaiannya, yang memungkinkan pelanggan menyesuaikan model menggunakan data mereka sendiri.
“Perusahaan seperti OpenAI dan Google banyak berinvestasi pada model multimodal tujuan umum,” kata Lee, “tetapi model ini tidak dioptimalkan untuk video. Diferensiasi kami terletak pada menjadikan video sebagai yang pertama sejak awal…Kami percaya bahwa video layak mendapatkan fokus eksklusif kami, ini bukan sebuah tambahan.”
Pengembang dapat membuat aplikasi di atas model Dua Belas Labs untuk mencari aliran video dan banyak lagi. Teknologi perusahaan dapat mendukung hal-hal seperti penyisipan iklan, moderasi konten, dan pembuatan gulungan sorotan otomatis dari klip.
Ketika saya berbicara dengan Lee tahun laluSaya bertanya tentang potensi bias dalam model Dua Belas Labs. Ini merupakan faktor risiko yang besar. Tahun 2021 belajar menemukan bahwa melatih model pemahaman video tentang klip berita lokal, yang cenderung meliput kejahatan di a dirasialisasikan Dalam beberapa hal, hal ini dapat membuat model tersebut mempelajari pola rasis.
Lee mengatakan pada saat itu bahwa Dua Belas Labs berencana untuk mempublikasikan kumpulan data dan tolok ukur terkait etika model. Perusahaan belum melakukan hal tersebut. Dalam percakapan kami baru-baru ini, Lee meyakinkan saya bahwa alat ini sedang dalam proses dan bahwa Dua Belas Labs melakukan pengujian bias pada semua modelnya sebelum merilisnya.
“Kami belum mempublikasikan tolok ukur formal mengenai bias karena kami ingin memastikan tolok ukur tersebut bermakna, praktis, dan dapat ditindaklanjuti,” katanya. “Tujuan kami secara keseluruhan adalah untuk mengembangkan tolok ukur yang tidak hanya menjadikan kami akuntabel, namun juga menetapkan standar dalam industri… Sampai kami sepenuhnya mencapai tujuan ini, dan memiliki tim yang mengerjakan hal ini, kami akan secara aktif berupaya menciptakan AI . yang memberdayakan organisasi secara bertanggung jawab, menghormati kebebasan sipil masyarakat, dan mendorong perubahan teknologi.”
Lee menambahkan bahwa Dua Belas Labs melatih modelnya dengan kombinasi domain publik dan data berlisensi, dan tidak memperoleh data pelanggan untuk pelatihan.
Modus pertumbuhan
Analisis video tetap menjadi inti dari apa yang dilakukan oleh Twelve Labs. Namun dalam upaya untuk tetap gesit, perusahaan juga melakukan diversifikasi ke berbagai bidang seperti penelusuran apa pun dan penyematan multimodal.
Salah satu model Dua Belas Labs, Marengo, dapat mencari gambar dan audio selain video, dan menerima referensi rekaman audio, gambar, atau klip video untuk membantu memandu pencarian.
Di tempat lain, perusahaan menawarkan API, Embed API, untuk membuat penyematan multimodal untuk file video, teks, gambar, dan audio. Penyematan adalah representasi matematis yang menangkap makna dan hubungan antara titik data yang berbeda, sehingga berguna untuk aplikasi seperti deteksi anomali.
Portofolio produk Twelve Labs yang berkembang telah membantu startup ini mendapatkan pelanggan di bidang bisnis, media, dan hiburan. Dua mitra penting adalah Databricks dan Snowflake, keduanya menggabungkan alat Dua Belas Labs ke dalam penawaran mereka.

Databricks mengembangkan integrasi yang memungkinkan pelanggan untuk menggunakan layanan integrasi Dua Belas Labs dari jalur data yang ada. Sementara itu, Snowflake sedang membangun konektor untuk model Dua Belas Labs di Cortex AI, layanan AI yang dikelola sepenuhnya.
“Saat ini kami memiliki lebih dari 30.000 pengembang yang menggunakan platform kami, mulai dari individu yang bereksperimen hingga perusahaan besar yang mengintegrasikan teknologi kami ke dalam alur kerja mereka,” kata Lee. “Misalnya, kami telah bermitra dengan pemerintah kota untuk kasus penggunaan seperti deteksi ancaman secara real-time, meningkatkan waktu tanggap darurat, dan membantu manajemen lalu lintas.”
Untuk menunjukkan dukungan strategis, Databricks dan Snowflake berinvestasi di Dua Belas Labs bulan ini melalui cabang ventura masing-masing. SK Telecom dan Hubspot Ventures bergabung, bersama dengan In-Q-Tel, sebuah modal ventura nirlaba yang berbasis di Arlington, Virginia, yang berinvestasi pada perusahaan rintisan yang mendukung kemampuan intelijen AS.
Total investasi baru berjumlah $30 juta, sehingga total investasi Dua Belas Labs menjadi $107,1 juta. Lee mengatakan keuntungan akan digunakan untuk pengembangan produk dan perekrutan.
“Kami berada dalam posisi fiskal yang sangat kuat, namun kami melihat peluang untuk memperdalam hubungan strategis utama dengan para pemimpin yang sangat percaya pada Dua Belas Labs,” kata Lee. “Saat ini kami memiliki 73 karyawan tetap dan merencanakan investasi perekrutan yang signifikan di bidang teknik, penelitian, dan layanan pelanggan.”
karyawan baru
Berbicara tentang perekrutan, Twelve Labs mengumumkan pada hari Kamis bahwa mereka menambahkan presiden ke C-suite-nya: Yoon Kim, mantan CTO SK Telecom dan arsitek utama di balik Siri Apple. Yoon juga akan menjabat sebagai kepala strategi di Twelve Labs, yang mempelopori rencana ekspansi agresif startup tersebut.
“Meskipun tidak biasa bagi perusahaan sebesar dan setingkat Eleven Labs untuk merekrut seorang presiden, langkah ini merupakan bukti permintaan yang kami alami,” kata Lee, seraya menambahkan bahwa Yoon akan membagi waktu antara kantor pusat Twelve Labs di San Francisco. dan kantornya di Seoul. “Yoon adalah orang yang tepat untuk membantu kami melaksanakannya – dia akan berperan penting dalam mendorong pertumbuhan di masa depan melalui akuisisi-akuisisi penting, memperluas jejak global kami, dan menyelaraskan tim kami menuju tujuan yang ambisius.”
Lee mengatakan tujuannya adalah untuk tumbuh di sektor baru dan industri yang berdekatan, seperti otomotif dan keamanan, di tahun-tahun mendatang. Mengingat keterlibatan In-Q-Tel, keamanan (dan mungkin pekerjaan pertahanan) tampaknya merupakan pilihan yang segera; Lee tidak mengonfirmasi secara langsung hal tersebut.
“Investasi di-Q-Tel mencerminkan keserbagunaan dan potensi teknologi kami di banyak sektor, termasuk keamanan nasional,” kata Lee. “Kami selalu terbuka untuk menjajaki peluang di mana teknologi kami dapat memberikan dampak positif, bermakna, dan bertanggung jawab yang sejalan dengan pedoman etika kami.”