Summer Research Intern at Abaka AI

Mountain View, CAInternshipInternshipPosted about 1 month ago

About the Role

<article class="text-token-text-primary w-full focus:outline-none [--shadow-height:45px] has-data-writing-block:pointer-events-none has-data-writing-block:-mt-(--shadow-height) has-data-writing-block:pt-(--shadow-height) [&:has([data-writing-block])>*]:pointer-events-auto [content-visibility:auto] supports-[content-visibility:auto]:[contain-intrinsic-size:auto_100lvh] scroll-mt-[calc(var(--header-height)+min(200px,max(70px,20svh)))]" data-turn-id="request-WEB:05e34dc7-a5e1-4b82-bbe9-dd79952f9b5e-4" data-testid="conversation-turn-10" data-scroll-anchor="true" data-turn="assistant"> <div class="text-base my-auto mx-auto pb-10 [--thread-content-margin:--spacing(4)] thread-sm:[--thread-content-margin:--spacing(6)] thread-lg:[--thread-content-margin:--spacing(16)] px-(--thread-content-margin)"> <div class="[--thread-content-max-width:40rem] thread-lg:[--thread-content-max-width:48rem] mx-auto max-w-(--thread-content-max-width) flex-1 group/turn-messages focus-visible:outline-hidden relative flex w-full min-w-0 flex-col agent-turn"> <div class="flex max-w-full flex-col grow"> <div class="min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal [.text-message+&]:mt-1" data-message-author-role="assistant" data-message-id="43ef8e81-822d-4c78-8aa6-6eae0f78a0b0" data-message-model-slug="gpt-5"> <div class="flex w-full flex-col gap-1 empty:hidden first:pt-[1px]"> <div class="markdown prose dark:prose-invert w-full break-words light markdown-new-styling"> <div data-page-id="BwPVdLb7xohBUIxnzL1lK2Oeghe" data-lark-html-role="root" data-docx-has-block-data="false"> <article class="text-token-text-primary w-full focus:outline-none [--shadow-height:45px] has-data-writing-block:pointer-events-none has-data-writing-block:-mt-(--shadow-height) has-data-writing-block:pt-(--shadow-height) [&:has([data-writing-block])>*]:pointer-events-auto [content-visibility:auto] supports-[content-visibility:auto]:[contain-intrinsic-size:auto_100lvh] scroll-mt-[calc(var(--header-height)+min(200px,max(70px,20svh)))]" data-turn-id="bf8392ec-c980-4b90-9597-3f6a7b197afa" data-testid="conversation-turn-14" data-scroll-anchor="true" data-turn="assistant"> <div class="text-base my-auto mx-auto pb-10 [--thread-content-margin:--spacing(4)] thread-sm:[--thread-content-margin:--spacing(6)] thread-lg:[--thread-content-margin:--spacing(16)] px-(--thread-content-margin)"> <div class="[--thread-content-max-width:40rem] thread-lg:[--thread-content-max-width:48rem] mx-auto max-w-(--thread-content-max-width) flex-1 group/turn-messages focus-visible:outline-hidden relative flex w-full min-w-0 flex-col agent-turn"> <div class="flex max-w-full flex-col grow"> <div class="min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal [.text-message+&]:mt-1" data-message-author-role="assistant" data-message-id="a55b0d4a-198b-444c-b231-ce415016a8b2" data-message-model-slug="gpt-5"> <div class="flex w-full flex-col gap-1 empty:hidden first:pt-[1px]"> <div class="markdown prose dark:prose-invert w-full break-words light markdown-new-styling"> <div data-page-id="BwPVdLb7xohBUIxnzL1lK2Oeghe" data-lark-html-role="root" data-docx-has-block-data="false"> <div class="ace-line ace-line old-record-id-QECtdTdKZo2HEAxBnZ9lNZKvgDg"> <div data-page-id="VU3bdafgToGuIfxuKGBlbdhTgrE" data-lark-html-role="root" data-docx-has-block-data="false"> <div class="ace-line ace-line old-record-id-CoS3dBSyYoy8THxnQeOlVpeMgzf"><strong>Our Recent Related Work</strong></div> <ul class="list-bullet1"> <li class="ace-line ace-line old-record-id-WrIXdIyTAoAi3IxkDt3lhJQFggf" data-list="bullet"> <div><strong>SuperGPQA (NeurIPS ’25)</strong> – <a href="https://supergpqa.github.io/" data-lark-is-custom="true">https://supergpqa.github.io/</a></div> </li> <li class="ace-line ace-line old-record-id-HyHAdazSQoekNTxp2wolY8rlgsh" data-list="bullet"> <div><strong>ACADREASON</strong> – <a href="https://arxiv.org/pdf/2510.11652" data-lark-is-custom="true">https://arxiv.org/pdf/2510.11652</a></div> </li> <li class="ace-line ace-line old-record-id-NROtdYATFo78lJx2XqrlpgNagrd" data-list="bullet"> <div><strong>Objaverse++</strong> – <a href="https://arxiv.org/abs/2504.07334" data-lark-is-custom="true">https://arxiv.org/abs/2504.07334</a></div> </li> <li class="ace-line ace-line old-record-id-IrgsdLNWCo0Gf5xSR2tlWVghgQb" data-list="bullet"> <div><strong>OmniVideoBench</strong> – <a href="https://arxiv.org/abs/2510.10689" data-lark-is-custom="true">https://arxiv.org/abs/2510.10689</a></div> </li> <li class="ace-line ace-line old-record-id-EGRKdKbDXoWyuFxaFnVlytZQgah" data-list="bullet"> <div><strong>VideoScore2</strong> – <a href="https://www.arxiv.org/abs/2509.22799" data-lark-is-custom="true">https://www.arxiv.org/abs/2509.22799</a></div> </li> <li class="ace-line ace-line old-record-id-TvWjdGwfYow3PUxYm0fllXHPgvh" data-list="bullet"> <div><strong>EditReward (submitted to ICLR ’26)</strong> – <a href="https://arxiv.org/abs/2509.26346" data-lark-is-custom="true">https://arxiv.org/abs/2509.26346</a></div> </li> </ul> <div class="ace-line ace-line old-record-id-SKBfdLQL5oEfRsxY8MdlwOT6gCf"><strong>About the Role</strong></div> <div class="ace-line ace-line old-record-id-JxuQdZoBboUhIExWZK6lvNqYgud">We’re looking for Summer Research Interns to help build high-quality datasets, benchmarks, and evaluation pipelines across LLMs, vision, video, 3D/4D, multimodal reasoning, agentic systems, and world models.</div> <div class="ace-line ace-line old-record-id-FLoPdoN0VoMBYRxQnZKl0dktgMe">In this role, you’ll work closely with our internal research team and external collaborators from the 2077AI Foundation, contributing to research artifacts that are actively used by leading AI labs and academic groups. This internship is ideal for students passionate about evaluation science, dataset construction, and applied AI research at scale.</div> <div class="ace-line ace-line old-record-id-FLoPdoN0VoMBYRxQnZKl0dktgMe"> </div> <div class="ace-line ace-line old-record-id-T6LrdnFbuotFh8xctVLlEPsogRh"><strong>Responsibilities</strong></div> <ul class="list-bullet1"> <li class="ace-line ace-line old-record-id-SXlddNAtsof6cZxZ1A3lmvpzgYb" data-list="bullet"> <div>Design and construct <strong>high-quality datasets and benchmarks</strong> for one or more of the following areas:</div> <ul class="list-bullet2"> <li class="ace-line ace-line old-record-id-AMq4d2VVTocDapxlWFxlZocegEg" data-list="bullet"> <div>LLM reasoning and QA (graduate / PhD-level difficulty)</div> </li> <li class="ace-line ace-line old-record-id-BJDRdt1BOomoSVxHcJ2lcUhfgRg" data-list="bullet"> <div>Vision and vision-language modeling</div> </li> <li class="ace-line ace-line old-record-id-N2dDdcDyUorWUDx9P8Llm7GEg3b" data-list="bullet"> <div>Video understanding, temporal reasoning, and multimodal QA</div> </li> <li class="ace-line ace-line old-record-id-IEcfdNcdBoqPKyxviMtl9aU7gku" data-list="bullet"> <div>3D/4D perception, embodied AI, and spatial reasoning</div> </li> </ul> </li> <li class="ace-line ace-line old-record-id-UIxddxsiNoOA8cxenQplcgjrgMg" data-list="bullet"> <div>Evaluate <strong>LLMs, VLMs, Video-LLMs, and multimodal models</strong> on reasoning, factuality, temporal understanding, and spatial tasks.</div> </li> <li class="ace-line ace-line old-record-id-IOLTdtzTsoHPFfx890WlR1uFgVb" data-list="bullet"> <div>Develop and maintain <strong>evaluation pipelines</strong>, metrics, and quality-control criteria for expert-level data generation.</div> </li> <li class="ace-line ace-line old-record-id-U57zdvDJLoyazsx41FDlq7jIgMh" data-list="bullet"> <div>Analyze model outputs, conduct <strong>error taxonomy and failure analysis</strong>, and summarize insights for internal reports and research papers.</div> </li> <li class="ace-line ace-line old-record-id-NROddkE9DoPQSoxZpfNl5kRzgIu" data-list="bullet"> <div>Support research on <strong>long-context modeling</strong>, data efficiency, compression strategies, and benchmark standardization.</div> </li> <li class="ace-line ace-line old-record-id-WfHqdhFGFoxV6xxVXbAllU7Sgjd" data-list="bullet"> <div>Contribute to <strong>open-source datasets, benchmarks, and public leaderboards</strong> in collaboration with the 2077AI Foundation.</div> </li> </ul> <div class="ace-line ace-line old-record-id-KjJJdzU1aodI33xsx3dlwzGbgmg"> </div> <div class="ace-line ace-line old-record-id-RRkadBDuXoK7zfxrGnElFvHwgFc"><strong>Qualifications</strong></div> <ul class="list-bullet1"> <li class="ace-line ace-line old-record-id-TkkDdNtccoKPhXxJpFAljY7NgGf" data-list="bullet"> <div>Strong background in <strong>computer science, artificial intelligence, robotics, data engineering, or related fields</strong>.</div> </li> <li class="ace-line ace-line old-record-id-LQB4d8lXHozZC2xQES4l5eXKgmd" data-list="bullet"> <div>Hands-on experience with <strong>machine learning</strong><strong> or multimodal systems</strong>, including LLMs, vision models, or video models.</div> </li> <li class="ace-line ace-line old-record-id-DgKodVMAAoc752xjIULlIekXg6c" data-list="bullet"> <div>Proficient in <strong>Python</strong>; experience with <strong>PyTorch</strong> or similar frameworks.</div> </li> <li class="ace-line ace-line old-record-id-HbtvdveD6ogibgx7MLOlzXYzgSb" data-list="bullet"> <div>Strong analytical reasoning skills and ability to reason about model behavior and data quality.</div> </li> <li class="ace-line ace-line old-record-id-N1pAdG5IeoGSkVxEvsSl5uxqglb" data-list="bullet"> <div>Excellent written and verbal English communication skills.</div> </li> </ul> <div class="ace-line ace-line old-record-id-Ht9Cd6HPnohLqyxPGXjlMDxOg6b"> </div> <div class="ace-line ace-line old-record-id-J6sJdmAvloTPkYxoC9glV6CEgwe"><strong>Preferred Qualifications</strong></div> <ul class="list-bullet1"> <li class="ace-line ace-line old-record-id-ZdsGdPJTboPFYpxJNFtlJSoCgFg" data-list="bullet"> <div>Experience with <strong>LLM or multimodal evaluation frameworks</strong> (e.g., LM Eval Harness, OpenCompass).</div> </li> <li class="ace-line ace-line old-record-id-XXUYdgJyJobtVXxGTaAlra0Sgzl" data-list="bullet"> <div>Background in <strong>computer vision, video understanding, or multimodal learning</strong>.</div> </li> <li class="ace-line ace-line old-record-id-PsezdQK8XoRsPuxtJH6lXk9ngnc" data-list="bullet"> <div>Experience with <strong>3D/4D data pipelines</strong>, graphics, or robotics tools (e.g., Blender, COLMAP, PyTorch3D, Open3D).</div> </li> <li class="ace-line ace-line old-record-id-TOZSdNTToozxI0xREMklvISWgMd" data-list="bullet"> <div>Familiarity with <strong>NeRFs, Gaussian Splatting, SLAM, or embodied AI datasets and simulators</strong>.</div> </li> <li class="ace-line ace-line old-record-id-VqrsdXPYmo9qFExTErJlH9j7g7b" data-list="bullet"> <div>Experience with <strong>video QA, action recognition, or long-context transformer models</strong>.</div> </li> <li class="ace-line ace-line old-record-id-JqUcdZ1cgoWlPlx4WGflkhqZgRf" data-list="bullet"> <div>Relevant research experience or publications in top-tier conferences.</div> </li> </ul> <div class="ace-line ace-line old-record-id-LxtpdByrMoO9KVxO0lblHrrQgXd"> </div> <div class="ace-line ace-line old-record-id-UaoTdDsqIom23lxc1A0lxauTg0d"><strong>Compensation & Benefits</strong></div> <div class="ace-line ace-line old-record-id-YnkLd14G4opAQixNtjvlxQJggoe">This is a <strong>paid internship</strong>, with a compensation range of <strong>$25–$60 per hour</strong>, depending on experience and qualifications. This will be an onsite internship based in our <strong>Palo Alto office.</strong></div> <div class="ace-line ace-line old-record-id-AINFdEUrooizgfxyALUlxzuFgdf">Interns will work directly with experienced researchers, contribute to <strong>high-impact open-source benchmarks and datasets</strong>, and gain high-ownership experience shaping evaluation pipelines used by real AI teams. Exceptional performance may lead to <strong>future consideration for full-time opportunities</strong>.</div> </div> </div> </div> </div> </div> </div> </div> </div> </div> </article> </div> </div> </div> </div> </div> </div> </div> </article>

About the Role

About the Role

Related Roles

About the Role

Related Roles